中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > Claude最新資訊  > 正文

    研究人員稱,即使是最糟糕Claude AI版本也比GPT 3.5更好

    2023-10-08 09:47 · 稿源:站長(zhǎng)之家

    文章概要:

    1. 全球排名顯示,Anthropic的Claude AI模型超越了OpenAI的GPT3.5,即使是最差版本也表現(xiàn)出色。

    2. Claude模型在性能評(píng)估中獲得高分,主要由LMSO組織的Chatbot Arena Leaderboard進(jìn)行排名。

    3. Claude模型在處理大規(guī)模上下文輸入和長(zhǎng)提示時(shí)表現(xiàn)出優(yōu)勢(shì),引發(fā)了對(duì)AI聊天機(jī)器人在不同領(lǐng)域的實(shí)際應(yīng)用的重要討論。

    站長(zhǎng)之家(ChinaZ.com)10月8日 消息:10月6日,一場(chǎng)引人入勝的競(jìng)爭(zhēng)正在AI行業(yè)內(nèi)悄然展開,OpenAI的ChatGPT與Anthropic的Claude AI模型之間展開了激烈的角逐。負(fù)責(zé)創(chuàng)建Chatbot Arena和著名的Vicuna模型的大型模型系統(tǒng)組織(LMSO)剛剛更新了他們的Chatbot Arena排行榜,展示了每個(gè)AI聊天機(jī)器人與競(jìng)爭(zhēng)對(duì)手相比的表現(xiàn)。結(jié)果顯示,即使Anthropic的模型仍然免費(fèi)使用,它也在性能上超越了OpenAI,成為了新的全球排名領(lǐng)頭羊。

    GPT-4是ChatGPT Plus和Bing AI背后的強(qiáng)大引擎,以最高分?jǐn)?shù)位居榜首,為大型語(yǔ)言模型(LLM)設(shè)定了黃金標(biāo)準(zhǔn)。但隨著排行榜的下滑,一個(gè)出人意料的劣勢(shì)故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表現(xiàn)出色,超越了驅(qū)動(dòng)ChatGPT免費(fèi)版本的GPT-3.5引擎。這意味著Anthropic開發(fā)的每個(gè)大型語(yǔ)言模型都可以勝過(guò)ChatGPT的免費(fèi)版本。

    LMSO通過(guò)其精細(xì)的排名系統(tǒng)為這些模型的性能指標(biāo)提供了見(jiàn)解。根據(jù)排行榜,GPT-4擁有1181的Arena Elo評(píng)分,遠(yuǎn)遠(yuǎn)領(lǐng)先于榜單,而Claude模型緊隨其后,評(píng)分從1119到1155不等。另一方面,GPT-3.5的評(píng)分為1115。

    為了排名這些模型,LMSO讓它們?cè)谙嗨频奶崾鞠逻M(jìn)行“比賽”。給出最佳答案的模型獲勝,另一個(gè)模型失利。用戶根據(jù)自己的喜好決定誰(shuí)獲勝,但他們永遠(yuǎn)不會(huì)知道哪些模型在競(jìng)爭(zhēng)。

    正如Decrypt之前報(bào)道的那樣,雖然這不是LMSO排名的因素,但在ChatGPT Plus和Claude Pro之間的token處理能力差異也是Claude模型勝過(guò)GPT的主要優(yōu)勢(shì)。

    基于Claude2LLM的Claude Pro可以處理高達(dá)100,000個(gè)信息token,而由GPT-4LLM提供支持的ChatGPT Plus則處理8,192個(gè)令牌,"我們回顧道。這種令牌處理能力的差異突顯了Claude模型在處理廣泛上下文輸入方面的優(yōu)勢(shì),這對(duì)于細(xì)致和豐富的用戶體驗(yàn)至關(guān)重要。

    image.png

    此外,在處理長(zhǎng)提示時(shí),Claude2在效率上表現(xiàn)出優(yōu)勢(shì),可以更有效地處理更大規(guī)模的提示。然而,在提示可比較的情況下,Claude1和Claude Instant提供了與GPT-3.5相似或略優(yōu)的結(jié)果,展示了這些模型的競(jìng)爭(zhēng)性質(zhì)。借助Claude的上下文功能,初始不佳的答案可以通過(guò)更精細(xì)、更大和更豐富的提示得到顯著改進(jìn)。

    開源模型在這場(chǎng)競(jìng)賽中也不遑多讓。

    WizardLM是一個(gè)在Meta的LlaMA-2上訓(xùn)練的擁有700億參數(shù)的最佳開源LLM模型。緊隨其后的是Vicuna33B和由Meta發(fā)布的原始LlaMA-2。

    開源模型在AI領(lǐng)域的發(fā)展中發(fā)揮著重要作用,原因各種各樣。它們可以在本地運(yùn)行,使用戶有機(jī)會(huì)對(duì)其進(jìn)行微調(diào),并使社區(qū)參與到完善模型的集體努力中。由于許可證的原因,它們運(yùn)行成本更低,這就是為什么這個(gè)領(lǐng)域有數(shù)十種開源LLM模型,而只有少數(shù)專有模型的原因。

    但AI聊天機(jī)器人的比賽不僅僅關(guān)乎數(shù)字,還關(guān)乎現(xiàn)實(shí)世界的影響。

    隨著聊天機(jī)器人在從客戶服務(wù)到個(gè)人助手等各個(gè)領(lǐng)域的逐漸融入,它們的效能、適應(yīng)性和準(zhǔn)確性變得至關(guān)重要。由于Claude模型在排名上超越了GPT-3.5,企業(yè)和個(gè)人用戶可能會(huì)發(fā)現(xiàn)自己在評(píng)估哪個(gè)模型最符合其需求時(shí)面臨抉擇。

    舉報(bào)

    • 相關(guān)推薦
    • Claude竟藏著3307種「人格」?深扒70萬(wàn)次對(duì)話,這個(gè)AI會(huì)看人下菜碟

      Anthropic公司通過(guò)分析70萬(wàn)條Claude AI對(duì)話數(shù)據(jù),發(fā)現(xiàn)其AI助手展現(xiàn)出獨(dú)特的價(jià)值觀體系。研究顯示Claude遵循"樂(lè)于助人、誠(chéng)實(shí)無(wú)害"的核心價(jià)值觀,同時(shí)能根據(jù)不同場(chǎng)景靈活調(diào)整回應(yīng)方式。AI表現(xiàn)出3307種價(jià)值觀,分為實(shí)用性、認(rèn)知性、社會(huì)性等五大類,其中28.2%對(duì)話強(qiáng)烈支持用戶價(jià)值觀,3%會(huì)明確抵制不當(dāng)觀點(diǎn)。研究還發(fā)現(xiàn)高價(jià)版AI模型價(jià)值觀表達(dá)更強(qiáng)烈,在學(xué)術(shù)嚴(yán)謹(jǐn)性和情感?

    • “血虧,我花3000+元用Claude做游戲,結(jié)果還不如去「白嫖」Gemini 2.5……”

      作者分享使用AI助手開發(fā)拼字游戲的兩段經(jīng)歷:首次用Claude花費(fèi)417美元(約3042元),開發(fā)過(guò)程充滿痛苦,常出現(xiàn)上下文失效、代碼錯(cuò)誤等問(wèn)題;第二次用Gemini 2.5 Pro+Cursor完全免費(fèi),體驗(yàn)明顯改善,能更好理解項(xiàng)目上下文,開發(fā)更流暢。對(duì)比指出:Claude像健忘的實(shí)習(xí)生,常搞砸項(xiàng)目;Gemini則像可靠的中級(jí)工程師,開發(fā)速度快且穩(wěn)定。但強(qiáng)調(diào)AI仍需人類監(jiān)督測(cè)試,無(wú)法獨(dú)立產(chǎn)出完美代?

    • Claude終于能Research了,打通谷歌全家桶,工作效率10倍提升

      Anthropic推出Claude兩大重磅功能:Research與Google Workspace集成!Research功能讓Claude快速檢索網(wǎng)絡(luò)與內(nèi)部文件,精準(zhǔn)回答復(fù)雜問(wèn)題;而與Google Workspace的深度整合,則讓用戶能無(wú)縫調(diào)用Gmail、日歷和文檔信息,輕松完成從行程規(guī)劃到報(bào)告撰寫的任務(wù)。今天凌晨,Anthropic官方推出了兩個(gè)重磅新功能:Research以及與Google Workspace集成。Anthropic稱Research功能是與Claude合作的新方式。它能從多個(gè)角度分析

    • OpenAI緊急修復(fù)GPT-4o獻(xiàn)媚問(wèn)題,已回滾到老版本

      OpenAI CEO Sam Altman確認(rèn)已修復(fù)GPT-4o"阿諛?lè)畛?問(wèn)題,免費(fèi)用戶已完成100%回滾至舊版本,付費(fèi)用戶預(yù)計(jì)今晚完成更新。此前大量用戶投訴GPT-4o過(guò)度諂媚,甚至出現(xiàn)討好型人格。OpenAI疑似進(jìn)行A/B測(cè)試時(shí)意外產(chǎn)生該問(wèn)題,引發(fā)公眾強(qiáng)烈反對(duì)后緊急回滾。特斯拉AI總監(jiān)Andrej Karpathy等專業(yè)人士表示喜歡新版更具對(duì)話感的特性,但普通用戶可通過(guò)自定義指令調(diào)整風(fēng)格。目前免費(fèi)版已恢復(fù)正常,但使用特定指令仍可調(diào)出類似回答。該事件反映出AI個(gè)性設(shè)置與用戶體驗(yàn)平衡的挑戰(zhàn)。

    • 剛剛,OpenAI發(fā)布GPT-image-1模型,更強(qiáng)吉卜力版本來(lái)啦

      OpenAI發(fā)布全新圖像生成模型GPT-image-1,通過(guò)API向全球開發(fā)者開放。該模型支持精細(xì)控制圖像敏感度、生成效率、背景、輸出格式等參數(shù),并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應(yīng)用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級(jí)功能,圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著,開發(fā)者可通過(guò)API實(shí)現(xiàn)更多創(chuàng)意場(chǎng)景。新模型在?

    • Intel Panther Lake首發(fā)版本曝光!其它等明年

      快科技5月2日消息,根據(jù)最新消息,今年底英特爾將推出PantherLake處理器的首個(gè)SKU4P 8E 0LPE 4Xe版本,其他配置版本則要等到2026年初才會(huì)發(fā)布。4P 8E配置版本與此前傳聞的4P 8E 4LPE 12Xe版本有所不同,該版本版本不包含LPE核顯,搭配的是4個(gè)Xe3GPU核心。該版本TDP為45W,明顯高于LunarLake的17W至28W,綜合來(lái)看,這一配置顯然更適合游戲筆記本,因?yàn)樵谶@種設(shè)備中,集成顯卡的重要性相對(duì)較低。目前PantherLake已曝光的SKU共有四個(gè),具體如下:4P-Cores 8E-Cores 0LP-ECores 4Xe3Cores(45W)4P-Cores 8E-Cores 4LP-ECores 12Xe3Cores(25W)4P

    • 超過(guò)ChatGPT、Deepseek?谷歌發(fā)布 Gemini 2.5 Flash AI 模型

      新版AI模型縮短了響應(yīng)時(shí)間,節(jié)約了運(yùn)算成本;還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”,據(jù)稱,這款A(yù)I模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計(jì)劃在三星今年上半年推出的AI伴侶機(jī)器人Ballie上搭載生成式AI模型。

    • AI日?qǐng)?bào):通義千問(wèn)Qwen3重磅發(fā)布;抖音AI搜索能力開放;ChatGPT 搜索新增網(wǎng)購(gòu)功能;Suno V4.5版本將發(fā)布

      本期AI日?qǐng)?bào)重點(diǎn)內(nèi)容: 1. 通義千問(wèn)發(fā)布Qwen3大模型,在代碼、數(shù)學(xué)和通用能力方面表現(xiàn)突出,支持兩種思考模式并開源多個(gè)模型權(quán)重 2. 抖音開放AI搜索能力接口,為第三方應(yīng)用提供豐富內(nèi)容資源 3. ChatGPT新增網(wǎng)購(gòu)功能,通過(guò)對(duì)話獲取個(gè)性化商品推薦 4. Suno AI即將推出V4.5版本,提升音樂(lè)生成真實(shí)度 5. Simular AI登陸macOS,打造本地化智能助手 6. 暗月之面開源Kimi-VL模型,可處理文本、圖像和視頻 7. UCLA與Meta推出d1框架,提升大語(yǔ)言模型推理速度 8. 通義靈碼上線Qwen3編程智能體 9. Gen-4References圖像生成技術(shù)驚艷亮相 10. Hugging Face推出可編程機(jī)械臂SO-101 11. Windsurf推出全新品牌標(biāo)志 12. Ollama全面支持Qwen3模型本地部署

    • 亞馬遜推出AI語(yǔ)音模型Nova Sonic:價(jià)格比GPT-4o便宜80%

      亞馬遜正式推出新一代生成式AI語(yǔ)音模型NovaSonic,標(biāo)志著其在人工智能語(yǔ)音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語(yǔ)音輸入并生成自然流暢的語(yǔ)音輸出,在速度、語(yǔ)音識(shí)別準(zhǔn)確率和對(duì)話質(zhì)量等核心性能指標(biāo)上,已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語(yǔ)音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步,未來(lái)還將推出支持多模態(tài)理解的AI模型,涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

    • GPT-4.5功臣遭驅(qū)逐,奧特曼盛贊工作出色,美國(guó)深陷AI人才危機(jī)

      OpenAI核心開發(fā)者Kai Chen因綠卡申請(qǐng)被拒面臨離境困境。作為GPT-4.5核心開發(fā)者之一,她的遭遇引發(fā)業(yè)內(nèi)震動(dòng)。同時(shí),1700多名國(guó)際學(xué)生和研究人員簽證受阻,《自然》調(diào)查顯示75%的美國(guó)科學(xué)家正考慮離開。移民政策收緊正導(dǎo)致美國(guó)AI領(lǐng)域人才流失,可能動(dòng)搖其技術(shù)領(lǐng)先地位。OpenAI員工透露公司高度依賴海外人才,去年提交了80多份H-1B簽證申請(qǐng)。喬治城大學(xué)研究顯示,美國(guó)66%頂尖AI公