研究人員稱，即使是最糟糕Claude AI版本也比GPT 3.5更好

2023-10-08 09:47 · 稿源：站長(zhǎng)之家

文章概要:
1. 全球排名顯示，Anthropic的Claude AI模型超越了OpenAI的GPT3.5，即使是最差版本也表現(xiàn)出色。
2. Claude模型在性能評(píng)估中獲得高分，主要由LMSO組織的Chatbot Arena Leaderboard進(jìn)行排名。
3. Claude模型在處理大規(guī)模上下文輸入和長(zhǎng)提示時(shí)表現(xiàn)出優(yōu)勢(shì)，引發(fā)了對(duì)AI聊天機(jī)器人在不同領(lǐng)域的實(shí)際應(yīng)用的重要討論。

站長(zhǎng)之家（ChinaZ.com）10月8日消息:10月6日，一場(chǎng)引人入勝的競(jìng)爭(zhēng)正在AI行業(yè)內(nèi)悄然展開，OpenAI的ChatGPT與Anthropic的Claude AI模型之間展開了激烈的角逐。負(fù)責(zé)創(chuàng)建Chatbot Arena和著名的Vicuna模型的大型模型系統(tǒng)組織（LMSO）剛剛更新了他們的Chatbot Arena排行榜，展示了每個(gè)AI聊天機(jī)器人與競(jìng)爭(zhēng)對(duì)手相比的表現(xiàn)。結(jié)果顯示，即使Anthropic的模型仍然免費(fèi)使用，它也在性能上超越了OpenAI，成為了新的全球排名領(lǐng)頭羊。

GPT-4是ChatGPT Plus和Bing AI背后的強(qiáng)大引擎，以最高分?jǐn)?shù)位居榜首，為大型語(yǔ)言模型（LLM）設(shè)定了黃金標(biāo)準(zhǔn)。但隨著排行榜的下滑，一個(gè)出人意料的劣勢(shì)故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表現(xiàn)出色，超越了驅(qū)動(dòng)ChatGPT免費(fèi)版本的GPT-3.5引擎。這意味著Anthropic開發(fā)的每個(gè)大型語(yǔ)言模型都可以勝過(guò)ChatGPT的免費(fèi)版本。

LMSO通過(guò)其精細(xì)的排名系統(tǒng)為這些模型的性能指標(biāo)提供了見(jiàn)解。根據(jù)排行榜，GPT-4擁有1181的Arena Elo評(píng)分，遠(yuǎn)遠(yuǎn)領(lǐng)先于榜單，而Claude模型緊隨其后，評(píng)分從1119到1155不等。另一方面，GPT-3.5的評(píng)分為1115。

為了排名這些模型，LMSO讓它們?cè)谙嗨频奶崾鞠逻M(jìn)行“比賽”。給出最佳答案的模型獲勝，另一個(gè)模型失利。用戶根據(jù)自己的喜好決定誰(shuí)獲勝，但他們永遠(yuǎn)不會(huì)知道哪些模型在競(jìng)爭(zhēng)。

正如Decrypt之前報(bào)道的那樣，雖然這不是LMSO排名的因素，但在ChatGPT Plus和Claude Pro之間的token處理能力差異也是Claude模型勝過(guò)GPT的主要優(yōu)勢(shì)。

基于Claude2LLM的Claude Pro可以處理高達(dá)100，000個(gè)信息token，而由GPT-4LLM提供支持的ChatGPT Plus則處理8，192個(gè)令牌，"我們回顧道。這種令牌處理能力的差異突顯了Claude模型在處理廣泛上下文輸入方面的優(yōu)勢(shì)，這對(duì)于細(xì)致和豐富的用戶體驗(yàn)至關(guān)重要。

此外，在處理長(zhǎng)提示時(shí)，Claude2在效率上表現(xiàn)出優(yōu)勢(shì)，可以更有效地處理更大規(guī)模的提示。然而，在提示可比較的情況下，Claude1和Claude Instant提供了與GPT-3.5相似或略優(yōu)的結(jié)果，展示了這些模型的競(jìng)爭(zhēng)性質(zhì)。借助Claude的上下文功能，初始不佳的答案可以通過(guò)更精細(xì)、更大和更豐富的提示得到顯著改進(jìn)。

開源模型在這場(chǎng)競(jìng)賽中也不遑多讓。

WizardLM是一個(gè)在Meta的LlaMA-2上訓(xùn)練的擁有700億參數(shù)的最佳開源LLM模型。緊隨其后的是Vicuna33B和由Meta發(fā)布的原始LlaMA-2。

開源模型在AI領(lǐng)域的發(fā)展中發(fā)揮著重要作用，原因各種各樣。它們可以在本地運(yùn)行，使用戶有機(jī)會(huì)對(duì)其進(jìn)行微調(diào)，并使社區(qū)參與到完善模型的集體努力中。由于許可證的原因，它們運(yùn)行成本更低，這就是為什么這個(gè)領(lǐng)域有數(shù)十種開源LLM模型，而只有少數(shù)專有模型的原因。

但AI聊天機(jī)器人的比賽不僅僅關(guān)乎數(shù)字，還關(guān)乎現(xiàn)實(shí)世界的影響。

隨著聊天機(jī)器人在從客戶服務(wù)到個(gè)人助手等各個(gè)領(lǐng)域的逐漸融入，它們的效能、適應(yīng)性和準(zhǔn)確性變得至關(guān)重要。由于Claude模型在排名上超越了GPT-3.5，企業(yè)和個(gè)人用戶可能會(huì)發(fā)現(xiàn)自己在評(píng)估哪個(gè)模型最符合其需求時(shí)面臨抉擇。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

薦Claude竟藏著3307種「人格」？深扒70萬(wàn)次對(duì)話，這個(gè)AI會(huì)看人下菜碟

Anthropic公司通過(guò)分析70萬(wàn)條Claude AI對(duì)話數(shù)據(jù)，發(fā)現(xiàn)其AI助手展現(xiàn)出獨(dú)特的價(jià)值觀體系。研究顯示Claude遵循"樂(lè)于助人、誠(chéng)實(shí)無(wú)害"的核心價(jià)值觀，同時(shí)能根據(jù)不同場(chǎng)景靈活調(diào)整回應(yīng)方式。AI表現(xiàn)出3307種價(jià)值觀，分為實(shí)用性、認(rèn)知性、社會(huì)性等五大類，其中28.2%對(duì)話強(qiáng)烈支持用戶價(jià)值觀，3%會(huì)明確抵制不當(dāng)觀點(diǎn)。研究還發(fā)現(xiàn)高價(jià)版AI模型價(jià)值觀表達(dá)更強(qiáng)烈，在學(xué)術(shù)嚴(yán)謹(jǐn)性和情感?

?AI對(duì)話 ?價(jià)值觀 ?隱私
薦“血虧，我花3000+元用Claude做游戲，結(jié)果還不如去「白嫖」Gemini 2.5……”

作者分享使用AI助手開發(fā)拼字游戲的兩段經(jīng)歷：首次用Claude花費(fèi)417美元(約3042元)，開發(fā)過(guò)程充滿痛苦，常出現(xiàn)上下文失效、代碼錯(cuò)誤等問(wèn)題；第二次用Gemini 2.5 Pro+Cursor完全免費(fèi)，體驗(yàn)明顯改善，能更好理解項(xiàng)目上下文，開發(fā)更流暢。對(duì)比指出：Claude像健忘的實(shí)習(xí)生，常搞砸項(xiàng)目；Gemini則像可靠的中級(jí)工程師，開發(fā)速度快且穩(wěn)定。但強(qiáng)調(diào)AI仍需人類監(jiān)督測(cè)試，無(wú)法獨(dú)立產(chǎn)出完美代?

?拼字游戲 ?AI編程 ?Claude
薦Claude終于能Research了，打通谷歌全家桶，工作效率10倍提升

Anthropic推出Claude兩大重磅功能:Research與Google Workspace集成!Research功能讓Claude快速檢索網(wǎng)絡(luò)與內(nèi)部文件，精準(zhǔn)回答復(fù)雜問(wèn)題;而與Google Workspace的深度整合，則讓用戶能無(wú)縫調(diào)用Gmail、日歷和文檔信息，輕松完成從行程規(guī)劃到報(bào)告撰寫的任務(wù)。今天凌晨，Anthropic官方推出了兩個(gè)重磅新功能:Research以及與Google Workspace集成。Anthropic稱Research功能是與Claude合作的新方式。它能從多個(gè)角度分析

?Claude ?Anthropic ?Research功能
薦OpenAI緊急修復(fù)GPT-4o獻(xiàn)媚問(wèn)題，已回滾到老版本

OpenAI CEO Sam Altman確認(rèn)已修復(fù)GPT-4o"阿諛?lè)畛?問(wèn)題，免費(fèi)用戶已完成100%回滾至舊版本，付費(fèi)用戶預(yù)計(jì)今晚完成更新。此前大量用戶投訴GPT-4o過(guò)度諂媚，甚至出現(xiàn)討好型人格。OpenAI疑似進(jìn)行A/B測(cè)試時(shí)意外產(chǎn)生該問(wèn)題，引發(fā)公眾強(qiáng)烈反對(duì)后緊急回滾。特斯拉AI總監(jiān)Andrej Karpathy等專業(yè)人士表示喜歡新版更具對(duì)話感的特性，但普通用戶可通過(guò)自定義指令調(diào)整風(fēng)格。目前免費(fèi)版已恢復(fù)正常，但使用特定指令仍可調(diào)出類似回答。該事件反映出AI個(gè)性設(shè)置與用戶體驗(yàn)平衡的挑戰(zhàn)。

?OpenAI ?GPT-4o ?Sam
薦剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來(lái)啦

OpenAI發(fā)布全新圖像生成模型GPT-image-1，通過(guò)API向全球開發(fā)者開放。該模型支持精細(xì)控制圖像敏感度、生成效率、背景、輸出格式等參數(shù)，并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應(yīng)用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級(jí)功能，圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著，開發(fā)者可通過(guò)API實(shí)現(xiàn)更多創(chuàng)意場(chǎng)景。新模型在?

?OpenAI ?GPT-image-1 ?圖像生成
Intel Panther Lake首發(fā)版本曝光！其它等明年

快科技5月2日消息，根據(jù)最新消息，今年底英特爾將推出PantherLake處理器的首個(gè)SKU4P 8E 0LPE 4Xe版本，其他配置版本則要等到2026年初才會(huì)發(fā)布。4P 8E配置版本與此前傳聞的4P 8E 4LPE 12Xe版本有所不同，該版本版本不包含LPE核顯，搭配的是4個(gè)Xe3GPU核心。該版本TDP為45W，明顯高于LunarLake的17W至28W，綜合來(lái)看，這一配置顯然更適合游戲筆記本，因?yàn)樵谶@種設(shè)備中，集成顯卡的重要性相對(duì)較低。目前PantherLake已曝光的SKU共有四個(gè)，具體如下：4P-Cores 8E-Cores 0LP-ECores 4Xe3Cores(45W)4P-Cores 8E-Cores 4LP-ECores 12Xe3Cores(25W)4P

?PantherLake處理器 ?英特爾新產(chǎn)品 ?游戲筆記本配置
超過(guò)ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

新版AI模型縮短了響應(yīng)時(shí)間，節(jié)約了運(yùn)算成本；還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”，據(jù)稱，這款A(yù)I模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計(jì)劃在三星今年上半年推出的AI伴侶機(jī)器人Ballie上搭載生成式AI模型。

?AI模型 ?谷歌 ?Gemini
薦AI日?qǐng)?bào)：通義千問(wèn)Qwen3重磅發(fā)布；抖音AI搜索能力開放；ChatGPT 搜索新增網(wǎng)購(gòu)功能；Suno V4.5版本將發(fā)布

本期AI日?qǐng)?bào)重點(diǎn)內(nèi)容： 1. 通義千問(wèn)發(fā)布Qwen3大模型，在代碼、數(shù)學(xué)和通用能力方面表現(xiàn)突出，支持兩種思考模式并開源多個(gè)模型權(quán)重 2. 抖音開放AI搜索能力接口，為第三方應(yīng)用提供豐富內(nèi)容資源 3. ChatGPT新增網(wǎng)購(gòu)功能，通過(guò)對(duì)話獲取個(gè)性化商品推薦 4. Suno AI即將推出V4.5版本，提升音樂(lè)生成真實(shí)度 5. Simular AI登陸macOS，打造本地化智能助手 6. 暗月之面開源Kimi-VL模型，可處理文本、圖像和視頻 7. UCLA與Meta推出d1框架，提升大語(yǔ)言模型推理速度 8. 通義靈碼上線Qwen3編程智能體 9. Gen-4References圖像生成技術(shù)驚艷亮相 10. Hugging Face推出可編程機(jī)械臂SO-101 11. Windsurf推出全新品牌標(biāo)志 12. Ollama全面支持Qwen3模型本地部署

?人工智能 ?大型語(yǔ)言模型 ?Qwen3
亞馬遜推出AI語(yǔ)音模型Nova Sonic：價(jià)格比GPT-4o便宜80%

亞馬遜正式推出新一代生成式AI語(yǔ)音模型NovaSonic，標(biāo)志著其在人工智能語(yǔ)音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語(yǔ)音輸入并生成自然流暢的語(yǔ)音輸出，在速度、語(yǔ)音識(shí)別準(zhǔn)確率和對(duì)話質(zhì)量等核心性能指標(biāo)上，已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語(yǔ)音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步，未來(lái)還將推出支持多模態(tài)理解的AI模型，涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

?亞馬遜 ?生成式AI ?Nova
薦GPT-4.5功臣遭驅(qū)逐，奧特曼盛贊工作出色，美國(guó)深陷AI人才危機(jī)

OpenAI核心開發(fā)者Kai Chen因綠卡申請(qǐng)被拒面臨離境困境。作為GPT-4.5核心開發(fā)者之一，她的遭遇引發(fā)業(yè)內(nèi)震動(dòng)。同時(shí)，1700多名國(guó)際學(xué)生和研究人員簽證受阻，《自然》調(diào)查顯示75%的美國(guó)科學(xué)家正考慮離開。移民政策收緊正導(dǎo)致美國(guó)AI領(lǐng)域人才流失，可能動(dòng)搖其技術(shù)領(lǐng)先地位。OpenAI員工透露公司高度依賴海外人才，去年提交了80多份H-1B簽證申請(qǐng)。喬治城大學(xué)研究顯示，美國(guó)66%頂尖AI公

?GPT-4.5開發(fā)者 ?美國(guó)科學(xué)家簽證 ?人才流失

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

研究人員稱，即使是最糟糕Claude AI版本也比GPT 3.5更好

薦Claude竟藏著3307種「人格」？深扒70萬(wàn)次對(duì)話，這個(gè)AI會(huì)看人下菜碟

薦“血虧，我花3000+元用Claude做游戲，結(jié)果還不如去「白嫖」Gemini 2.5……”

薦Claude終于能Research了，打通谷歌全家桶，工作效率10倍提升

薦OpenAI緊急修復(fù)GPT-4o獻(xiàn)媚問(wèn)題，已回滾到老版本

薦剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來(lái)啦

Intel Panther Lake首發(fā)版本曝光！其它等明年

超過(guò)ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

薦AI日?qǐng)?bào)：通義千問(wèn)Qwen3重磅發(fā)布；抖音AI搜索能力開放；ChatGPT 搜索新增網(wǎng)購(gòu)功能；Suno V4.5版本將發(fā)布

亞馬遜推出AI語(yǔ)音模型Nova Sonic：價(jià)格比GPT-4o便宜80%

薦GPT-4.5功臣遭驅(qū)逐，奧特曼盛贊工作出色，美國(guó)深陷AI人才危機(jī)

熱文

全網(wǎng)最大的“AI色情網(wǎng)站”MrDeepfakes宣布永久關(guān)閉

馬斯克稱地球會(huì)被太陽(yáng)焚化，網(wǎng)友：有科學(xué)依據(jù)，但…

20周年紀(jì)念版iPhone迎來(lái)重大變革，全屏設(shè)計(jì)+屏下攝像頭

全網(wǎng)最大的“AI色情網(wǎng)站”MrDeepfakes宣布永久關(guān)閉

馬斯克稱地球會(huì)被太陽(yáng)焚化，網(wǎng)友：有科學(xué)依據(jù)，但…

20周年紀(jì)念版iPhone迎來(lái)重大變革，全屏設(shè)計(jì)+屏下攝像頭

站長(zhǎng)商機(jī)

研究人員稱，即使是最糟糕Claude AI版本也比GPT 3.5更好

熱文

站長(zhǎng)商機(jī)

研究人員稱，即使是最糟糕Claude AI版本也比GPT 3.5更好