中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

2025-04-08 20:45 · 稿源： TechWeb.com.cn

4月8日消息，被寄予厚望的美國Meta公司的最新開源大模型 Llama 4發(fā)布不到2天時(shí)間，口碑急轉(zhuǎn)直下，被質(zhì)疑為刷榜作弊實(shí)際效果差、開源條件多部署門檻高是偽開源等。

今天，大模型評測平臺LM Arena親自下場發(fā)文，打臉Meta提供給平臺的Llama 4是“特供版”。

據(jù)知情人士爆料稱，Meta因面臨DeepSeek、Gemini等競品的快速迭代壓力，選擇“倉促發(fā)布未完成優(yōu)化的模型”，犧牲技術(shù)嚴(yán)謹(jǐn)性以追趕進(jìn)度。

Llama 4亮相，LMSYS榜單排名第二

在周日，大模型開源屆的旗幟Meta發(fā)布了最新的大模型Llama 4，包含Scout、Maverick和Behemoth三個(gè)版本。

Llama 4以全系列首次采用混合專家（MoE）架構(gòu)、高效推理和長上下文處理為亮點(diǎn)。

根據(jù)Meta公開的信息和數(shù)據(jù)，在基準(zhǔn)測試中，Llama 4三大版本均有優(yōu)異表現(xiàn)：

Llama-4-Maverick在LMSYS排行榜（也被稱為Chatbot Arena或LM Arena）中排名第二，僅次于Gemini 2.5 Pro。

在圖像推理任務(wù)（MMMU、MathVista）中得分超越GPT-4o和Gemini 2.0，但編程和科學(xué)推理能力落后于DeepSeek V3和Claude 3.7。

Llama-4-Scout通用任務(wù)得分較低（如Intelligence Index僅36），與GPT-4o mini相當(dāng)，但在長文本處理和小規(guī)模部署中具備實(shí)用性，支持1000萬token上下文窗口（相當(dāng)于15000頁文本），適用于長文檔分析、代碼庫推理等場景，為行業(yè)領(lǐng)先水平。

Llama-4-Behemoth目前仍在訓(xùn)練中，但已公布的STEM測試成績（如MATH-500 95.0）超越GPT-4.5和Gemini 2.0 Pro。

另外，Maverick的推理成本為每百萬token輸入0.19-0.49美元，遠(yuǎn)低于GPT-4o（約4.38美元），且支持多模態(tài)輸入，性價(jià)比突出。

看到Llama 4性能強(qiáng)大，業(yè)內(nèi)一時(shí)之間熱情澎湃，盛贊大模型開源屆再迎來強(qiáng)力軍。

但是，試用后，開發(fā)者們發(fā)現(xiàn)事情沒那么簡單。

實(shí)測水準(zhǔn)拉垮

Meta CEO 扎克伯格在Llama 4發(fā)布時(shí)曾宣稱其“AI編程水平將達(dá)中級工程師”，但用戶在對Llama 4進(jìn)行實(shí)測時(shí)卻發(fā)現(xiàn)巨大反差。

在多項(xiàng)基準(zhǔn)測試中，Llama 4的表現(xiàn)遠(yuǎn)低于預(yù)期。Maverick在aider polyglot多語言編碼測試中僅得16%，遠(yuǎn)低于Qwen-32B等競品，甚至被用戶稱為“糟糕透頂?shù)木幊棠Ｐ汀薄?/p>

Maverick在基礎(chǔ)編程任務(wù)（HumanEval）得分僅接近GPT-4o mini，遠(yuǎn)低于DeepSeek V3。

盡管Llama-4-Scout支持1000萬token上下文窗口，但實(shí)際測試顯示其召回率在16K token時(shí)僅22%。有用戶將《哈利?波特》全書輸入后Scout回答問題的正確率，遠(yuǎn)低于Gemini 2.5 Pro等對手。

此外，還有用戶測試發(fā)現(xiàn)，Llama 4生成的物理動(dòng)畫違背基本規(guī)律，如小球彈跳軌跡錯(cuò)誤，并且需多次嘗試才能完成復(fù)雜邏輯鏈任務(wù)，而DeepSeek和Gemini等都可一次成功。

獨(dú)立評測機(jī)構(gòu)Artificial Analysis指出，Llama 4在綜合推理、科學(xué)任務(wù)和編碼中與頂級模型存在系統(tǒng)性差距。Maverick的Intelligence Index得分僅49，遠(yuǎn)低于Gemini 2.5 Pro（68）和DeepSeek R1（66）。

Llama 4的實(shí)際表現(xiàn)如此一般，引發(fā)用戶對其夸大宣傳的強(qiáng)烈質(zhì)疑。

被曝作弊刷榜

與此同時(shí)，Meta前員工在論壇“一畝三分地”匿名發(fā)帖等多個(gè)消息源指出，Llama 4在訓(xùn)練后期階段將基準(zhǔn)測試的測試集數(shù)據(jù)混入訓(xùn)練數(shù)據(jù)，以此提升模型在評測榜單上的表現(xiàn)。

這種做法使模型在特定測試中過擬合，短期可以提升排名，但實(shí)際應(yīng)用表現(xiàn)遠(yuǎn)低于預(yù)期，因此也被業(yè)內(nèi)認(rèn)為是作弊來刷榜單排名。

不過，很快，Meta研究科學(xué)家主管Licheng Yu實(shí)名辟謠，團(tuán)隊(duì)根本沒有針對測試集過擬合訓(xùn)練。Meta首席AI科學(xué)家的Yann LeCun也發(fā)帖力挺。

但是，開源社區(qū)的用戶還發(fā)現(xiàn)Meta提供的Llama 4榜單版本與開源版本不同。

也就是，Meta提交給評測平臺LM Arena的Llama-4-Maverick是一個(gè)實(shí)驗(yàn)性聊天優(yōu)化版本，其行為與公開發(fā)布的基礎(chǔ)版存在顯著差異，如回答風(fēng)格更冗長、使用表情符號等。

這被質(zhì)疑為“針對榜單優(yōu)化的特供版”，誤導(dǎo)開發(fā)者對模型真實(shí)能力的判斷。

進(jìn)一步加劇了大模型開源社區(qū)用戶對Llama 4能力的質(zhì)疑。

在經(jīng)過2天發(fā)酵后，今天，Chatbot Arena官方發(fā)文確認(rèn)了用戶的上述質(zhì)疑，公開表示Meta提供給他們的是“特供版”，并考慮更新排行榜。

Chatbot Arena官方發(fā)文：

“我們已經(jīng)看到社區(qū)對Llama-4在Arena上的最新發(fā)布提出了問題。為了確保完全透明，我們正在發(fā)布2000多個(gè)一對一模型對戰(zhàn)結(jié)果供公眾審查。這包括用戶提示、模型響應(yīng)和用戶偏好。

初步分析顯示，模型回復(fù)風(fēng)格和語氣是重要影響因素，我們正在進(jìn)行更深入的分析以了解更多!

此外，我們還將 Llama-4-Maverick的 HF（HuggingFace）版本添加到 Arena中，排行榜結(jié)果將很快公布。

Meta 對我們政策的解釋與我們對模型提供者的期望不符。Meta應(yīng)該更清楚地說明“Llama-4-Maverick-03-26-Experimental”是一個(gè)經(jīng)過人類偏好優(yōu)化的定制模型。

因此我們正在更新我們的排行榜政策，以加強(qiáng)我們對公平、可重復(fù)評估的承諾，從而避免未來出現(xiàn)這種混淆?！?/p>

“偽開源”，比DeepSeek差遠(yuǎn)了

一直以來，Meta都以大模型開源路線領(lǐng)路人自居，有了DeepSeek珠玉在前，這次Llama 4的開源方式，反而動(dòng)搖了Meta作為開源標(biāo)桿的地位。

Llama 4執(zhí)行的非標(biāo)準(zhǔn)開源許可，而是采用Meta自定義的許可條款，對商業(yè)使用和分發(fā)設(shè)置了多重限制。例如，月活躍用戶超過7億的公司需向Meta單獨(dú)申請授權(quán)，且Meta可自行決定是否批準(zhǔn)。競爭對手員工被禁止接觸模型，要求所有衍生模型名稱必須以“Llama”開頭，并在界面、文檔中突出顯示“Made with Llama”水印等。

而DeepSeek R1遵循標(biāo)準(zhǔn)的開源協(xié)議MIT許可協(xié)議，允許自由使用、修改、分發(fā)及商業(yè)化，僅需保留原始版權(quán)聲明和許可聲明。無商業(yè)限制，企業(yè)對模型的使用無需額外授權(quán)，且可基于MIT許可開發(fā)閉源商業(yè)產(chǎn)品。

開放源代碼促進(jìn)會（OSI）定義的“開源”需允許自由修改和分發(fā)，而Meta的條款明顯違背這一原則。僅從開源許可方面來看，和DeepSeek R1相比，Llama 4的開放性差遠(yuǎn)了。

Llama 4開源僅提供模型參數(shù)，缺乏對訓(xùn)練流程、數(shù)據(jù)清洗策略的披露，未公開完整的訓(xùn)練數(shù)據(jù)集和超參數(shù)優(yōu)化細(xì)節(jié)，如MetaP方法的核心邏輯，開發(fā)者無法復(fù)現(xiàn)或改進(jìn)模型。此舉被社區(qū)用戶質(zhì)疑為“黑箱式共享”。

另外，Llama 4還設(shè)置了諸多限制，比如，繁瑣的申請流程，用戶需登錄Hugging Face賬號并填寫包含個(gè)人身份、公司信息、稅務(wù)標(biāo)識等詳細(xì)資料的申請表，稍有錯(cuò)漏可能被永久拉黑且無申訴渠道。

相比之下，國內(nèi)開源模型如DeepSeek、通義千問等都無需復(fù)雜流程即可直接使用。

此外，Llama-4-Scout和Maverick雖宣稱支持單卡運(yùn)行，但需要NVIDIA H100等高端GPU（單卡成本超3萬美元），普通開發(fā)者難以負(fù)擔(dān)。用戶認(rèn)為，真正的開源應(yīng)兼顧不同硬件環(huán)境。

總之，Meta針對Llama 4開源的一系列騷操作，被開發(fā)者批評“背離開源精神”，是“既要開源流量，又防社區(qū)威脅”的雙標(biāo)策略，進(jìn)一步加劇Llama 4的信任危機(jī)。

Meta的Llama 4本被寄予厚望，卻在短短兩天內(nèi)因作弊刷榜、代碼能力拉垮、偽開源爭議跌落神壇。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺，恐將在AI競賽中進(jìn)一步失去開發(fā)者支持。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

薦反擊DeepSeek失??！Llama 4效果不好，Meta承認(rèn)有問題

今天凌晨1點(diǎn)半，Meta生成式AI領(lǐng)導(dǎo)者AhmadAl-Dahle在社交平臺發(fā)布了一篇長文，對前天剛開源的Llama4質(zhì)疑進(jìn)行了官方回應(yīng)。Ahmad表示，Llama4一開發(fā)完就發(fā)布了，所以，不同服務(wù)中模型質(zhì)量難免會有一些差異。由于關(guān)稅大戰(zhàn)的原因，Meta的股票遭遇重創(chuàng)，他們也需要一個(gè)利好消息來拉升股票，現(xiàn)在適得其反。

?Meta ?Llama4 ?生成式AI
實(shí)錘了，Llama 4重測排名掉至32名！遠(yuǎn)不及DeepSeek和Qwen

LMArena更新了Meta最新發(fā)布的開源大模型Llama-4-Maverick的排名，從此前的第2名，直線掉到了第32名！這也實(shí)錘了此前開發(fā)者對Meta為刷榜排名向LMArena提供了“特供版”的Llama4大模型的質(zhì)疑。開源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名為32名，遠(yuǎn)低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max，甚至連英偉達(dá)基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

?Meta ?Llama ?4
薦剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態(tài)巨獸搶回王座

Llama4重磅發(fā)布了!Meta官宣開源首個(gè)原生多模態(tài)Llama4，首次采用的MoE架構(gòu)，支持12種語言，首批發(fā)布一共兩款:Llama4Scout:共有1090億參數(shù)，17B活躍參數(shù)，16個(gè)專家，1000萬上下Llama4Maverick:共有4000億參數(shù)，17B活躍參數(shù)，128個(gè)專家，100萬上下文另外，2萬億參數(shù)Llama4Behemoth將在未來幾個(gè)月面世，288B活躍參數(shù)，16個(gè)專家。Llama4的橫空出世，成為迄今為止開源最強(qiáng)，多模態(tài)能力最好的模型之一。L

?Llama4 ?多模態(tài)AI ?Meta開源
LIama 4發(fā)布重奪開源第一！DeepSeek同等代碼能力但參數(shù)減一半，一張H100就能跑，還有兩萬億參數(shù)超大杯

AI不過周末，硅谷也是如此。Llama家族上新，一群LIama4就這么突然發(fā)布了。太平洋這頭，已經(jīng)開始落地應(yīng)用和智能體了。

?Llama4 ?Meta ?MoE架構(gòu)
DeepSeek上新！開源發(fā)布DeepSeek-Prover-V2-671B新模型

快科技4月30日消息，今日，DeepSeek 今日在 AI 開源社區(qū) Hugging Face 發(fā)布了一個(gè)名為 DeepSeek-Prover-V2-671B 的新模型。據(jù)介紹，DeepSeek-Prover-V2-671B 其參數(shù)量達(dá)到6710億，使用了更高效的 safetensors 文件格式，并支持 BF16、FP8、F32 等多種計(jì)算精度，方便模型更快、更省資源地訓(xùn)練和部署。在模型架構(gòu)上，該模型使用了DeepSeek-V3架構(gòu)，采用MoE（混合專家）模式，具有61層Transformer層，7168維隱藏層。同時(shí)支持超長上下文，最大位置嵌入達(dá)163840，使其能處理復(fù)雜的數(shù)學(xué)證明，并且采用了FP8量化，可通過量化技術(shù)減小模型大小，提

?DeepSeek ?AI模型發(fā)布 ?開源社區(qū)
DeepSeek領(lǐng)航大模型普惠化浪潮，xAI/微美全息加速開源AI布局打造新格局

DeepSeek 作為當(dāng)前最受關(guān)注的大模型之一，憑借其技術(shù)創(chuàng)新正在加速 AI 普惠化進(jìn)程。根據(jù)機(jī)構(gòu)新報(bào)告顯示，DeepSeek已經(jīng)成為全球增長最快的AI工具，其每月新增網(wǎng)站訪問量已經(jīng)超過OpenAI的ChatGPT。DeepSeek市場份額全球第三目前，DeepSeek市場份額6.58%，僅次于ChatGPT和Canva。DeepSeek是繼ChatGPT之后的又一現(xiàn)象級AI產(chǎn)品，它的市場份額從2.34%快速增長至6.58%，展現(xiàn)出強(qiáng)勁的增長態(tài)勢。全球著名?

?DeepSeek ?AI工具 ?技術(shù)創(chuàng)新
薦DeepSeek帶飛寒武紀(jì)

寒武紀(jì)憑借AI芯片業(yè)務(wù)實(shí)現(xiàn)扭虧為盈，2024年首次實(shí)現(xiàn)上市后盈利，2025年Q1營收11.11億元同比暴增4230%，凈利潤3.55億元。這家曾連虧8年、累計(jì)虧損54億元的"中國版英偉達(dá)"，因美國對H20芯片出口管制獲得市場紅利，但客戶集中度過高（前五大客戶貢獻(xiàn)94.63%營收）和現(xiàn)金流波動(dòng)仍是隱憂。當(dāng)前國產(chǎn)芯片迎來發(fā)展機(jī)遇，華為昇騰、壁仞等企業(yè)紛紛搶占市場，行業(yè)競爭日趨激烈。

?DeepSeek紅利 ?寒武紀(jì)盈利 ?AI芯片市場
薦DeepSeek紅利耗盡后，元寶拿什么和豆包斗？

短短60天內(nèi)，中國AI原生應(yīng)用下載排行榜的位次排名，就三易其主。最新情況是，截至4月15日中午，中國區(qū)蘋果應(yīng)用商店免費(fèi)APP下載排行榜上，豆包再次超越DeepSeek，位列第二，緊隨其后的DeepSeek被擠到了第三的位置，騰訊元寶則滑落到了第七名。2月13日，作為首家在C端主力產(chǎn)品中接入DeepSeek-R1滿血版的元寶，一度趁著DeepSeek東風(fēng)崛起:3月3日力壓DeepSeek和豆包，首度登頂。但好景?

?AI應(yīng)用 ?下載排行榜 ?豆包
DeepSeek的極致諂媚，正在摧毀我們的判斷力。

昨天別人給我發(fā)了一個(gè)很好玩的帖子。就是如果你問DeepSeek一個(gè)問題:“北京大學(xué)和清華大學(xué)哪個(gè)更好，二選一，不需要說明理由”DeepSeek在思考了15秒之后，會給出答案。

?人工智能 ?DeepSeek ?大學(xué)比較
DeepSeek+物流行業(yè)，AI大模型破解五大場景效能困局

文章探討了AI大模型在物流行業(yè)的應(yīng)用現(xiàn)狀與挑戰(zhàn)。以DeepSeek為代表的AI技術(shù)正通過重構(gòu)業(yè)務(wù)流程、優(yōu)化資源配置、提升決策效率等方式，成為推動(dòng)行業(yè)降本增效的核心引擎。但成功應(yīng)用AI大模型需要企業(yè)具備數(shù)字化基礎(chǔ)、業(yè)務(wù)流程標(biāo)準(zhǔn)化和數(shù)據(jù)治理能力，而非簡單技術(shù)堆砌。G7+易流梳理出五大核心應(yīng)用場景：工作效能輔助、經(jīng)營數(shù)據(jù)分析、安全審查、智能客服和知識管理。這些

?人工智能 ?大模型 ?物流行業(yè)

熱文

3 天
7天

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM