中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關鍵詞  > Nemotron-4最新資訊  > 正文

    英偉達發(fā)布Nemotron-4 15B: 8 萬億訓練數據,性能超LLaMA-2

    2024-03-07 08:48 · 稿源:站長之家

    **劃重點:**

    1. ?? Nemotron-415B擁有150億參數,基于8萬億文本標注數據預訓練,在多領域測試中超越同類大小的開源模型,尤其在代碼語言準確率上表現出色。

    2. ??采用標準Transformer架構,結合自注意力、全局注意力和多頭注意力等機制,以及旋轉位置編碼技術,提升模型表達和泛化能力。

    3. ?? 利用384個DGX H100節(jié)點,每節(jié)點搭載8個NVIDIA Hopper架構的H10080GB SXM5GPU,采用8路張量并行和數據并行的組合,以及分布式優(yōu)化器進行分片。

    站長之家(ChinaZ.com)3月7日 消息:英偉達最新推出的大型語言模型Nemotron-415B,以其卓越性能和創(chuàng)新架構引起廣泛關注。該模型擁有150億參數,基于龐大的8萬億文本標注數據進行了預訓練。

    在多領域測試中,Nemotron-415B在7個領域中的4個表現優(yōu)異,超越了同類大小的開源模型。特別值得注意的是,在代碼語言方面,Nemotron-415B展現出更高的準確率,尤其在資源稀缺的編程語言上超過了Starcoder和Mistral7B等模型。

    該模型采用了標準的Transformer架構,包括多頭自注意力機制和前饋神經網絡。其獨特之處在于,Nemotron-415B結合了自注意力和全局注意力機制,以更好地理解輸入序列內部的依賴關系和輸入序列與輸出序列之間的對應關系。多頭注意力的引入進一步提高了模型的表達能力和泛化能力。

    在訓練過程中,研究人員充分利用了384個DGX H100節(jié)點,每個節(jié)點搭載8個基于NVIDIA Hopper架構的H10080GB SXM5GPU。通過8路張量并行和數據并行的組合,以及分布式優(yōu)化器進行分片,成功完成了Nemotron-415B的訓練。

    Nemotron-415B在英語、數學推理、多語言分類和代碼等多個測試任務中表現出色,不僅在性能上超越了LLaMA-234B和Mistral7B,在廣泛的代碼語言中也取得了更高的準確率。這一成就為大型語言模型的發(fā)展和應用提供了嶄新的視角。

    image.png

    技術報告https://arxiv.org/abs/2402.16819

    舉報

    • 相關推薦
    • Meta說他們的 Llama 4 偏見少了!但,“虛假對等”才是真偏見

      Meta公司稱,相比之前的版本,他們最新的人工智能模型Llama4的政治偏見更少了。其中一部分便是通過允許該模型回答更多帶有政治爭議性的問題來實現這一點的。下次當你使用Meta的AI產品時,它可能會為“通過服用馬用鎮(zhèn)靜劑來治療新冠病毒”這種觀點說好話!

    • 苦等一年 Meta終于放大招 正式發(fā)布開源大模型Llama 4

      美國科技巨擘Meta重磅推出其迄今最為強大的開源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進的混合專家架構,這一架構在模型訓練及用戶查詢回答過程中展現出更高效率,通過將模型劃分為多個專注于特定任務的專家”子模型,實現精準高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標是建立世界領先的人工智能,將其開源,并使其普遍可用,以便世界上每個人都能受益。

    • 英偉達開源15T數據集:32萬個機器人訓練軌跡

      全球AI領導者英偉達開源了,用于實體機器人和自動化駕駛的超大訓練數據合集——NVIDIAPhysicalAIDataset。這個數據集一共15T,涵蓋了超過320,000個機器人訓練軌跡,以及多達1,000個通用場景描述包括一個SimReady集合。英偉達表示,未來將繼續(xù)擴展PhysicalAIDataset,將其建設成世界最大、統(tǒng)一的開源數據集,可用于AI模型、醫(yī)療、自動化駕駛等不同領域,加速AI、實體機器人的訓練效?

    • 剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態(tài)巨獸搶回王座

      Llama4重磅發(fā)布了!Meta官宣開源首個原生多模態(tài)Llama4,首次采用的MoE架構,支持12種語言,首批發(fā)布一共兩款:Llama4Scout:共有1090億參數,17B活躍參數,16個專家,1000萬上下Llama4Maverick:共有4000億參數,17B活躍參數,128個專家,100萬上下文另外,2萬億參數Llama4Behemoth將在未來幾個月面世,288B活躍參數,16個專家。Llama4的橫空出世,成為迄今為止開源最強,多模態(tài)能力最好的模型之一。L

    • 反擊DeepSeek失敗!Llama 4效果不好,Meta承認有問題

      今天凌晨1點半,Meta生成式AI領導者AhmadAl-Dahle在社交平臺發(fā)布了一篇長文,對前天剛開源的Llama4質疑進行了官方回應。Ahmad表示,Llama4一開發(fā)完就發(fā)布了,所以,不同服務中模型質量難免會有一些差異。由于關稅大戰(zhàn)的原因,Meta的股票遭遇重創(chuàng),他們也需要一個利好消息來拉升股票,現在適得其反。

    • 英偉達將首次在美制造 AI 超算、及 Blackwell 芯片

      站長之家(ChinaZ.com) 4月15日 消息:隨著 AI 行業(yè)的蓬勃發(fā)展,英偉達位于美國的人工智能芯片和超 級計算機工廠將創(chuàng)造數千個就業(yè)機會??萍季揞^英偉達(NVIDIA)宣布,其 AI 超 級計算機將完全在美國本土生產。在全球貿易戰(zhàn)的背景下,英偉達這一舉動是為了減少對海外市場的依賴,并促進美國國內的生產。英偉達確認,他們已開始在臺積電位于美國亞利桑那州鳳凰城的工廠生產?

    • 實錘了,Llama 4重測排名掉至32名!遠不及DeepSeek和Qwen

      LMArena更新了Meta最新發(fā)布的開源大模型Llama-4-Maverick的排名,從此前的第2名,直線掉到了第32名!這也實錘了此前開發(fā)者對Meta為刷榜排名向LMArena提供了“特供版”的Llama4大模型的質疑。開源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名為32名,遠低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max,甚至連英偉達基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間,口碑急轉直下,被質疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文,打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術開放之間搖擺,恐將在AI競賽中進一步失去開發(fā)者支持。

    • 國際知名半導體研究機構SemiAnalysis稱:華為云CloudMatrix 384領先英偉達AMD的產品一代

      近日,國際知名半導體研究和咨詢機構SemiAnalysis發(fā)布專題報道稱,華為云最新推出的AI算力集群解決方案CloudMatrix 384(以下簡稱CM384)憑借其顛覆性的系統(tǒng)架構設計與全棧技術創(chuàng)新,在多項關鍵指標上實現對英偉達旗艦產品GB200 NVL72的超越,標志著中國在人工智能基礎設施領域實現里程碑式突破。(圖片引自SemiAnalysis報道)據SemiAnalysis披露,華為云CM384基于384顆昇騰芯片構建,通

    • Llama 4五大疑點曝光,逐層扒皮,全球AI進步停滯,NYU教授稱Scaling徹底結束

      令人失望的Llama4,只是前奏已。接下來我們恐將看到——全球局勢的改變,將徹底阻止AI進步!最近,一位AICEO做出長視頻,逐級對Llama4身上的六大疑點進行了扒皮。GaryMarcus正在尋找對開發(fā)更可靠替代方法有興趣的投資者。