**劃重點:**
1. ?? Nemotron-415B擁有150億參數,基于8萬億文本標注數據預訓練,在多領域測試中超越同類大小的開源模型,尤其在代碼語言準確率上表現出色。
2. ??采用標準Transformer架構,結合自注意力、全局注意力和多頭注意力等機制,以及旋轉位置編碼技術,提升模型表達和泛化能力。
3. ?? 利用384個DGX H100節(jié)點,每節(jié)點搭載8個NVIDIA Hopper架構的H10080GB SXM5GPU,采用8路張量并行和數據并行的組合,以及分布式優(yōu)化器進行分片。
站長之家(ChinaZ.com)3月7日 消息:英偉達最新推出的大型語言模型Nemotron-415B,以其卓越性能和創(chuàng)新架構引起廣泛關注。該模型擁有150億參數,基于龐大的8萬億文本標注數據進行了預訓練。
在多領域測試中,Nemotron-415B在7個領域中的4個表現優(yōu)異,超越了同類大小的開源模型。特別值得注意的是,在代碼語言方面,Nemotron-415B展現出更高的準確率,尤其在資源稀缺的編程語言上超過了Starcoder和Mistral7B等模型。
該模型采用了標準的Transformer架構,包括多頭自注意力機制和前饋神經網絡。其獨特之處在于,Nemotron-415B結合了自注意力和全局注意力機制,以更好地理解輸入序列內部的依賴關系和輸入序列與輸出序列之間的對應關系。多頭注意力的引入進一步提高了模型的表達能力和泛化能力。
在訓練過程中,研究人員充分利用了384個DGX H100節(jié)點,每個節(jié)點搭載8個基于NVIDIA Hopper架構的H10080GB SXM5GPU。通過8路張量并行和數據并行的組合,以及分布式優(yōu)化器進行分片,成功完成了Nemotron-415B的訓練。
Nemotron-415B在英語、數學推理、多語言分類和代碼等多個測試任務中表現出色,不僅在性能上超越了LLaMA-234B和Mistral7B,在廣泛的代碼語言中也取得了更高的準確率。這一成就為大型語言模型的發(fā)展和應用提供了嶄新的視角。
技術報告https://arxiv.org/abs/2402.16819
(舉報)