站長(zhǎng)之家(ChinaZ.com) 8月24日消息:Nvidia 和 Mistral AI 發(fā)布了一款新型的小型語(yǔ)言模型,據(jù)稱該模型在小體積下依然具有「最先進(jìn)」的準(zhǔn)確性。該模型名為 Mistral-NemMo-Minitron 8B,是 NeMo 12B 的迷你版本,參數(shù)量從 120 億縮減到了 80 億。
據(jù) Nvidia 深度學(xué)習(xí)研究副總裁 Bryan Catanzaro 在博客文章中介紹,這款 80 億參數(shù)的小型語(yǔ)言模型通過(guò)兩種不同的 AI 優(yōu)化方法實(shí)現(xiàn)了規(guī)??s減。開(kāi)發(fā)團(tuán)隊(duì)使用了結(jié)合剪枝和蒸餾的技術(shù)?!讣糁νㄟ^(guò)去除對(duì)準(zhǔn)確性貢獻(xiàn)最小的模型權(quán)重來(lái)縮小神經(jīng)網(wǎng)絡(luò)的規(guī)模。蒸餾過(guò)程中,團(tuán)隊(duì)在一個(gè)較小的數(shù)據(jù)集上重新訓(xùn)練了這個(gè)經(jīng)過(guò)剪枝的模型,從而大幅提高了因剪枝導(dǎo)致的準(zhǔn)確性下降?!?/p>
這些優(yōu)化使得開(kāi)發(fā)人員能夠在「原始數(shù)據(jù)集的一小部分」上訓(xùn)練優(yōu)化后的語(yǔ)言模型,從而在計(jì)算成本上節(jié)省高達(dá) 40 倍。通常情況下,AI 模型需要在模型規(guī)模和準(zhǔn)確性之間進(jìn)行權(quán)衡,但通過(guò) Nvidia 和 Mistral AI 的新剪枝和蒸餾技術(shù),語(yǔ)言模型可以同時(shí)兼顧這兩者。
配備了這些增強(qiáng)功能的 Mistral-NeMo-Minitron 8B 據(jù)稱在九項(xiàng)同類規(guī)模的語(yǔ)言驅(qū)動(dòng) AI 基準(zhǔn)測(cè)試中表現(xiàn)出色。所節(jié)省的計(jì)算資源足以讓筆記本電腦和工作站 PC 本地運(yùn)行 Minitron 8B,使其比云服務(wù)更快且更安全。
Nvidia 圍繞消費(fèi)者級(jí)計(jì)算硬件設(shè)計(jì)了 Minitron 8B。該語(yǔ)言模型被封裝為 Nvidia NIM 微服務(wù),并針對(duì)低延遲進(jìn)行了優(yōu)化,以提高響應(yīng)速度。Nvidia 通過(guò)其定制模型服務(wù) AI Foundry,將 Minitron 8B 調(diào)整為能夠在低配置設(shè)備(如智能手機(jī))上運(yùn)行。盡管性能和準(zhǔn)確性可能略有下降,但 Nvidia 表示該模型仍然是高準(zhǔn)確性的語(yǔ)言模型,并且只需極少的訓(xùn)練數(shù)據(jù)和計(jì)算資源。
剪枝和蒸餾技術(shù)似乎是人工智能性能優(yōu)化的下一前沿。理論上,開(kāi)發(fā)者可以將這些優(yōu)化技術(shù)應(yīng)用于所有現(xiàn)有的語(yǔ)言模型,從而顯著提升整體性能,包括那些只能由 AI 加速服務(wù)器群組運(yùn)行的大型語(yǔ)言模型。
(舉報(bào))