站長之家(ChinaZ.com)3月31日 消息:AI芯片初創(chuàng)公司Cerebras宣布進(jìn)軍大型語言模型領(lǐng)域,推出了七種新的開源語言模型。稱為Cerebras-GPT 的模型系列的大小范圍從1.11億個(gè)參數(shù)到130億個(gè)參數(shù)。
這家初創(chuàng)公司表示,這些模型使用 DeepMind 的Chinchilla公式進(jìn)行訓(xùn)練,旨在讓任何人都能以更低的成本使用它們,其消耗的能量實(shí)迄今為止公開可用的模型中最少的。
Cerebras 決定構(gòu)建并提供這些開源模型它認(rèn)為訪問應(yīng)該更加開放。Cerebras ML 研究科學(xué)家 Nolan Dey 在博客文章中寫道:“最新的大型語言模型OpenAI 的GPT-4發(fā)布時(shí)沒有關(guān)于其模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練硬件或超參數(shù)的信息。該公司越來越多地使用封閉數(shù)據(jù)集構(gòu)建大型模型,并僅通過 API 訪問提供模型輸出。要讓 LLM 成為一種開放和可訪問的技術(shù),我們認(rèn)為重要的是能夠訪問最先進(jìn)的模型,這些模型對于研究和商業(yè)應(yīng)用都是開放的、可復(fù)制的和免版稅的?!?/p>
Cerebras模型的數(shù)據(jù)集尚未公開,目前可以通過HuggingFace訪問模型本身。
在全球最大芯片上訓(xùn)練模型
Cerebras 以其WSE-2芯片而聞名,它是世界上最大的芯片之一,類似于一個(gè)8x8英寸的平板,每個(gè)平板包含2.6萬億個(gè)晶體管和85萬個(gè)“人工智能優(yōu)化”內(nèi)核。
Cerebras 的CS-2系統(tǒng)包含大量 WSE-2AI 芯片。這家初創(chuàng)公司采用了其中的16個(gè)系統(tǒng)來為其 AI 超級計(jì)算機(jī) Andromeda 提供動力。Andromeda于去年11月發(fā)布,旨在大大減少訓(xùn)練大型語言模型所需的時(shí)間。
這家初創(chuàng)公司甚至聲稱超級計(jì)算機(jī)可以處理具有巨大序列長度的大型語言模型,這是傳統(tǒng) GPU 根本無法做到的。在去年底接受AI Business采訪時(shí),Cerebras 首席執(zhí)行官 Andrew Feldman 表示 Andromeda 已經(jīng)幫助進(jìn)行了 COVID-19研究。
這家初創(chuàng)公司已將注意力轉(zhuǎn)向大型語言模型,以此來展示其技術(shù)的能力。
Cerebras-GPT 模型是在 Andromeda 上訓(xùn)練的,Cerebras 表示它能夠“快速完成訓(xùn)練,無需GPU集群上所需的傳統(tǒng)分布式系統(tǒng)工程和模型并行調(diào)優(yōu)?!?用于訓(xùn)練 Cerebras-GPT 模型的集群也已通過Cerebras AI Model Studio在云端提供。
促進(jìn)大語言模型大眾化
主要的人工智能實(shí)驗(yàn)室已經(jīng)做了很多開發(fā)語言模型的工作,但卻隱瞞了有關(guān)底層系統(tǒng)如何工作的信息。例如,OpenAI在本月早些時(shí)候發(fā)布GPT-4引起了憤怒,只是透露了很少的技術(shù)規(guī)格,卻沒有提及所使用的確切數(shù)據(jù)或尺寸細(xì)節(jié)。
很多人,比如斯坦福大學(xué)的 AI 研究人員,認(rèn)為由于 OpenAI 等公司已經(jīng)關(guān)閉了他們的模型,這使得對這些技術(shù)的潛在影響進(jìn)行研究變得更加困難。
Cerebras 設(shè)計(jì)了新模型以提供更廣泛的訪問,并表示希望這些模型將“作為有效培訓(xùn)的秘訣,并作為進(jìn)一步社區(qū)研究的參考。”
站長之家注:
Cerebras-GPT 官方博客網(wǎng)址:https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/
Cerebras-GPT模型HuggingFace網(wǎng)址:https://huggingface.co/cerebras
(舉報(bào))