站長之家(ChinaZ.com)2月2日 消息:Allen人工智能研究機構(gòu)在Hugging Face和GitHub上發(fā)布了首個開放語言模型OLMo,意在通過提供數(shù)據(jù)、代碼、模型和評估工具的開放訪問,促進人工智能領(lǐng)域的共同研究。
這一舉措的首批模型包括7B和1B規(guī)模的變體,覆蓋不同架構(gòu)和訓(xùn)練硬件,為未來更大規(guī)模、指令調(diào)整等模型的發(fā)布奠定基礎(chǔ)。每個模型都提供全面的訓(xùn)練數(shù)據(jù)、權(quán)重、代碼和評估工具,并在Apache2.0許可證下發(fā)布,鼓勵合作構(gòu)建全球最佳的開放語言模型。
截圖來自官方
為了創(chuàng)建強大的開放模型,A12在設(shè)計中吸取了多個開放和部分開放模型的經(jīng)驗教訓(xùn),包括EleutherAI的Pythia Suite、MosaicML的MPT模型、TII的Falcon模型和Meta的Llama系列。
對OLMo7B型號進行的評估顯示,在生成任務(wù)和閱讀理解上,它在許多任務(wù)上領(lǐng)先于Llama2,但在一些流行的問答任務(wù)上略顯落后。通過與不同模型進行比較,OLMo展現(xiàn)出自己的優(yōu)勢和劣勢,成為Llama2等流行模型的有力替代品。
在技術(shù)方面,OLMo的架構(gòu)遵循了最新文獻的趨勢,包括不使用偏差、SwiGLU激活函數(shù)、Rotary位置嵌入(RoPE)等。通過一系列實驗和調(diào)整,AI2發(fā)布了OLMo的第一個版本,并鼓勵閱讀技術(shù)報告以深入了解模型架構(gòu)和培訓(xùn)方法。
未來,A12計劃在OLMo家族中推出不同模型尺寸、模態(tài)、數(shù)據(jù)集、安全措施和評估方法,以共同構(gòu)建全球最佳的開放語言模型。
OLMo的推出標(biāo)志著AI2在開放研究領(lǐng)域的重要一步,其框架和模型的開放性為學(xué)者和研究人員提供了廣泛的研究問題,推動了人工智能領(lǐng)域的不斷發(fā)展。通過提供權(quán)重的開放訪問,并鼓勵合作,Allen致力于共同構(gòu)建全球最卓越的開放語言模型,助力人工智能技術(shù)的進步。
(舉報)