要點:
1. OpenLM是一個簡單且精簡的PyTorch代碼庫,用于訓(xùn)練中等規(guī)模的語言模型,旨在最大化GPU利用率和訓(xùn)練速度,易于用于新的語言模型研究和應(yīng)用。
2. OpenLM通過訓(xùn)練兩個語言模型,OpenLM-1B和OpenLM-7B,分別在1.6T和1.25T文本標(biāo)記上進(jìn)行驗證,并在標(biāo)準(zhǔn)的零樣本文本分類和多項選擇任務(wù)上表現(xiàn)出色。
3. 未來工作包括支持多模態(tài)模型、專家混合和數(shù)據(jù)集組合,以及擴(kuò)大OpenLM以支持訓(xùn)練更大的模型。
站長之家(ChinaZ.com)9月28日 消息:OpenLM是一個旨在訓(xùn)練中等規(guī)模語言模型的PyTorch代碼庫,它強(qiáng)調(diào)了最大化GPU利用率和訓(xùn)練速度的設(shè)計。該庫已經(jīng)通過訓(xùn)練OpenLM-1B和OpenLM-7B兩個語言模型,分別在1.6T和1.25T的文本標(biāo)記上進(jìn)行驗證,取得了令人矚目的成果。OpenLM-1B在零樣本文本分類和多項選擇任務(wù)中表現(xiàn)出色,超越了一些類似規(guī)模的競爭模型。OpenLM-7B則在性能上接近了其他大型模型,如LLAMA-7B和MPT-7B。
文章詳細(xì)介紹了OpenLM的模型架構(gòu)、訓(xùn)練數(shù)據(jù)來源以及訓(xùn)練過程。值得注意的是,OpenLM采用了GPT-NeoX令人滿意的分詞工具,但采用了LayerNorm而非RMSNorm,因為后者尚未添加融合的RMSNorm操作。此外,1B模型采用了AdamW優(yōu)化器,而7B模型則采用了不同的學(xué)習(xí)率和全局批量大小,以實現(xiàn)更好的性能。
文章還提供了有關(guān)模型驗證和評估的信息,包括驗證損失和零樣本評估結(jié)果。OpenLM-7B在不斷的訓(xùn)練中持續(xù)提高了零樣本性能,在1.25T標(biāo)記上,在11個任務(wù)中有7個任務(wù)的表現(xiàn)優(yōu)于競爭模型。這表明OpenLM具有很大的潛力,并且可以在不斷擴(kuò)大規(guī)模的情況下提供出色的性能。
最后,文章提出了未來工作方向,包括支持多模態(tài)模型、專家混合和數(shù)據(jù)集組合,以及擴(kuò)大OpenLM以支持訓(xùn)練更大的語言模型。OpenLM的團(tuán)隊成員和致謝也在文章中列出,表明了該項目的合作性質(zhì)和開源精神。
(舉報)