劃重點(diǎn):
? Nomic AI 發(fā)布了 nomicembed-text-v1,是首個(gè)完全開源的長(zhǎng)文本嵌入模型,在短文本和長(zhǎng)文本評(píng)估中表現(xiàn)優(yōu)異。
? 該模型具有8192的序列長(zhǎng)度,超越了之前512和2048長(zhǎng)度的模型,展現(xiàn)了其在處理廣泛文本上的能力。
? nomicembed-text-v1的開發(fā)過(guò)程強(qiáng)調(diào)了審計(jì)性和可復(fù)制性,為 AI 社區(qū)樹立了新的透明和開放標(biāo)準(zhǔn)。
站長(zhǎng)之家(ChinaZ.com)2月18日 消息:在自然語(yǔ)言處理(NLP)領(lǐng)域不斷發(fā)展的背景下,理解和處理廣泛的文本內(nèi)容至關(guān)重要。最近的一些進(jìn)展顯著提升了語(yǔ)言模型的能力,特別是通過(guò)文本嵌入的發(fā)展。這些嵌入成為許多應(yīng)用的基礎(chǔ),包括大型語(yǔ)言模型(LLMs)的檢索增強(qiáng)生成和語(yǔ)義搜索。它們將句子或文檔轉(zhuǎn)換為低維向量,捕捉語(yǔ)義信息的本質(zhì),從而促進(jìn)聚類、分類和信息檢索等任務(wù)。
然而,一個(gè)明顯的限制是這些模型能夠處理的上下文長(zhǎng)度。大多數(shù)公認(rèn)的開源模型在 MTEB 基準(zhǔn)測(cè)試中,如王等人的 E5、李等人的 GTE 和蕭等人的 BGE,限制在512個(gè)標(biāo)記的上下文長(zhǎng)度。這一限制削弱了它們?cè)诶斫飧鼜V泛文檔背景至關(guān)重要的場(chǎng)景中的實(shí)用性。相比之下,能夠超過(guò)2048長(zhǎng)度的模型,如 Voyage 的 Voyage-lite-01-instruct 和 Neelakantan 等人的 text-embedding-ada-002,仍然封閉。
在這種背景下,nomicembed-text-v1的推出標(biāo)志著一個(gè)重要的里程碑。這個(gè)模型不僅是開源的,而且擁有令人印象深刻的8192的序列長(zhǎng)度,在短文本和長(zhǎng)文本評(píng)估中表現(xiàn)出色。它的獨(dú)特之處在于其綜合方法,將開放權(quán)重、開放數(shù)據(jù)和一個(gè)包含137M 參數(shù)設(shè)計(jì)在內(nèi)的 Apache-2許可證下,確保了可訪問(wèn)性和透明性。
實(shí)現(xiàn)這一壯舉的過(guò)程涉及數(shù)據(jù)準(zhǔn)備和模型訓(xùn)練的細(xì)致階段。最初,一個(gè)掩蔽語(yǔ)言建模預(yù)訓(xùn)練階段利用了諸如 BooksCorpus 和2023年維基百科轉(zhuǎn)儲(chǔ)等資源,采用 bert-base-uncased 分詞器創(chuàng)建適合長(zhǎng)文本訓(xùn)練的數(shù)據(jù)塊。接著是無(wú)監(jiān)督對(duì)比預(yù)訓(xùn)練,利用跨多個(gè)數(shù)據(jù)集的4.7億對(duì)數(shù)據(jù)對(duì)模型的理解進(jìn)行細(xì)化,通過(guò)一致性過(guò)濾和選擇性嵌入。
nomicembed-text-v1的架構(gòu)反映了對(duì) BERT 的深思熟慮的改編,以適應(yīng)擴(kuò)展的序列長(zhǎng)度。創(chuàng)新,如旋轉(zhuǎn)位置嵌入、SwiGLU 激活和 Flash Attention 的集成,突出了增強(qiáng)性能和效率的戰(zhàn)略改進(jìn)。模型的訓(xùn)練方案,具有30% 的掩蔽率和優(yōu)化設(shè)置,進(jìn)一步強(qiáng)調(diào)了為實(shí)現(xiàn)最佳結(jié)果而付出的嚴(yán)格努力。
在 GLUE、MTEB 和專門的長(zhǎng)文本評(píng)估等基準(zhǔn)測(cè)試的嚴(yán)格考驗(yàn)下,nomicembed-text-v1展現(xiàn)出卓越的實(shí)力。特別是在 JinaAI 長(zhǎng)文本基準(zhǔn)測(cè)試和 LoCo 基準(zhǔn)測(cè)試中的表現(xiàn),突顯了其在處理廣泛文本方面的優(yōu)勢(shì),這是許多前輩所未能做到的。
然而,nomicembed-text-v1的旅程不僅僅限于性能指標(biāo)。其開發(fā)過(guò)程強(qiáng)調(diào)了端到端的審計(jì)性和復(fù)制的潛力,為 AI 社區(qū)設(shè)立了透明和開放的新標(biāo)準(zhǔn)。通過(guò)發(fā)布模型權(quán)重、代碼庫(kù)和精心策劃的訓(xùn)練數(shù)據(jù)集,nomicembed-text-v1的團(tuán)隊(duì)邀請(qǐng)持續(xù)創(chuàng)新和審查。
nomicembed-text-v1不僅是一項(xiàng)技術(shù)突破,更是 AI 開源運(yùn)動(dòng)中的一面旗幟。它打破了在長(zhǎng)文本嵌入領(lǐng)域的準(zhǔn)入壁壘,承諾一個(gè)未來(lái),其中對(duì)話的深度與人類討論的廣度相匹配。
論文地址:https://arxiv.org/abs/2402.01613
項(xiàng)目入口:https://top.aibase.com/tool/contrastors
(舉報(bào))