中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > ?Nomic最新資訊  > 正文

    ?Nomic AI 發(fā)布首個(gè)完全開源的長(zhǎng)文本嵌入模型,超越 OpenAI Ada-002在各項(xiàng)基準(zhǔn)測(cè)試中的表現(xiàn)

    2024-02-18 09:57 · 稿源:站長(zhǎng)之家

    劃重點(diǎn):

    ? Nomic AI 發(fā)布了 nomicembed-text-v1,是首個(gè)完全開源的長(zhǎng)文本嵌入模型,在短文本和長(zhǎng)文本評(píng)估中表現(xiàn)優(yōu)異。

    ? 該模型具有8192的序列長(zhǎng)度,超越了之前512和2048長(zhǎng)度的模型,展現(xiàn)了其在處理廣泛文本上的能力。

    ? nomicembed-text-v1的開發(fā)過(guò)程強(qiáng)調(diào)了審計(jì)性和可復(fù)制性,為 AI 社區(qū)樹立了新的透明和開放標(biāo)準(zhǔn)。

    站長(zhǎng)之家(ChinaZ.com)2月18日 消息:在自然語(yǔ)言處理(NLP)領(lǐng)域不斷發(fā)展的背景下,理解和處理廣泛的文本內(nèi)容至關(guān)重要。最近的一些進(jìn)展顯著提升了語(yǔ)言模型的能力,特別是通過(guò)文本嵌入的發(fā)展。這些嵌入成為許多應(yīng)用的基礎(chǔ),包括大型語(yǔ)言模型(LLMs)的檢索增強(qiáng)生成和語(yǔ)義搜索。它們將句子或文檔轉(zhuǎn)換為低維向量,捕捉語(yǔ)義信息的本質(zhì),從而促進(jìn)聚類、分類和信息檢索等任務(wù)。

    然而,一個(gè)明顯的限制是這些模型能夠處理的上下文長(zhǎng)度。大多數(shù)公認(rèn)的開源模型在 MTEB 基準(zhǔn)測(cè)試中,如王等人的 E5、李等人的 GTE 和蕭等人的 BGE,限制在512個(gè)標(biāo)記的上下文長(zhǎng)度。這一限制削弱了它們?cè)诶斫飧鼜V泛文檔背景至關(guān)重要的場(chǎng)景中的實(shí)用性。相比之下,能夠超過(guò)2048長(zhǎng)度的模型,如 Voyage 的 Voyage-lite-01-instruct 和 Neelakantan 等人的 text-embedding-ada-002,仍然封閉。

    image.png

    在這種背景下,nomicembed-text-v1的推出標(biāo)志著一個(gè)重要的里程碑。這個(gè)模型不僅是開源的,而且擁有令人印象深刻的8192的序列長(zhǎng)度,在短文本和長(zhǎng)文本評(píng)估中表現(xiàn)出色。它的獨(dú)特之處在于其綜合方法,將開放權(quán)重、開放數(shù)據(jù)和一個(gè)包含137M 參數(shù)設(shè)計(jì)在內(nèi)的 Apache-2許可證下,確保了可訪問(wèn)性和透明性。

    實(shí)現(xiàn)這一壯舉的過(guò)程涉及數(shù)據(jù)準(zhǔn)備和模型訓(xùn)練的細(xì)致階段。最初,一個(gè)掩蔽語(yǔ)言建模預(yù)訓(xùn)練階段利用了諸如 BooksCorpus 和2023年維基百科轉(zhuǎn)儲(chǔ)等資源,采用 bert-base-uncased 分詞器創(chuàng)建適合長(zhǎng)文本訓(xùn)練的數(shù)據(jù)塊。接著是無(wú)監(jiān)督對(duì)比預(yù)訓(xùn)練,利用跨多個(gè)數(shù)據(jù)集的4.7億對(duì)數(shù)據(jù)對(duì)模型的理解進(jìn)行細(xì)化,通過(guò)一致性過(guò)濾和選擇性嵌入。

    nomicembed-text-v1的架構(gòu)反映了對(duì) BERT 的深思熟慮的改編,以適應(yīng)擴(kuò)展的序列長(zhǎng)度。創(chuàng)新,如旋轉(zhuǎn)位置嵌入、SwiGLU 激活和 Flash Attention 的集成,突出了增強(qiáng)性能和效率的戰(zhàn)略改進(jìn)。模型的訓(xùn)練方案,具有30% 的掩蔽率和優(yōu)化設(shè)置,進(jìn)一步強(qiáng)調(diào)了為實(shí)現(xiàn)最佳結(jié)果而付出的嚴(yán)格努力。

    在 GLUE、MTEB 和專門的長(zhǎng)文本評(píng)估等基準(zhǔn)測(cè)試的嚴(yán)格考驗(yàn)下,nomicembed-text-v1展現(xiàn)出卓越的實(shí)力。特別是在 JinaAI 長(zhǎng)文本基準(zhǔn)測(cè)試和 LoCo 基準(zhǔn)測(cè)試中的表現(xiàn),突顯了其在處理廣泛文本方面的優(yōu)勢(shì),這是許多前輩所未能做到的。

    然而,nomicembed-text-v1的旅程不僅僅限于性能指標(biāo)。其開發(fā)過(guò)程強(qiáng)調(diào)了端到端的審計(jì)性和復(fù)制的潛力,為 AI 社區(qū)設(shè)立了透明和開放的新標(biāo)準(zhǔn)。通過(guò)發(fā)布模型權(quán)重、代碼庫(kù)和精心策劃的訓(xùn)練數(shù)據(jù)集,nomicembed-text-v1的團(tuán)隊(duì)邀請(qǐng)持續(xù)創(chuàng)新和審查。

    nomicembed-text-v1不僅是一項(xiàng)技術(shù)突破,更是 AI 開源運(yùn)動(dòng)中的一面旗幟。它打破了在長(zhǎng)文本嵌入領(lǐng)域的準(zhǔn)入壁壘,承諾一個(gè)未來(lái),其中對(duì)話的深度與人類討論的廣度相匹配。

    論文地址:https://arxiv.org/abs/2402.01613

    項(xiàng)目入口:https://top.aibase.com/tool/contrastors

    舉報(bào)

    • 相關(guān)推薦
    • o3模型基準(zhǔn)測(cè)試分?jǐn)?shù)僅為10%,遠(yuǎn)低于OpenAI宣傳的25%

      OpenAI的新AI模型o3在第一方和第三方基準(zhǔn)測(cè)試中存在差異,引發(fā)公眾對(duì)其透明度和測(cè)試實(shí)踐的質(zhì)疑。去年12月,o3首次亮相時(shí)聲稱能解答超過(guò)25%的FrontierMath問(wèn)題,但實(shí)際正確率僅為2%。內(nèi)部測(cè)試發(fā)現(xiàn),o3能達(dá)到超過(guò)25%的準(zhǔn)確率,但其使用的計(jì)算資源比上周OpenAI推出的模型多得多。Epoch AI發(fā)布的獨(dú)立基準(zhǔn)測(cè)試結(jié)果顯示,o3的得分約為10%,遠(yuǎn)低于OpenAI宣稱的25%。盡管如此,這并不意味著OpenAI的說(shuō)法有誤,可能是因?yàn)镺penAI使用了更強(qiáng)大的內(nèi)部架構(gòu)進(jìn)行評(píng)估,并采用了更多計(jì)算資源。此外,Epoch指出其測(cè)試設(shè)置可能與OpenAI不同,并且在評(píng)估中使用了更新版本的FrontierMath。

    • 秒殺同行!Kimi開源新音頻基礎(chǔ)模型,橫掃十多項(xiàng)基準(zhǔn)測(cè)試,總體性能第一

      Kimi-Audio是一款開源的通用音頻基礎(chǔ)模型,在語(yǔ)音識(shí)別、音頻理解、音頻轉(zhuǎn)文本、語(yǔ)音對(duì)話等任務(wù)中表現(xiàn)優(yōu)異。該模型采用集成式架構(gòu)設(shè)計(jì),包含音頻分詞器、音頻大模型和音頻去分詞器三大核心組件,支持多模態(tài)輸入處理。在十余項(xiàng)音頻基準(zhǔn)測(cè)試中,Kimi-Audio均取得領(lǐng)先性能,如LibriSpeech ASR測(cè)試WER僅1.28%,VocalSound測(cè)試達(dá)94.85%。模型使用1300萬(wàn)小時(shí)多語(yǔ)言音頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并構(gòu)建了自動(dòng)處理流水線生成高質(zhì)量訓(xùn)練數(shù)據(jù)。評(píng)估結(jié)果顯示,Kimi-Audio在語(yǔ)音識(shí)別、音樂(lè)理解、語(yǔ)音情感分析等任務(wù)上全面超越同類模型,在OpenAudioBench和VoiceBench對(duì)話測(cè)試中也表現(xiàn)最佳。目前模型代碼、檢查點(diǎn)和評(píng)估工具包已在GitHub開源。

    • AI日?qǐng)?bào):字節(jié)發(fā)布豆包1.5深度思考模型;微信首個(gè)AI助手 “元寶” 上線;OpenAI發(fā)布o4-mini、滿血版o3

      歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI發(fā)布兩款多模態(tài)推理模型o4-mini、滿血版o3OpenAI在技術(shù)直播中推出了其最新的多模態(tài)模型o4-mini和滿血版o3,這兩款模型具備同時(shí)處理文本、圖像和音頻的能力,并能調(diào)用外部工?

    • AI日?qǐng)?bào):智譜開源32B/9B系列GLM模型并啟用Z.ai域名;OpenAI發(fā)布GPT-4.1系列模型;阿里魔搭上線MCP廣場(chǎng)

      歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、智譜AI啟用全新域名Z.ai 并開源32B/9B 系列 GLM 模型智譜技術(shù)團(tuán)隊(duì)近期宣布開源32B和9B系列的GLM模型,并推出全新交互體驗(yàn)平臺(tái)Z.ai。這些模型遵循MIT許可協(xié)議,支持商業(yè)用途,提升了

    • 為編程而生?OpenAI 發(fā)布 GPT -4.1 系列模型

      OpenAI 表示,GPT-4.1 是為開發(fā)者量身定制的……

    • 剛剛,AI破解50年未解數(shù)學(xué)難題!南大校友用OpenAI模型完成首個(gè)非平凡數(shù)學(xué)證明

      【新智元導(dǎo)讀】AI輔助人類,完成了首個(gè)非平凡研究數(shù)學(xué)證明,破解了50年未解的數(shù)學(xué)難題!在南大校友的研究中,這個(gè)難題中q=3的情況,由o3-mini-high給出了精確解。就在剛剛,AI完成了首個(gè)非平凡研究數(shù)學(xué)證明!完成這項(xiàng)研究的,是美國(guó)紐約布魯克海文國(guó)家實(shí)驗(yàn)室凝聚態(tài)物理與材料科學(xué)分部的一位華人學(xué)者Weiguo Yin。論文地址:https://arxiv.org/abs/2503.23758在這項(xiàng)研究中,作者在一維J_1-J

    • OpenAI發(fā)布o3、o4 mini模型,實(shí)現(xiàn)“看圖說(shuō)話”,糊圖也行!

      從 GPT-5 開始,推理模型和非推理模型很有可能會(huì)整合在一起……

    • 對(duì)標(biāo)OpenAI,谷歌開源Agent SDK,支持MCP、A2A、5000

      谷歌在GoogleCloudNext25大會(huì)上,開源了首個(gè)Agent開發(fā)套件—ADK。這也是OpenAI之后第二家大廠發(fā)布的標(biāo)準(zhǔn)化智能體SDK。谷歌剛開源ADK幾天在Github已經(jīng)超過(guò)5000顆星,非常受開發(fā)者的歡迎。

    • 微信,OpenAI和Kimi想一起去了:大模型的盡頭依然還是社交平臺(tái)

      AI圈最近彌漫著一股微妙的氣息。人們似乎不再熱議大語(yǔ)言模型的最新突破、以及AI應(yīng)用的無(wú)限可能時(shí),一些代表著未來(lái)的AI巨頭,卻似乎正將目光投向互聯(lián)網(wǎng)那熟悉得不能再熟悉的角落——社交網(wǎng)絡(luò)與社區(qū)。近期的傳聞和動(dòng)作頗具代表性,在大洋彼岸,手握ChatGPT和Sora等王牌的OpenAI,據(jù)稱正內(nèi)部測(cè)試類X的社交功能,其CEO Sam Altman甚至在私下征求反饋;而在國(guó)內(nèi),憑借長(zhǎng)文本能力

    • 國(guó)產(chǎn)六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標(biāo)志著中國(guó)AI進(jìn)入推理模型新時(shí)代。文章梳理了國(guó)產(chǎn)大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國(guó)內(nèi)追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點(diǎn)分析了六大國(guó)產(chǎn)推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術(shù)特點(diǎn)與市場(chǎng)表現(xiàn),指出國(guó)產(chǎn)模型在性能上已接近GPT-4水平。特別強(qiáng)調(diào)科大訊飛星火X1憑借全國(guó)產(chǎn)化技術(shù)路線獲得政企青睞,以及DeepSeek-R1以560萬(wàn)美元超低成本實(shí)現(xiàn)高性能的突破。文章還探討了英偉達(dá)芯片斷供危機(jī)下,國(guó)產(chǎn)全棧技術(shù)路徑的重要性,認(rèn)為自主可控將成為對(duì)抗國(guó)際不確定性的關(guān)鍵。最后指出,隨著推理模型成為競(jìng)爭(zhēng)焦點(diǎn),國(guó)產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

    熱文

    • 3 天
    • 7天