中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > 語言模型最新資訊  > 正文

    Headless語言模型:通過捆綁嵌入提高模型的訓(xùn)練速度

    2023-09-20 10:50 · 稿源:站長之家

    要點:

    1. 提出了一種新的預(yù)訓(xùn)練方法,稱為Headless語言模型,它移除了對詞匯空間概率分布的預(yù)測需求,而是關(guān)注用對比方式重構(gòu)表示。

    2. 該方法只需要改變目標(biāo)函數(shù),可以直接應(yīng)用于經(jīng)典語言模型預(yù)訓(xùn)練目標(biāo)。

    3. 在單語和多語編碼器以及單語解碼器中實驗表明,Headless語言模型預(yù)訓(xùn)練相比經(jīng)典方法在給定運算量下表現(xiàn)更好,計算效率更高。

    站長之家(ChinaZ.com)9月20日 消息:研究人員發(fā)現(xiàn)了一種改進(jìn)語言模型性能的方法——Headless語言模型,即將輸入嵌入與模型的其他嵌入捆綁在一起,并使用對比損失。通常情況下,語言模型的輸入和輸出嵌入層是分開的,但這種新方法通過捆綁它們,提高了模型的訓(xùn)練速度和準(zhǔn)確性。這一創(chuàng)新有望在大規(guī)模語言處理任務(wù)中取得廣泛應(yīng)用。

    Headless語言模型通過移除語言模型預(yù)測詞匯空間概率分布的需求,改為學(xué)習(xí)重構(gòu)輸入嵌入的對比方式,提供了一種創(chuàng)新預(yù)訓(xùn)練方法。作者提出了一種對比權(quán)重綁定損失,可以直接作為經(jīng)典語言模型的目標(biāo)函數(shù)替代,因此可以輕松集成到已有代碼庫中。

    image.png

    論文地址:https://arxiv.org/pdf/2309.08351.pdf

    在英文和多語言單向編碼器以及英文解碼器模型的中等規(guī)模預(yù)訓(xùn)練實驗中發(fā)現(xiàn),在類似運算量下,Headless語言模型相比經(jīng)典方法有顯著提升,下游表現(xiàn)更好,數(shù)據(jù)效率更高,計算效率也更高。

    例如,Headless語言模型在GLUE基準(zhǔn)測試上的結(jié)果比對應(yīng)的經(jīng)典模型高1.6分,在LAMBADA數(shù)據(jù)集上的準(zhǔn)確率提高了2.7分。

    此外,訓(xùn)練Headless語言模型可以節(jié)省高達(dá)20倍的運算量??偟膩碚f,這項工作為以對比學(xué)習(xí)取代交叉熵作為自監(jiān)督預(yù)訓(xùn)練目標(biāo)開辟了道路,為語言表示學(xué)習(xí)提供了一種高效可行的替代方案。

    舉報

    • 相關(guān)推薦
    • OpenLM:一個專為中等規(guī)模語言模型設(shè)計的模型訓(xùn)練

      OpenLM是一個旨在訓(xùn)練中等規(guī)模語言模型的PyTorch代碼庫,它強(qiáng)調(diào)了最大化GPU利用率和訓(xùn)練速度的設(shè)計。該庫已經(jīng)通過訓(xùn)練OpenLM-1B和OpenLM-7B兩個語言模型,分別在1.6T和1.25T的文本標(biāo)記上進(jìn)行驗證,取得了令人矚目的成果。OpenLM的團(tuán)隊成員和致謝也在文章中列出,表明了該項目的合作性質(zhì)和開源精神。

    • 開源機(jī)器學(xué)習(xí)庫vLLM 提升大語言模型推理速度

      大語言模型在改變?nèi)藗兊纳詈吐殬I(yè)方面影響越來越大,因為它們實現(xiàn)了編程助手和通用聊天機(jī)器人等新應(yīng)用。這些應(yīng)用的運行需要大量硬件加速器如GPU,操作成本非常高。更大的模型、更復(fù)雜的解碼算法和更長的序列會導(dǎo)致更明顯的改進(jìn)。

    • 微軟研究人員用兒童故事進(jìn)行訓(xùn)練:微型語言模型進(jìn)入成熟期

      學(xué)習(xí)英語并不容易,許多學(xué)生都深有體會。但當(dāng)學(xué)生是一臺計算機(jī)時,有一種方法表現(xiàn)出奇地出色:只需將大量來自互聯(lián)網(wǎng)的文本輸入到一個名為神經(jīng)網(wǎng)絡(luò)的巨大數(shù)學(xué)模型中。他們的研究結(jié)果暗示了可能有助于訓(xùn)練更大型模型并理解其行為的新研究方向。

    • 用PIT框架提升大型語言模型的質(zhì)量

      傳統(tǒng)方法中,提高LLMs性能需要通過人工注釋來收集更多多樣化和高質(zhì)量的訓(xùn)練數(shù)據(jù),但這是一項資源密集型的任務(wù),尤其是對于專業(yè)領(lǐng)域言。為了解決這個問題,來自伊利諾伊大學(xué)厄巴納-香檳分校和Google的研究人員提出了“ImplicitSelf-Improvementframework”。通過從人類偏好數(shù)據(jù)中學(xué)習(xí)改進(jìn)目標(biāo),PIT解決了傳統(tǒng)提示方法的限制,并展示了在各種數(shù)據(jù)集和條件下提高LLMs響應(yīng)質(zhì)量的有效性。

    • 谷歌、CMU研究表明:語言模型通過使用良好的視覺tokenizer首次擊敗了擴(kuò)散模型

      來自谷歌、CMU的研究發(fā)現(xiàn),語言模型在圖像、視頻生成領(lǐng)域的性能一直不如擴(kuò)散模型,主要原因是缺乏有效的視覺表示。通過引入一種名為MAGVIT-v2的視頻tokenizer,采用無查找量化和增強(qiáng)功能的設(shè)計,研究者成功改進(jìn)了圖像和視頻生成的質(zhì)量,超越了現(xiàn)有技術(shù)。通過這一研究,我們可以看到語言模型在視覺生成領(lǐng)域的潛力,以及如何通過創(chuàng)新的設(shè)計和改進(jìn)來實現(xiàn)更好的性能。

    • 英偉達(dá)與 Anyscale 合作:提高大型語言模型和生成式 AI 應(yīng)用的開發(fā)效率

      用于生成式AI工具的大型語言模型通常會極大地增加對更多處理器的需求,這些處理器通常價格昂貴且供應(yīng)受限。即使是云資源也不能總是解決企業(yè)試圖擴(kuò)展規(guī)模并利用最新的生成式AI技術(shù)所面臨的問題?!笰nyscale首席執(zhí)行官兼聯(lián)合創(chuàng)始人RobertNishihara在一份聲明中表示。

    • Hugging Face 大語言模型三大優(yōu)化技術(shù)

      大語言模型的生產(chǎn)部署面臨著兩個主要挑戰(zhàn):一是需要龐大的參數(shù)量,二是需要處理超長的上下文信息輸入序列。HuggingFace基于他們在提供大型模型服務(wù)方面的經(jīng)驗,分享了一些應(yīng)對這些難題的技術(shù)。文章深入剖析了大語言模型優(yōu)化的關(guān)鍵技術(shù)點,對于產(chǎn)業(yè)實踐具有重要參考價值。

    • 使用AI語言模型有助于診斷精神分裂癥

      倫敦大學(xué)學(xué)院神經(jīng)學(xué)院的科學(xué)家開發(fā)了一些新的工具,這些工具基于AI語言模型,可以特征化被診斷患有精神分裂癥的患者語音中的細(xì)微特征。這項發(fā)表在《美國國家科學(xué)院院刊》上的研究,旨在了解自動語言分析如何幫助醫(yī)生和科學(xué)家診斷和評估精神疾病。如果這些工具被證明是安全和可靠的,他預(yù)計它們會在未來十年開始應(yīng)用于臨床。

    • 秒懂生成式AI—大語言模型是如何生成內(nèi)容的?

      備受關(guān)注的大語言模型,核心是自然語言的理解與文本內(nèi)容的生成,對于此,你是否好奇過它們究竟是如何理解自然語言并生成內(nèi)容的,其工作原理又是什么呢?要想了解這個,我們就不得不先跳出大語言模型的領(lǐng)域,來到機(jī)器翻譯這里。傳統(tǒng)的機(jī)器翻譯方式是采用RNN循環(huán)神經(jīng)網(wǎng)絡(luò)。以上就是大語言模型的工作原理了,強(qiáng)大Transformer的實用性還不止于在自然語言處理領(lǐng)域,包括?

    • LongLoRA:超長上下文,大語言模型效微調(diào)方法

      麻省理工學(xué)院和香港中文大學(xué)聯(lián)合發(fā)布了LongLoRA,這是一種全新的微調(diào)方法,可以增強(qiáng)大語言模型的上下文能力無需消耗大量算力資源。想增加大語言模型的上下文處理能力,需要更多的算力支持。LongLoRA在大型語言模型領(lǐng)域提出了創(chuàng)新方法,在處理大量信息時,也可以更輕松、更高效地微調(diào)這些模型必須消耗更多的算力資源。