要點:
1. 提出了一種新的預(yù)訓(xùn)練方法,稱為Headless語言模型,它移除了對詞匯空間概率分布的預(yù)測需求,而是關(guān)注用對比方式重構(gòu)表示。
2. 該方法只需要改變目標(biāo)函數(shù),可以直接應(yīng)用于經(jīng)典語言模型預(yù)訓(xùn)練目標(biāo)。
3. 在單語和多語編碼器以及單語解碼器中實驗表明,Headless語言模型預(yù)訓(xùn)練相比經(jīng)典方法在給定運算量下表現(xiàn)更好,計算效率更高。
站長之家(ChinaZ.com)9月20日 消息:研究人員發(fā)現(xiàn)了一種改進(jìn)語言模型性能的方法——Headless語言模型,即將輸入嵌入與模型的其他嵌入捆綁在一起,并使用對比損失。通常情況下,語言模型的輸入和輸出嵌入層是分開的,但這種新方法通過捆綁它們,提高了模型的訓(xùn)練速度和準(zhǔn)確性。這一創(chuàng)新有望在大規(guī)模語言處理任務(wù)中取得廣泛應(yīng)用。
Headless語言模型通過移除語言模型預(yù)測詞匯空間概率分布的需求,改為學(xué)習(xí)重構(gòu)輸入嵌入的對比方式,提供了一種創(chuàng)新預(yù)訓(xùn)練方法。作者提出了一種對比權(quán)重綁定損失,可以直接作為經(jīng)典語言模型的目標(biāo)函數(shù)替代,因此可以輕松集成到已有代碼庫中。
論文地址:https://arxiv.org/pdf/2309.08351.pdf
在英文和多語言單向編碼器以及英文解碼器模型的中等規(guī)模預(yù)訓(xùn)練實驗中發(fā)現(xiàn),在類似運算量下,Headless語言模型相比經(jīng)典方法有顯著提升,下游表現(xiàn)更好,數(shù)據(jù)效率更高,計算效率也更高。
例如,Headless語言模型在GLUE基準(zhǔn)測試上的結(jié)果比對應(yīng)的經(jīng)典模型高1.6分,在LAMBADA數(shù)據(jù)集上的準(zhǔn)確率提高了2.7分。
此外,訓(xùn)練Headless語言模型可以節(jié)省高達(dá)20倍的運算量??偟膩碚f,這項工作為以對比學(xué)習(xí)取代交叉熵作為自監(jiān)督預(yù)訓(xùn)練目標(biāo)開辟了道路,為語言表示學(xué)習(xí)提供了一種高效可行的替代方案。
(舉報)