中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > AI頭條  > 正文

    ?字節(jié)跳動推出 QuaDMix:大型語言模型預訓練數(shù)據(jù)質量與多樣性的統(tǒng)一框架

    2025-04-28 09:38 · 來源: AIbase基地

    近日,字節(jié)跳動宣布推出其全新的數(shù)據(jù)選擇框架 QuaDMix,旨在提升大型語言模型(LLM)預訓練的效率和泛化能力。眾所周知,模型的訓練效果受基礎數(shù)據(jù)集的質量和多樣性影響很大。然而,傳統(tǒng)的數(shù)據(jù)篩選方法往往將質量和多樣性視為兩個獨立的目標,先進行質量過濾,再進行領域平衡。

    QQ_1745804240748.png

    這種逐步優(yōu)化的方式忽略了質量與多樣性之間的復雜相互關系。優(yōu)質數(shù)據(jù)集往往存在領域偏差,而多樣化的數(shù)據(jù)集可能會降低質量。因此,在固定的訓練預算下,如何同時優(yōu)化這兩個維度以最大化模型性能,成為了一個亟待解決的難題。

    QuaDMix 框架的主要運作分為三個階段:特征提取、質量聚合和質量 - 多樣性感知采樣。在初始階段,每個文檔都會被標注領域標簽和多項質量評分。通過歸一化和合并這些評分,生成一個綜合質量分數(shù)。接著,系統(tǒng)通過基于 sigmoid 的函數(shù)采樣文檔,優(yōu)先考慮高質量樣本,并通過參數(shù)化控制確保領域平衡。

    為了優(yōu)化模型,QuaDMix 在不同參數(shù)設置下訓練了數(shù)千個代理模型。通過這些代理實驗訓練的回歸模型可以預測性能結果,從而識別出最佳采樣配置。這種方法使得在高維參數(shù)空間中進行結構化探索成為可能,從而更好地將數(shù)據(jù)選擇與下游任務對接。

    實驗結果顯示,QuaDMix 在 RefinedWeb 數(shù)據(jù)集上進行的驗證實驗中,與多種基線模型相比,平均得分達到了39.5%。這些基線模型包括隨機選擇、Fineweb-edu、AskLLM、DCLM 等。實驗結果表明,聯(lián)合優(yōu)化策略在整體表現(xiàn)上始終優(yōu)于單獨關注質量或多樣性的方法。此外,經(jīng)過優(yōu)化的數(shù)據(jù)混合更能提升特定下游任務的性能。

    QuaDMix 為大型語言模型的預訓練數(shù)據(jù)選擇提供了一個系統(tǒng)化的解決方案,解決了長期以來同時優(yōu)化數(shù)據(jù)質量與多樣性的挑戰(zhàn)。通過結合質量聚合和領域感知采樣,QuaDMix 建立了一種可擴展的方法論,提升了 LLM 預訓練的效率。

    劃重點:

    ?? QuaDMix 是字節(jié)跳動推出的一個新框架,旨在同時優(yōu)化大型語言模型預訓練中的數(shù)據(jù)質量和多樣性。  

    ?? 該框架通過特征提取、質量聚合和質量 - 多樣性感知采樣的三階段流程來實現(xiàn)數(shù)據(jù)選擇。  

    ?? 實驗結果顯示,QuaDMix 在多個基準測試中表現(xiàn)優(yōu)異,平均得分達到了39.5%,超越了多種傳統(tǒng)方法。

    • 相關推薦

    今日大家都在搜的詞: