中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

<rp id="y2qyk"></rp>

?字節(jié)跳動推出 QuaDMix：大型語言模型預訓練數(shù)據(jù)質量與多樣性的統(tǒng)一框架

2025-04-28 09:38 · 來源： AIbase基地

近日，字節(jié)跳動宣布推出其全新的數(shù)據(jù)選擇框架 QuaDMix，旨在提升大型語言模型（LLM）預訓練的效率和泛化能力。眾所周知，模型的訓練效果受基礎數(shù)據(jù)集的質量和多樣性影響很大。然而，傳統(tǒng)的數(shù)據(jù)篩選方法往往將質量和多樣性視為兩個獨立的目標，先進行質量過濾，再進行領域平衡。

這種逐步優(yōu)化的方式忽略了質量與多樣性之間的復雜相互關系。優(yōu)質數(shù)據(jù)集往往存在領域偏差，而多樣化的數(shù)據(jù)集可能會降低質量。因此，在固定的訓練預算下，如何同時優(yōu)化這兩個維度以最大化模型性能，成為了一個亟待解決的難題。

QuaDMix 框架的主要運作分為三個階段:特征提取、質量聚合和質量 - 多樣性感知采樣。在初始階段，每個文檔都會被標注領域標簽和多項質量評分。通過歸一化和合并這些評分，生成一個綜合質量分數(shù)。接著，系統(tǒng)通過基于 sigmoid 的函數(shù)采樣文檔，優(yōu)先考慮高質量樣本，并通過參數(shù)化控制確保領域平衡。

為了優(yōu)化模型，QuaDMix 在不同參數(shù)設置下訓練了數(shù)千個代理模型。通過這些代理實驗訓練的回歸模型可以預測性能結果，從而識別出最佳采樣配置。這種方法使得在高維參數(shù)空間中進行結構化探索成為可能，從而更好地將數(shù)據(jù)選擇與下游任務對接。

實驗結果顯示，QuaDMix 在 RefinedWeb 數(shù)據(jù)集上進行的驗證實驗中，與多種基線模型相比，平均得分達到了39.5%。這些基線模型包括隨機選擇、Fineweb-edu、AskLLM、DCLM 等。實驗結果表明，聯(lián)合優(yōu)化策略在整體表現(xiàn)上始終優(yōu)于單獨關注質量或多樣性的方法。此外，經(jīng)過優(yōu)化的數(shù)據(jù)混合更能提升特定下游任務的性能。

QuaDMix 為大型語言模型的預訓練數(shù)據(jù)選擇提供了一個系統(tǒng)化的解決方案，解決了長期以來同時優(yōu)化數(shù)據(jù)質量與多樣性的挑戰(zhàn)。通過結合質量聚合和領域感知采樣，QuaDMix 建立了一種可擴展的方法論，提升了 LLM 預訓練的效率。

劃重點:
?? QuaDMix 是字節(jié)跳動推出的一個新框架，旨在同時優(yōu)化大型語言模型預訓練中的數(shù)據(jù)質量和多樣性。
?? 該框架通過特征提取、質量聚合和質量 - 多樣性感知采樣的三階段流程來實現(xiàn)數(shù)據(jù)選擇。
?? 實驗結果顯示，QuaDMix 在多個基準測試中表現(xiàn)優(yōu)異，平均得分達到了39.5%，超越了多種傳統(tǒng)方法。

相關推薦

寶馬×字節(jié)跳動：以AI賦能汽車營銷創(chuàng)新變革

4月18日，華晨寶馬旗下領悅數(shù)字信息技術公司與字節(jié)跳動旗下火山引擎達成合作，雙方將圍繞AI技術在汽車營銷服務的創(chuàng)新應用展開深度合作。通過AI+場景的高效匹配，實現(xiàn)產(chǎn)品精準推薦、內(nèi)容智能引導，提升用戶購車體驗與經(jīng)銷商運營效率。寶馬集團大中華區(qū)總裁高翔表示，此次合作是寶馬"360度全鏈AI戰(zhàn)略"在營銷領域的重要實踐。領悅公司將借助火山引擎的大模型技術，打造專屬智能營銷工具，提供24小時在線客服、個性化推薦等服務。這是雙方自2019年以來的第三次合作，此前已在數(shù)字化運營、直播營銷等領域取得成果。此次合作標志著寶馬加速推進AI技術在全業(yè)務鏈的應用，持續(xù)深化中國市場數(shù)字化轉型。

?華晨寶馬 ?人工智能 ?營銷服務
傳字節(jié)跳動AI眼鏡有新動作！已和供應商“搭上線”

有知情人士透露了字節(jié)跳動在AI硬件領域的又一重大布局計劃推出自家的AI智能眼鏡。字節(jié)跳動自去年起便已啟動AI眼鏡項目。意在為豆包尋找更廣泛的C端應用場景，提升用戶粘性和使用頻率；另一方面，通過打通軟硬件，構建更加完整的生態(tài)系統(tǒng)，為公司的長遠發(fā)展奠定堅實基礎。

?字節(jié)跳動 ?AI硬件 ?智能眼鏡
騰訊穩(wěn)居全球移動發(fā)行商收入榜第一！字節(jié)跳動排第二

近日，SensorTower發(fā)布了《2024年全球移動發(fā)行商收入TOP50》榜單。在2024年，全球消費者在移動應用市場的付費首次突破1500億美元，同比增長13%。來自中國的廠商莉莉絲游戲、三七互娛、疊紙網(wǎng)絡等也出現(xiàn)在了榜單中。

?移動應用市場 ?全球發(fā)行商收入 ?騰訊
時空壺接入大語言模型，跨語言溝通已成翻譯的藝術

在當今全球化浪潮中，跨語言溝通的需求如潮水般洶涌。從商務領域的跨國談判，到文化交流中的思想碰撞，高效、精準的語言翻譯成為關鍵橋梁。隨著技術的不斷發(fā)展與迭代，時空壺有望持續(xù)引領行業(yè)變革，推動全球交流合作邁向新的高度，真正實現(xiàn)跨越語言障礙，讓世界溝通無阻。

?跨語言溝通 ?AI ?翻譯設備
突破經(jīng)驗依賴！字節(jié)跳動放寬招聘年限：畢業(yè)三年內(nèi)人才招聘量將擴大一倍

近期，字節(jié)HR團隊召開內(nèi)部政策會，要求招聘突破經(jīng)驗依賴”，不止招經(jīng)驗豐富的人，也要多招畢業(yè)不久的優(yōu)秀的人。今年計劃對畢業(yè)三年以內(nèi)的青年人才招聘量擴大一倍，畢業(yè)三年以上社招占全年社招的比例還是會保持在70%。招聘開放10大技術領域，共計44個課題，涵蓋大模型應用、搜索/推薦/廣告、計算機體系結構與系統(tǒng)優(yōu)化、安全/AISafety、硬件、AICoding、視頻架構、AIGC、AIforScience、機器人等技術領域。

?字節(jié)跳動 ?招聘政策 ?青年人才
薦AI日報：昆侖萬維開源Skywork-OR1系列模型；訊飛星辰Agent開發(fā)平臺全面支持MCP；字節(jié)跳動布局AI智能眼鏡

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、Kimi開源視覺語言模型 Kimi-VL 與 Kimi-VL-Thinking，多項基準超越 GPT-4oMoonshot AI 最近開源了 Kimi-VL 和 Kimi-VL-Thinking 兩款視覺語言模型，展現(xiàn)出卓越的多模態(tài)理解與推理能力。這些模型采

?人工智能 ?視覺語言模型 ?Kimi-VL
時空壺接入DeepSeek、豆包等大語言模型，翻譯準確度再次躍升

在全球跨語言溝通需求持續(xù)攀升的當下，時空壺再次以創(chuàng)新之舉震撼行業(yè)。時空壺正式宣布接入DeepSeek、豆包等大語言模型，為其同傳耳機產(chǎn)品帶來了前所未有的體驗升級，徹底改寫了同傳翻譯的游戲規(guī)則，也讓傳統(tǒng)機翻模式成為歷史。這一創(chuàng)新舉措不僅滿足了當下各行業(yè)對高質量跨語言溝通的迫切需求，更為未來跨語言交流的發(fā)展指明了方向，有望推動整個行業(yè)向更加智能、精準、自然的方向邁進，助力全球交流合作開啟全新篇章。

?跨語言溝通 ?同傳耳機 ?大語言模型
提升大模型自動修Bug能力豆包正式開源首個多語言類SWE數(shù)據(jù)集

今日，字節(jié)跳動豆包大模型團隊宣布，正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向全棧工程”的評測基準。相比于以往聚焦Python的單語言任務，Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景，也更能反映當前模型在自動化軟件工程”方向上的實際能力邊界。

?字節(jié)跳動 ?多語言數(shù)據(jù)集 ?大模型自動修復
何小鵬“劇透”：小鵬訓練的一個物理大模型是國內(nèi)車企“獨一份”

快科技4月14日消息，今日早間，小鵬汽車創(chuàng)始人何小鵬在社交平臺發(fā)帖稱：作為最早把「智能化」作為核心的車企，小鵬的本質是「AI汽車公司」，我認為AI 最大的價值在于改變物理世界，而不僅是數(shù)字世界，我們要做一家面向全球的AI汽車公司，我更想通過 AI 來改變物理世界，這是很有意義的，但難度也更大。小鵬堅持全棧自研，去年率先在自動駕駛領域引入強化學習、模型

?小鵬汽車 ?AI汽車 ?智能化
薦媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數(shù)據(jù)集大公開

今天凌晨4點，著名大模型訓練平臺TogetherAI和智能體平臺Agentica，聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù)，但在知名代碼測試平臺LiveCodeBench的測試分為60.6%，高于OpenAI的o1模型，略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資，其估值也從去年的12.5億美元翻倍至33億美元。

?大模型 ?深度學習 ?開源模型

今日大家都在搜的詞：

熱文

3 天
7天

站長商機

廣告

商務合作侵權投訴廣告服務版權聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<sub id="qadtf"><input id="qadtf"></input></sub>

<i id="qadtf"></i>