HuggingFace推出的開放合成數(shù)據(jù)集Cosmopedia 250億個tokens

2024-02-21 16:41 · 稿源：站長之家

劃重點:
- ?? Cosmopedia v0.1是由 Mixtral7b 生成的最大開放合成數(shù)據(jù)集，包含超過3000萬個樣本，總共約250億個tokens。
- ?? 數(shù)據(jù)集匯編了來自網(wǎng)頁數(shù)據(jù)集（如 RefinedWeb 和 RedPajama）的信息，涵蓋教科書、博客文章、故事和 WikiHow 文章等各種內(nèi)容類型。
- ?? 這一初始版本的 Cosmopedia 為合成數(shù)據(jù)領(lǐng)域的研究奠定了基礎(chǔ)，展示了其在各種主題上的潛在應(yīng)用。

站長之家（ChinaZ.com）2月21日消息:HuggingFace 推出了 Cosmopedia v0.1，這是最大的開放合成數(shù)據(jù)集，由 Mixtral7b 生成，包含超過3000萬個樣本，總共約250億個標(biāo)記tokens。

數(shù)據(jù)集旨在通過映射來自網(wǎng)頁數(shù)據(jù)集如 RefinedWeb 和 RedPajama 的信息來匯編全球知識，包括教科書、博客文章、故事和 WikiHow 文章等各種內(nèi)容類型。該數(shù)據(jù)集的結(jié)構(gòu)分為八個部分，每個部分都源自不同的種子樣本，其中包括 web_samples_v1和 web_samples_v2，占據(jù)數(shù)據(jù)集約75% 的比例，這些樣本類似于 RefinedWeb 中的內(nèi)部網(wǎng)頁數(shù)據(jù)集。

Stanford 分區(qū)利用從 stanford.edu 網(wǎng)站上爬取的課程大綱，而故事分區(qū)則包含來自 UltraChat 和 OpenHermes2.5的生成故事。此外，WikiHow、OpenStax、KhanAcademy 和 automathtext 分區(qū)涉及與其各自來源相關(guān)的提示。

為了方便用戶訪問數(shù)據(jù)集，用戶可以使用提供的代碼段加載特定分區(qū)。另外，對于尋求縮減數(shù)據(jù)集的用戶，還提供了一個更小的子集 Cosmopedia-100k。此外，還對 Cosmopedia 進(jìn)行了訓(xùn)練，得到了一個更大的模型 Cosmo-1B，展示了其可擴(kuò)展性和多功能性。

數(shù)據(jù)集的創(chuàng)建過程包括為 web 樣本使用主題聚類方法、迭代地改進(jìn)提示以及解決污染問題。其目標(biāo)是通過量身定制提示風(fēng)格和受眾，最大程度地提高多樣性，從而顯著減少重復(fù)內(nèi)容。

數(shù)據(jù)集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

（舉報）

相關(guān)推薦

關(guān)鍵詞：

大模型時代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出，大模型技術(shù)驅(qū)動下語音交互應(yīng)用場景持續(xù)拓展，但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級數(shù)據(jù)，而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實數(shù)據(jù)的重要補(bǔ)充，能通過參數(shù)化生成機(jī)制規(guī)避隱私風(fēng)險，突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型，如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集，包含上萬小時數(shù)據(jù)，覆蓋中英混合場景，支持情感合成、風(fēng)格遷移等前沿任務(wù)，為虛擬偶像、數(shù)字人等元宇宙場景提供實時語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù)，在自然度、流暢度等方面達(dá)到行業(yè)領(lǐng)先水平。

?大模型技術(shù) ?人工智能變革 ?語音交互
2025年度總票房破250億《哪吒2》獨(dú)占150億

據(jù)燈塔專業(yè)版數(shù)據(jù)，截至今日17時38分，2025年度電影大盤票房成功突破了250億大關(guān)?！赌倪钢[?！芬詣萑缙浦裰畡?，獨(dú)占了超過151.88億的票房，占據(jù)了總票房60.8%的驚人比例，斷層領(lǐng)跑整個市場。

?電影市場 ?票房數(shù)據(jù) ?2025年度
全球第一！今年我國電影總票房突破250億元：將適度減少美國影片進(jìn)口數(shù)量

據(jù)央視援引網(wǎng)絡(luò)平臺數(shù)據(jù)，2025年度我國電影票房已突破250億元，居全球第一?！赌倪钢[?！贰短铺?900》《封神第二部：戰(zhàn)火西岐》分列年度票房榜前三位，其中《哪吒之魔童鬧?！纺甓绕狈空急瘸?0.7%，強(qiáng)勢領(lǐng)跑。中國影史榜前十，美國電影僅剩2019年的《復(fù)聯(lián)4》，其它均為國產(chǎn)影片。

?電影票房 ?中國電影市場 ?哪吒之魔童鬧海
薦媲美OpenAI-o3，剛剛開源模型DeepCoder，訓(xùn)練方法、數(shù)據(jù)集大公開

今天凌晨4點，著名大模型訓(xùn)練平臺TogetherAI和智能體平臺Agentica，聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù)，但在知名代碼測試平臺LiveCodeBench的測試分為60.6%，高于OpenAI的o1模型，略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資，其估值也從去年的12.5億美元翻倍至33億美元。

?大模型 ?深度學(xué)習(xí) ?開源模型
薦英偉達(dá)開源15T數(shù)據(jù)集：32萬個機(jī)器人訓(xùn)練軌跡

全球AI領(lǐng)導(dǎo)者英偉達(dá)開源了，用于實體機(jī)器人和自動化駕駛的超大訓(xùn)練數(shù)據(jù)合集——NVIDIAPhysicalAIDataset。這個數(shù)據(jù)集一共15T，涵蓋了超過320，000個機(jī)器人訓(xùn)練軌跡，以及多達(dá)1，000個通用場景描述包括一個SimReady集合。英偉達(dá)表示，未來將繼續(xù)擴(kuò)展PhysicalAIDataset，將其建設(shè)成世界最大、統(tǒng)一的開源數(shù)據(jù)集，可用于AI模型、醫(yī)療、自動化駕駛等不同領(lǐng)域，加速AI、實體機(jī)器人的訓(xùn)練效?

?NVIDIA ?Physical ?AI
股價暴跌！蘋果市值一度蒸發(fā)2550億美元

快科技4月3日消息，據(jù)媒體報道，蘋果股價一度下跌8.5%，市值蒸發(fā)2550億美元。據(jù)了解，在關(guān)稅政策公布后，美股科技股盤后遭受重挫，蘋果、特斯拉、亞馬遜、英偉達(dá)、微軟、谷歌、臉書等巨頭全部下跌，這些巨頭市值一共蒸發(fā)逾7000億美元。業(yè)內(nèi)人士表示，當(dāng)前全球關(guān)稅處于高壓態(tài)勢，這使得蘋果等手機(jī)品牌的采購產(chǎn)業(yè)鏈面臨困境，給蘋果帶來了巨大挑戰(zhàn)，當(dāng)前蘋果所有產(chǎn)品幾乎都在海外生產(chǎn)，這讓該公司在新關(guān)稅政策下顯得格外脆弱。截至目前，在蘋果分布于全球的200家主要供應(yīng)商中，有超過80%在中國設(shè)有工廠，蘋果CEO庫克等公司高管在訪問中國時?

?蘋果股價 ?科技股重挫 ?全球關(guān)稅政策
男子駕車抱女兒擺拍被處罰：記4分、罰款250元

快科技4月29日消息，隨著短視頻的爆火，不少人已經(jīng)淪為了流量的奴隸，整天只想如何一夜爆火，甚至不惜違法法律，那么等待他的一定是對應(yīng)的懲處。媒體報道，近日，新疆烏什縣一名家長因危險駕駛行為被群眾舉報，烏什縣公安局迅速調(diào)查并依法作出處罰。當(dāng)日，烏什縣公安局交通管理大隊接到群眾舉報稱：一男子在微信朋友圈發(fā)布父女同坐主駕駛位駕車的視頻，看起來十分危險?！币曨l中，駕駛員努某未系安全帶，將年幼的女兒抱坐在腿上操控方向盤，車輛行駛過程中兩人嬉笑拍攝，甚至還在小女孩的操作下拐了兩個大彎，周圍車流量很大，行為極其危?

?短視頻 ?流量奴隸 ?危險駕駛
Arm 榮登《Fast Company》2025 年度最具創(chuàng)新力 AI 公司榜單

Arm 近期榮登《Fast Company》2025 年度最具創(chuàng)新力公司榜單，并在人工智能 (AI) 類別中位列第七*?！禙ast Company》自 2008 年發(fā)布“最具創(chuàng)新力公司”榜單以來，該榜單一直作為全球企業(yè)革新行業(yè)和塑造社會的基準(zhǔn)，其依據(jù)創(chuàng)新性、影響力、時效性和相關(guān)性四大標(biāo)準(zhǔn)進(jìn)行資格篩選。入選榜單的公司不僅代表其創(chuàng)新成果具備顯著的商業(yè)與行業(yè)影響力，更被視為所在領(lǐng)域的引領(lǐng)者，推動世?

?Arm ?創(chuàng)新力公司 ?人工智能
為成本妥協(xié)！三星 Galaxy Z Flip 7將啟用自家Exynos 2500芯片

快科技5月1日消息，據(jù)業(yè)內(nèi)消息，三星計劃在2025年7月發(fā)布的Galaxy Z Flip7中采用自家的Exynos 2500芯片。盡管該芯片目前良品率僅在20%-40%之間，三星仍做出這一選擇，主要是為降低成本。Exynos2500芯片于今年2月開始量產(chǎn)，但受限于良品率，供應(yīng)量有限。據(jù)悉，三星Galaxy Z Flip7原本被傳使用驍龍8Elite芯片且已通過內(nèi)部測試，然而三星出于成本考量，最終選擇了Exynos 2500。通常三星在芯片良品率達(dá)60%時才大規(guī)模量產(chǎn)，此次Exynos 2500雖單晶圓成本更高，但整體成本或低于驍龍8至尊版。三星預(yù)計6月前生產(chǎn)20萬部Galaxy Z Flip7，后續(xù)會依芯?

?三星 ?Galaxy ?Z
提升大模型自動修Bug能力豆包正式開源首個多語言類SWE數(shù)據(jù)集

今日，字節(jié)跳動豆包大模型團(tuán)隊宣布，正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù)，Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景，也更能反映當(dāng)前模型在自動化軟件工程”方向上的實際能力邊界。

?字節(jié)跳動 ?多語言數(shù)據(jù)集 ?大模型自動修復(fù)

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

HuggingFace推出的開放合成數(shù)據(jù)集Cosmopedia 250億個tokens

大模型時代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

2025年度總票房破250億《哪吒2》獨(dú)占150億

全球第一！今年我國電影總票房突破250億元：將適度減少美國影片進(jìn)口數(shù)量

薦媲美OpenAI-o3，剛剛開源模型DeepCoder，訓(xùn)練方法、數(shù)據(jù)集大公開

薦英偉達(dá)開源15T數(shù)據(jù)集：32萬個機(jī)器人訓(xùn)練軌跡

股價暴跌！蘋果市值一度蒸發(fā)2550億美元

男子駕車抱女兒擺拍被處罰：記4分、罰款250元

Arm 榮登《Fast Company》2025 年度最具創(chuàng)新力 AI 公司榜單

為成本妥協(xié)！三星 Galaxy Z Flip 7將啟用自家Exynos 2500芯片

提升大模型自動修Bug能力豆包正式開源首個多語言類SWE數(shù)據(jù)集

熱文

印度將中國電子投資壓股至 10%，且要求“技術(shù)轉(zhuǎn)讓”

“AI教父”杰弗里·辛頓再次發(fā)出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

美國網(wǎng)購市場動蕩，希音、Temu 率先在美開啟“漲價潮”！

站長商機(jī)