中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > HuggingFace最新資訊  > 正文

    HuggingFace推出的開放合成數(shù)據(jù)集Cosmopedia 250億個tokens

    2024-02-21 16:41 · 稿源:站長之家

    劃重點:

    - ?? Cosmopedia v0.1是由 Mixtral7b 生成的最大開放合成數(shù)據(jù)集,包含超過3000萬個樣本,總共約250億個tokens。

    - ?? 數(shù)據(jù)集匯編了來自網(wǎng)頁數(shù)據(jù)集(如 RefinedWeb 和 RedPajama)的信息,涵蓋教科書、博客文章、故事和 WikiHow 文章等各種內(nèi)容類型。

    - ?? 這一初始版本的 Cosmopedia 為合成數(shù)據(jù)領(lǐng)域的研究奠定了基礎(chǔ),展示了其在各種主題上的潛在應(yīng)用。

    站長之家(ChinaZ.com)2月21日 消息:HuggingFace 推出了 Cosmopedia v0.1,這是最大的開放合成數(shù)據(jù)集,由 Mixtral7b 生成,包含超過3000萬個樣本,總共約250億個標(biāo)記tokens。

    數(shù)據(jù)集旨在通過映射來自網(wǎng)頁數(shù)據(jù)集如 RefinedWeb 和 RedPajama 的信息來匯編全球知識,包括教科書、博客文章、故事和 WikiHow 文章等各種內(nèi)容類型。該數(shù)據(jù)集的結(jié)構(gòu)分為八個部分,每個部分都源自不同的種子樣本,其中包括 web_samples_v1和 web_samples_v2,占據(jù)數(shù)據(jù)集約75% 的比例,這些樣本類似于 RefinedWeb 中的內(nèi)部網(wǎng)頁數(shù)據(jù)集。

    image.png

    Stanford 分區(qū)利用從 stanford.edu 網(wǎng)站上爬取的課程大綱,而故事分區(qū)則包含來自 UltraChat 和 OpenHermes2.5的生成故事。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 分區(qū)涉及與其各自來源相關(guān)的提示。

    為了方便用戶訪問數(shù)據(jù)集,用戶可以使用提供的代碼段加載特定分區(qū)。另外,對于尋求縮減數(shù)據(jù)集的用戶,還提供了一個更小的子集 Cosmopedia-100k。此外,還對 Cosmopedia 進(jìn)行了訓(xùn)練,得到了一個更大的模型 Cosmo-1B,展示了其可擴(kuò)展性和多功能性。

    數(shù)據(jù)集的創(chuàng)建過程包括為 web 樣本使用主題聚類方法、迭代地改進(jìn)提示以及解決污染問題。其目標(biāo)是通過量身定制提示風(fēng)格和受眾,最大程度地提高多樣性,從而顯著減少重復(fù)內(nèi)容。

    數(shù)據(jù)集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

    舉報

    • 相關(guān)推薦
    • 大模型時代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

      本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出,大模型技術(shù)驅(qū)動下語音交互應(yīng)用場景持續(xù)拓展,但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實數(shù)據(jù)的重要補(bǔ)充,能通過參數(shù)化生成機(jī)制規(guī)避隱私風(fēng)險,突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型,如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集,包含上萬小時數(shù)據(jù),覆蓋中英混合場景,支持情感合成、風(fēng)格遷移等前沿任務(wù),為虛擬偶像、數(shù)字人等元宇宙場景提供實時語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù),在自然度、流暢度等方面達(dá)到行業(yè)領(lǐng)先水平。

    • 2025年度總票房破250億 《哪吒2》獨(dú)占150億

      據(jù)燈塔專業(yè)版數(shù)據(jù),截至今日17時38分,2025年度電影大盤票房成功突破了250億大關(guān)?!赌倪钢[?!芬詣萑缙浦裰畡?,獨(dú)占了超過151.88億的票房,占據(jù)了總票房60.8%的驚人比例,斷層領(lǐng)跑整個市場。

    • 全球第一!今年我國電影總票房突破250億元:將適度減少美國影片進(jìn)口數(shù)量

      據(jù)央視援引網(wǎng)絡(luò)平臺數(shù)據(jù),2025年度我國電影票房已突破250億元,居全球第一?!赌倪钢[?!贰短铺?900》《封神第二部:戰(zhàn)火西岐》分列年度票房榜前三位,其中《哪吒之魔童鬧?!纺甓绕狈空急瘸?0.7%,強(qiáng)勢領(lǐng)跑。中國影史榜前十,美國電影僅剩2019年的《復(fù)聯(lián)4》,其它均為國產(chǎn)影片。

    • 媲美OpenAI-o3,剛剛開源模型DeepCoder,訓(xùn)練方法、數(shù)據(jù)集大公開

      今天凌晨4點,著名大模型訓(xùn)練平臺TogetherAI和智能體平臺Agentica,聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù),但在知名代碼測試平臺LiveCodeBench的測試分為60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。

    • 英偉達(dá)開源15T數(shù)據(jù)集:32萬個機(jī)器人訓(xùn)練軌跡

      全球AI領(lǐng)導(dǎo)者英偉達(dá)開源了,用于實體機(jī)器人和自動化駕駛的超大訓(xùn)練數(shù)據(jù)合集——NVIDIAPhysicalAIDataset。這個數(shù)據(jù)集一共15T,涵蓋了超過320,000個機(jī)器人訓(xùn)練軌跡,以及多達(dá)1,000個通用場景描述包括一個SimReady集合。英偉達(dá)表示,未來將繼續(xù)擴(kuò)展PhysicalAIDataset,將其建設(shè)成世界最大、統(tǒng)一的開源數(shù)據(jù)集,可用于AI模型、醫(yī)療、自動化駕駛等不同領(lǐng)域,加速AI、實體機(jī)器人的訓(xùn)練效?

    • 股價暴跌!蘋果市值一度蒸發(fā)2550億美元

      快科技4月3日消息,據(jù)媒體報道,蘋果股價一度下跌8.5%,市值蒸發(fā)2550億美元。據(jù)了解,在關(guān)稅政策公布后,美股科技股盤后遭受重挫,蘋果、特斯拉、亞馬遜、英偉達(dá)、微軟、谷歌、臉書等巨頭全部下跌,這些巨頭市值一共蒸發(fā)逾7000億美元。業(yè)內(nèi)人士表示,當(dāng)前全球關(guān)稅處于高壓態(tài)勢,這使得蘋果等手機(jī)品牌的采購產(chǎn)業(yè)鏈面臨困境,給蘋果帶來了巨大挑戰(zhàn),當(dāng)前蘋果所有產(chǎn)品幾乎都在海外生產(chǎn),這讓該公司在新關(guān)稅政策下顯得格外脆弱。截至目前,在蘋果分布于全球的200家主要供應(yīng)商中,有超過80%在中國設(shè)有工廠,蘋果CEO庫克等公司高管在訪問中國時?

    • 男子駕車抱女兒擺拍被處罰:記4分、罰款250

      快科技4月29日消息,隨著短視頻的爆火,不少人已經(jīng)淪為了流量的奴隸,整天只想如何一夜爆火,甚至不惜違法法律,那么等待他的一定是對應(yīng)的懲處。媒體報道,近日,新疆烏什縣一名家長因危險駕駛行為被群眾舉報,烏什縣公安局迅速調(diào)查并依法作出處罰。當(dāng)日,烏什縣公安局交通管理大隊接到群眾舉報稱:一男子在微信朋友圈發(fā)布父女同坐主駕駛位駕車的視頻,看起來十分危險?!币曨l中,駕駛員努某未系安全帶,將年幼的女兒抱坐在腿上操控方向盤,車輛行駛過程中兩人嬉笑拍攝,甚至還在小女孩的操作下拐了兩個大彎,周圍車流量很大,行為極其危?

    • Arm 榮登《Fast Company》2025 年度最具創(chuàng)新力 AI 公司榜單

      Arm 近期榮登《Fast Company》2025 年度最具創(chuàng)新力公司榜單,并在人工智能 (AI) 類別中位列第七*?!禙ast Company》自 2008 年發(fā)布“最具創(chuàng)新力公司”榜單以來,該榜單一直作為全球企業(yè)革新行業(yè)和塑造社會的基準(zhǔn),其依據(jù)創(chuàng)新性、影響力、時效性和相關(guān)性四大標(biāo)準(zhǔn)進(jìn)行資格篩選。入選榜單的公司不僅代表其創(chuàng)新成果具備顯著的商業(yè)與行業(yè)影響力,更被視為所在領(lǐng)域的引領(lǐng)者,推動世?

    • 為成本妥協(xié)!三星 Galaxy Z Flip 7將啟用自家Exynos 2500芯片

      快科技5月1日消息,據(jù)業(yè)內(nèi)消息,三星計劃在2025年7月發(fā)布的Galaxy Z Flip7中采用自家的Exynos 2500芯片。盡管該芯片目前良品率僅在20%-40%之間,三星仍做出這一選擇,主要是為降低成本。Exynos2500芯片于今年2月開始量產(chǎn),但受限于良品率,供應(yīng)量有限。據(jù)悉,三星Galaxy Z Flip7原本被傳使用驍龍8Elite芯片且已通過內(nèi)部測試,然而三星出于成本考量,最終選擇了Exynos 2500。通常三星在芯片良品率達(dá)60%時才大規(guī)模量產(chǎn),此次Exynos 2500雖單晶圓成本更高,但整體成本或低于驍龍8至尊版。三星預(yù)計6月前生產(chǎn)20萬部Galaxy Z Flip7,后續(xù)會依芯?

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團(tuán)隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當(dāng)前模型在自動化軟件工程”方向上的實際能力邊界。