劃重點:
- ?? Cosmopedia v0.1是由 Mixtral7b 生成的最大開放合成數(shù)據(jù)集,包含超過3000萬個樣本,總共約250億個tokens。
- ?? 數(shù)據(jù)集匯編了來自網(wǎng)頁數(shù)據(jù)集(如 RefinedWeb 和 RedPajama)的信息,涵蓋教科書、博客文章、故事和 WikiHow 文章等各種內(nèi)容類型。
- ?? 這一初始版本的 Cosmopedia 為合成數(shù)據(jù)領(lǐng)域的研究奠定了基礎(chǔ),展示了其在各種主題上的潛在應(yīng)用。
站長之家(ChinaZ.com)2月21日 消息:HuggingFace 推出了 Cosmopedia v0.1,這是最大的開放合成數(shù)據(jù)集,由 Mixtral7b 生成,包含超過3000萬個樣本,總共約250億個標(biāo)記tokens。
數(shù)據(jù)集旨在通過映射來自網(wǎng)頁數(shù)據(jù)集如 RefinedWeb 和 RedPajama 的信息來匯編全球知識,包括教科書、博客文章、故事和 WikiHow 文章等各種內(nèi)容類型。該數(shù)據(jù)集的結(jié)構(gòu)分為八個部分,每個部分都源自不同的種子樣本,其中包括 web_samples_v1和 web_samples_v2,占據(jù)數(shù)據(jù)集約75% 的比例,這些樣本類似于 RefinedWeb 中的內(nèi)部網(wǎng)頁數(shù)據(jù)集。
Stanford 分區(qū)利用從 stanford.edu 網(wǎng)站上爬取的課程大綱,而故事分區(qū)則包含來自 UltraChat 和 OpenHermes2.5的生成故事。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 分區(qū)涉及與其各自來源相關(guān)的提示。
為了方便用戶訪問數(shù)據(jù)集,用戶可以使用提供的代碼段加載特定分區(qū)。另外,對于尋求縮減數(shù)據(jù)集的用戶,還提供了一個更小的子集 Cosmopedia-100k。此外,還對 Cosmopedia 進(jìn)行了訓(xùn)練,得到了一個更大的模型 Cosmo-1B,展示了其可擴(kuò)展性和多功能性。
數(shù)據(jù)集的創(chuàng)建過程包括為 web 樣本使用主題聚類方法、迭代地改進(jìn)提示以及解決污染問題。其目標(biāo)是通過量身定制提示風(fēng)格和受眾,最大程度地提高多樣性,從而顯著減少重復(fù)內(nèi)容。
數(shù)據(jù)集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia
(舉報)