11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
HuggingFace推出了Cosmopediav0.1,這是最大的開放合成數(shù)據(jù)集,由Mixtral7b生成,包含超過3000萬個樣本,總共約250億個標(biāo)記tokens。數(shù)據(jù)集旨在通過映射來自網(wǎng)頁數(shù)據(jù)集如RefinedWeb和RedPajama的信息來匯編全球知識,包括教科書、博客文章、故事和WikiHow文章等各種內(nèi)容類型。其目標(biāo)是通過量身定制提示風(fēng)格和受眾,最大程度地提高多樣性,從顯著減少重復(fù)內(nèi)容。