研究人員警告：用AI生成的內(nèi)容訓(xùn)練AI，可能會(huì)出現(xiàn)“模型崩潰”

2023-06-14 14:41 · 稿源：站長之家

站長之家（ChinaZ.com）6月14日消息:隨著越來越多的人使用 AI 來制作和發(fā)布內(nèi)容，一個(gè)明顯的問題出現(xiàn)了:當(dāng) AI 生成的內(nèi)容在互聯(lián)網(wǎng)上激增并且 AI 模型開始使用AI生成的內(nèi)容進(jìn)行訓(xùn)練，會(huì)發(fā)生什么?

來自英國和加拿大的一組研究人員已經(jīng)研究了這個(gè)問題，并且最近在開放獲取期刊 arXiv 上發(fā)表了一篇相關(guān)論文。他們的發(fā)現(xiàn)令當(dāng)前的生成式 AI 技術(shù)及其未來令人擔(dān)憂:“我們發(fā)現(xiàn)在訓(xùn)練中使用模型生成的內(nèi)容會(huì)導(dǎo)致生成的模型出現(xiàn)不可逆轉(zhuǎn)的缺陷?！?/p>

研究人員專門研究了文本到文本和圖像到圖像 AI 生成模型的概率分布，得出結(jié)論:“從其他模型生成的數(shù)據(jù)中學(xué)習(xí)會(huì)導(dǎo)致模型崩潰——一個(gè)退化過程，隨著時(shí)間的推移，模型會(huì)忘記真正的底層數(shù)據(jù)分布……這個(gè)過程是不可避免的，即使對于具有近乎理想的長期學(xué)習(xí)條件的情況也是如此?！?/p>

AI，機(jī)器人打架，撕逼，戰(zhàn)斗

“隨著時(shí)間的推移，生成數(shù)據(jù)中的錯(cuò)誤會(huì)復(fù)合并最終迫使從生成數(shù)據(jù)中學(xué)習(xí)的模型進(jìn)一步錯(cuò)誤地感知現(xiàn)實(shí)，我們驚訝地觀察到模型崩潰發(fā)生的速度有多快:模型可以迅速忘記他們最初從中學(xué)習(xí)的大部分原始數(shù)據(jù)。”該論文的主要作者之一 Ilia Shumailov解釋道。

換句話說:當(dāng) AI 訓(xùn)練模型接觸到更多 AI 生成的數(shù)據(jù)時(shí)，它的性能會(huì)隨著時(shí)間的推移而變差，在其生成的響應(yīng)和內(nèi)容中產(chǎn)生更多錯(cuò)誤，并在其響應(yīng)中產(chǎn)生更少的非錯(cuò)誤多樣性。

“模型崩潰”是如何發(fā)生的

本質(zhì)上，當(dāng) AI 模型生成的數(shù)據(jù)最終污染了后續(xù)模型的訓(xùn)練集時(shí)，就會(huì)發(fā)生模型崩潰。

Shumailov 通過一個(gè)假設(shè)場景說明了這個(gè)問題，其中機(jī)器學(xué)習(xí)模型在包含100只貓的圖片的數(shù)據(jù)集上進(jìn)行訓(xùn)練——其中10只貓的皮毛是藍(lán)色的，90只貓的皮毛是黃色的。該模型了解到黃貓更普遍，被要求生成新數(shù)據(jù)時(shí)返回一些綠貓結(jié)果。隨著時(shí)間的推移，藍(lán)色毛皮的原始特征會(huì)在連續(xù)的訓(xùn)練周期中逐漸消失，從藍(lán)色變成綠色，最后變成黃色。這種漸進(jìn)的扭曲和少數(shù)數(shù)據(jù)特征的最終丟失就是模型崩潰。為防止這種情況，重要的是要確保少數(shù)群體在數(shù)據(jù)集中的公平代表性，無論是在數(shù)量上還是在對獨(dú)特特征的準(zhǔn)確描述方面。

AI 生成數(shù)據(jù)的這種“污染”導(dǎo)致模型對現(xiàn)實(shí)產(chǎn)生了扭曲的感知。即使研究人員訓(xùn)練模型不要產(chǎn)生過多的重復(fù)響應(yīng)，他們發(fā)現(xiàn)模型崩潰仍然會(huì)發(fā)生，因?yàn)槟Ｐ蜁?huì)開始編造錯(cuò)誤的響應(yīng)以避免過于頻繁地重復(fù)數(shù)據(jù)。

“還有許多其他方面會(huì)導(dǎo)致更嚴(yán)重的影響，例如基于性別、種族或其他敏感屬性的歧視，”Shumailov 說，特別是如果生成式人工智能隨著時(shí)間的推移學(xué)會(huì)在其反應(yīng)中產(chǎn)生一個(gè)種族，而“忘記”他人存在。

重要的是要注意，這種現(xiàn)象不同于“災(zāi)難性遺忘”，模型會(huì)丟失以前學(xué)到的信息。相比之下，模型崩潰涉及模型根據(jù)他們強(qiáng)化的信念誤解現(xiàn)實(shí)。

這篇論文背后的研究人員發(fā)現(xiàn)，即使10% 的原始人類創(chuàng)作數(shù)據(jù)被用來訓(xùn)練后代的模型，“模型崩潰仍然會(huì)發(fā)生，只是不會(huì)那么快”Shumailov說道。

幸運(yùn)的是，即使使用現(xiàn)有的轉(zhuǎn)換器和 LLM，也有一些方法可以避免模型崩潰。

研究人員強(qiáng)調(diào)了兩種具體方式。第一個(gè)是保留原始的完全或名義上由人工生成的數(shù)據(jù)集的副本，并避免與 AI 生成的數(shù)據(jù)相混淆。然后，模型可以根據(jù)這些數(shù)據(jù)定期重新訓(xùn)練，或者從頭開始用它完全刷新。

避免響應(yīng)質(zhì)量下降并減少 AI 模型中不需要的錯(cuò)誤或重復(fù)的第二種方法是將新的、干凈的、人類生成的數(shù)據(jù)集重新引入到他們的訓(xùn)練中。

然而，正如研究人員指出的那樣，這需要內(nèi)容制作者或人工智能公司采用某種大規(guī)模標(biāo)簽機(jī)制或努力來區(qū)分人工智能生成的內(nèi)容和人類生成的內(nèi)容。

“為了阻止模型崩潰，我們需要確保原始數(shù)據(jù)中的少數(shù)群體在后續(xù)數(shù)據(jù)集中得到公平的代表，”Shumailov 說道。

這些發(fā)現(xiàn)對人工智能領(lǐng)域具有重要意義，強(qiáng)調(diào)需要改進(jìn)方法以隨著時(shí)間的推移保持生成模型的完整性。他們強(qiáng)調(diào)了未經(jīng)檢查的生成過程的風(fēng)險(xiǎn)，并可能指導(dǎo)未來的研究制定策略來防止或管理模型崩潰。

很明顯，模型崩潰是 ML 的一個(gè)問題，必須采取一些措施來確保生成 AI 繼續(xù)改進(jìn)。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

薦日銷破千元！AI生成的3D梗圖掛件，被我們賣爆了

先說結(jié)論:我們花15天做的AI3D掛件，在線下賣爆了，單日營收破千元!故事的開始，是因?yàn)槲覀儼l(fā)現(xiàn)把AI3D打印手辦做成一門小生意的可行性越來越高，這也激發(fā)了我們的“搞錢基因”。再加上前不久新榜在上海舉辦了「新榜內(nèi)容節(jié)」，一拍即合，我們于是做了一批模型去大會(huì)現(xiàn)場擺攤試水!最后結(jié)果還不錯(cuò)，單日最高收入突破1000元，是我們“創(chuàng)業(yè)史”上的一個(gè)高光表現(xiàn)。歡迎大家

?AI ?3D打印 ?創(chuàng)業(yè)經(jīng)驗(yàn)
“AI教父”杰弗里·辛頓再次發(fā)出警告：AI可能正在“失控”！

“如果你不能確定這只小老虎長大后會(huì)不會(huì)把你咬死，那你就應(yīng)該感到擔(dān)憂?！?AI教父杰弗里·辛頓再次就 AI 失控風(fēng)險(xiǎn)發(fā)出了警告……

?AI大模型 ?杰弗里·辛頓 ?人工智能
ChatGPT上線圖庫功能：可管理AI生成圖片

快科技4月16日消息，據(jù)報(bào)道，OpenAI近日宣布將為ChatGPT推出全新的Image Library圖庫功能，該功能將幫助用戶更高效地管理和查看AI生成的圖像。這項(xiàng)創(chuàng)新功能將逐步向所有用戶開放，包括移動(dòng)端和網(wǎng)頁端的免費(fèi)版、Plus版及Pro版用戶。新功能的設(shè)計(jì)充分考慮了用戶體驗(yàn)的便捷性。用戶只需點(diǎn)擊ChatGPT側(cè)邊欄的Library入口，就能進(jìn)入一個(gè)直觀的圖像網(wǎng)格界面。在這個(gè)界面中，用戶可以輕?

?OpenAI ?ChatGPT ?Image
AI賦能企業(yè)內(nèi)容生成：GEO服務(wù)的價(jià)值倍增效應(yīng)

當(dāng)文字生產(chǎn)流水線遭遇量子躍遷某國際4A公司的創(chuàng)意總監(jiān)最近在晨會(huì)上展示了兩份方案：一份是人類團(tuán)隊(duì)耗時(shí)兩周完成的品牌故事，另一份是AI系統(tǒng)三分鐘生成的腳本。令人驚訝的是，后者不僅準(zhǔn)確捕捉到品牌調(diào)性，還將用戶評論數(shù)據(jù)轉(zhuǎn)化成了動(dòng)態(tài)敘事線索。"這不是替代，而是進(jìn)化。"他指著屏幕上跳動(dòng)的語義云圖說，"就像蒸汽機(jī)發(fā)明后，紡織女工轉(zhuǎn)型成了機(jī)械師。"這種變革在
“吉卜力風(fēng)格”熱潮下，超 7 億人的“臉”正被用于AI訓(xùn)練？

站長之家4月8日消息：隨著ChatGPT的圖像生成功能持續(xù)獲得爆發(fā)式人氣，人們開始擔(dān)心自己上傳的照片等數(shù)據(jù)會(huì)被OpenAI收集、并被用于AI學(xué)習(xí)。據(jù)韓國移動(dòng)數(shù)據(jù)平臺IGAWorks在8日發(fā)布的數(shù)據(jù)顯示，在吉卜力風(fēng)格圖片生成功能大行其道的一周時(shí)間里，ChatGPT在韓的每日活躍用戶數(shù)從125萬增長到了308萬，漲幅高達(dá)2.5倍。業(yè)內(nèi)律師表示，“從OpenAI的角度來看，完全可以借此積累各種年齡、種族、性別的臉部圖像數(shù)據(jù)”，他還補(bǔ)充道，“如果不想在因?yàn)楹猛嫔蟼髡掌螅孤读藗€(gè)人信息的話，就應(yīng)該將其設(shè)置為不允許AI利用其個(gè)人隱私進(jìn)行訓(xùn)練學(xué)習(xí)”。

?個(gè)人數(shù)據(jù)安全 ?ChatGPT使用 ?AI學(xué)習(xí)隱患
薦從大模型到AI基礎(chǔ)設(shè)施，商湯的反向求解

大模型落地如火如荼，從上一代AI浪潮中殺出來的商湯，嗅到了這里面新的機(jī)會(huì)。在最火的具身智能賽道，這兩年誕生了許多明星創(chuàng)業(yè)公司。這些創(chuàng)業(yè)公司的創(chuàng)始人往往擁有技術(shù)明星的光環(huán)，不少都是在學(xué)術(shù)界中某個(gè)技術(shù)領(lǐng)域中響當(dāng)當(dāng)?shù)念I(lǐng)頭人。這些初創(chuàng)公司雖然在某一個(gè)單點(diǎn)技術(shù)上遙遙領(lǐng)先（大腦、小腦或者本體），但在機(jī)器人落地過程中，要突破從單一技術(shù)到整體復(fù)雜產(chǎn)品

?大模型 ?具身智能 ?機(jī)器人技術(shù)
Anthropic警告：距離無人干涉的 “AI員工” 時(shí)代，只剩一年了！

未來，這些 AI 主體將更像是人類同事，而非我們?nèi)缃袼褂玫墓ぞ?，即真正的“AI員工”……

?Anthropic ?claude ?AI員工
簡單AI：零門檻AI修圖！3分鐘免費(fèi)生成專業(yè)級春日寫真，攝影師要慌了！

春天看什么展？看人類花枝招“展”！四月的陽光、櫻花、露營趴......拍照三件套搞起來！本工具人親測了一款零門檻、超簡單、巨好用的 AI 神器——搜狐簡單 AI，從拍照到文案一站式搞定，全程不用下載，微信搜搜就能用哦~一、智能修圖：路人消失術(shù)/背景替換滿心期待拍出絕美的“春日花海大片”，但碰上陰天讓鮮花都看起來灰突突的！還有亂入的路人甲乙丙丁和滿地的?

?春季活動(dòng) ?櫻花展覽 ?攝影技巧
阿丘科技李嘉悅：大模型驅(qū)動(dòng)的AI檢測范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

3月28日，由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會(huì)現(xiàn)場，圍繞“大模型驅(qū)動(dòng)的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題，發(fā)表了精彩演講?！苯衲辏谶@個(gè)快速變化的時(shí)代，我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革，不會(huì)用大模型的將會(huì)被善用大模型的人淘汰。

?機(jī)器視覺 ?AI檢測 ?工業(yè)應(yīng)用
“AI孫悟空”會(huì)說中日英三語？訊飛星火AI大模型展項(xiàng)亮相大阪世博會(huì)

4 月 13 日，主題為“構(gòu)想煥發(fā)生機(jī)的未來社會(huì)”的日本大阪·關(guān)西世博會(huì)（以下簡稱“大阪世博會(huì)”）開幕。大阪世博會(huì)中國館以“共同構(gòu)建人與自然生命共同體——綠色發(fā)展的未來社會(huì)”為主題，攜“嫦娥五號”月壤樣本、“蛟龍”號體驗(yàn)艙等頂尖科技成果亮相，并通過大量互動(dòng)裝置和數(shù)字化科技、AI技術(shù)等讓展品“活起來”、展項(xiàng)“動(dòng)起來”，向全球展示生動(dòng)靚麗的“中國?

?大阪世博會(huì) ?中國館 ?人工智能

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

研究人員警告：用AI生成的內(nèi)容訓(xùn)練AI，可能會(huì)出現(xiàn)“模型崩潰”

熱文

站長商機(jī)

研究人員警告：用AI生成的內(nèi)容訓(xùn)練AI，可能會(huì)出現(xiàn)“模型崩潰”