中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > 模型崩潰最新資訊  > 正文

    互聯(lián)網(wǎng)時(shí)代下 AI 與人類創(chuàng)造力的角逐:當(dāng) AI 向 AI 生成數(shù)據(jù)學(xué)習(xí)時(shí)「模型崩潰」將引發(fā)混亂

    2023-06-15 10:54 · 稿源:站長之家

    站長之家(ChinaZ.com) 6月15日消息:在大型語言模型(LLM)越來越多地依賴于 ChatGPT 和其他工具來提高效率的情況下,我們可以預(yù)見到未來很大一部分網(wǎng)絡(luò)內(nèi)容將由人工智能生成。然而,這可能對大型語言模型的未來構(gòu)成嚴(yán)重風(fēng)險(xiǎn),因?yàn)槟壳八鼈円蕾囉趶木W(wǎng)絡(luò)上抓取的人類生成數(shù)據(jù)。

    OpenAI ChatGPT,人工智能,AI

    劍橋大學(xué)、牛津大學(xué)、多倫多大學(xué)和倫敦帝國理工學(xué)院的一組研究人員發(fā)表了一篇研究論文,對 LLMs 最終使用人工智能生成數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)提出了警告。這篇名為《遞歸的詛咒:在生成數(shù)據(jù)上訓(xùn)練會(huì)讓模型遺忘》的論文描述了一種退化過程,稱為「模型崩潰」,在這種過程中,模型與現(xiàn)實(shí)脫節(jié),并被自己的輸出內(nèi)容所破壞。

    隨著人工智能工具的廣泛使用,這種情況很可能會(huì)發(fā)生。廣泛使用人工智能將導(dǎo)致人工智能生成的內(nèi)容被作為大型語言模型的訓(xùn)練數(shù)據(jù),從而導(dǎo)致其輸出的不準(zhǔn)確和失真。

    這個(gè)問題在大型語言模型、變分自編碼器和高斯混合模型中都有觀察到,隨著時(shí)間的推移,它們開始「遺忘真實(shí)的基礎(chǔ)數(shù)據(jù)分布」,因?yàn)樗鼈兯?xùn)練的數(shù)據(jù)變得污染程度很高,不再與真實(shí)世界的數(shù)據(jù)相似。

    鑒于模型崩潰的嚴(yán)重風(fēng)險(xiǎn),研究人員強(qiáng)調(diào)了獲得原始分布數(shù)據(jù)的重要性,這些數(shù)據(jù)通常由人類生成。畢竟,人工智能語言模型旨在與人類進(jìn)行交互,因此需要與現(xiàn)實(shí)保持聯(lián)系,以正確模擬我們的世界。

    為解決這個(gè)問題,研究人員提出了幾種更智能的大型語言模型訓(xùn)練方法。其中一種方法是「先發(fā)優(yōu)勢」,強(qiáng)調(diào)保留對原始人工生成數(shù)據(jù)源的訪問權(quán)限。

    然而,由于很難區(qū)分 AI 生成的數(shù)據(jù)和人類生成的數(shù)據(jù),該研究論文明確提出,「社區(qū)范圍的協(xié)調(diào)」對于確定數(shù)據(jù)來源至關(guān)重要,以確保涉及 LLM 創(chuàng)建和部署的各方共享所需的信息。

    論文補(bǔ)充說,但在人們越來越廣泛地使用生成式人工智能和對技術(shù)占據(jù)崗位的擔(dān)憂之間,對于人類創(chuàng)作者來說也存在一線希望。

    研究論文推測,隨著互聯(lián)網(wǎng)上生成式人工智能數(shù)據(jù)的增加,人類創(chuàng)造的內(nèi)容將變得越來越有價(jià)值,即使只是作為訓(xùn)練大型語言模型時(shí)的無污染數(shù)據(jù)來源。

    舉報(bào)

    • 相關(guān)推薦

    熱文

    • 3 天
    • 7天