11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來騰訊云選購吧!
早已成為LLM老生常談的問題。OpenAI科學家AndrejKarpathy今早關于大模型幻覺的解釋,觀點驚人,掀起非常激烈的討論。每個LLM都是一個不可靠的敘述者,就其架構的本質言,它是不可逆轉的。
夸克,也下場大模型了??淇舜竽P途脱杆俚琼敊嗤y評雙榜第一,幻覺率大幅降低,可以預見,風靡年輕人的夸克APP,要掀起新的颶風了。」隨著自研大模型的全面升級,全新的夸克,必然會給我們帶來全新的驚喜。
AMBER項目是針對多模式語言模型的一個新基準,旨在評估和降低模型中的幻覺問題。幻覺是指當模型在生成文本、圖像或音頻等多種模態(tài)的數(shù)據(jù)時,可能會產(chǎn)生不準確或誤導性的結果。自動化評估流程:提供自動化評估管道,簡化用戶評估模型性能的過程。
在大型語言模型的領域,OpenAI的ChatGPT因其卓越性能和廣泛應用引起轟動,成為矚目的焦點。在ChatGPT之前的兩周,Meta發(fā)布了Galactica,一款試用版模型。Taylor強調他們的研究仍然有價值,并且從Galactica的經(jīng)驗中學到的教訓已經(jīng)用到了后續(xù)的LLaMA2項目中。
哈爾濱工業(yè)大學和華為的研究團隊發(fā)表了一篇長達50頁的綜述,深入梳理了通用型LLMs在專業(yè)領域中存在的幻覺問題。雖然這些模型在通用領域任務中表現(xiàn)出色,但由于主要在廣泛的公開數(shù)據(jù)集上進行訓練,它們在專業(yè)領域的專業(yè)知識方面受到了內在限制。研究人員呼吁改善數(shù)據(jù)質量,以便更有效地學習和回憶事實知識,從減輕專業(yè)領域中的幻覺問題。
還在用指令微調解決多模態(tài)大模型的“幻覺”問題嗎?比如下圖中模型將橙色柯基錯認為“紅狗”指出周圍還有幾條。中科大的一項研究想到了一個全新辦法:一個免重訓、即插即用的通用架構,直接從模型給出的錯誤文本下手,“倒推”出可能出現(xiàn)“幻覺”之處,然后與圖片確定事實,最終直接完成修正。如下圖所示,上傳圖片并輸入請求,就可以得到修正前以及修正后的模型
MetaAI研究人員提出了一種新的基于提示的方法,稱為鏈式驗證,可顯著減少ChatGPT等語言模型產(chǎn)生的錯誤信息。ChatGPT和其他語言模型會重復復制不正確的信息,即使它們已經(jīng)學到了正確的信息??侻eta的研究為減少類似ChatGPT等對話系統(tǒng)中的錯誤信息提供了新的思路。
大規(guī)模語言模型在許多下游任務上表現(xiàn)強勁,但也面臨著一定的挑戰(zhàn)。大模型生成的與事實沖突的“幻覺”內容已成為研究熱點。大模型幻覺的評估與緩解仍有待深入研究,以促進大模型的實際應用。