劃重點(diǎn):
?? Meta提出了鏈?zhǔn)津?yàn)證(Chain-of-Verification,簡(jiǎn)寫CoVe)方法,讓聊天機(jī)器人根據(jù)初步回復(fù)自我生成驗(yàn)證問題,從而減少錯(cuò)誤信息。
?? CoVe可將列表式問題的準(zhǔn)確度提高一倍以上,即使長(zhǎng)文本的事實(shí)準(zhǔn)確性也可提高28%。
?? 未來可結(jié)合外部知識(shí)提升CoVe效果,如讓聊天機(jī)器人訪問外部數(shù)據(jù)庫回答驗(yàn)證問題。
站長(zhǎng)之家(ChinaZ.com)10月13日 消息:近日,Meta AI研究人員提出了一種新的基于提示的方法,稱為鏈?zhǔn)津?yàn)證(Chain-of-Verification,簡(jiǎn)寫CoVe),可顯著減少ChatGPT等語言模型產(chǎn)生的錯(cuò)誤信息。
研究顯示,ChatGPT和其他語言模型會(huì)重復(fù)復(fù)制不正確的信息,即使它們已經(jīng)學(xué)到了正確的信息。Meta AI的研究人員發(fā)現(xiàn),讓聊天機(jī)器人根據(jù)其最初的回復(fù)自行生成驗(yàn)證問題,然后獨(dú)立執(zhí)行這些問題而不受最初輸入的影響,可以減少語言模型的“幻想”。
具體來說,在CoVe方法中,聊天機(jī)器人首先響應(yīng)諸如“Name some politicians who were born in New York”之類的提示,根據(jù)這個(gè)常包含錯(cuò)誤的初始輸出,語言模型隨后生成諸如“Where was Donald Trump born?”之類的問題來驗(yàn)證其語句。這些“驗(yàn)證問題”然后作為一個(gè)新的提示執(zhí)行,獨(dú)立于第一個(gè)輸入,以防止從第一個(gè)輸出中獲取不正確信息。然后,語言模型會(huì)根據(jù)分別收集的事實(shí)來驗(yàn)證第一個(gè)輸入。所有測(cè)試都是在Llama65B模型上進(jìn)行的。
在他們的測(cè)試中,Meta 團(tuán)隊(duì)還可以證明指令調(diào)整和思維鏈提示不會(huì)減少幻覺,因此帶有 CoVe 的 Llama65B 擊敗了更新的指令調(diào)整模型 Llama2。在較長(zhǎng)的內(nèi)容中,使用 CoVe 的模型也優(yōu)于 ChatGPT 和PerplexityAI,后者甚至可以為其世代收集外部事實(shí)。Cove 完全利用模型中存儲(chǔ)的知識(shí)來工作。
研究團(tuán)隊(duì)展示了,利用CoVe方法,單個(gè)問題的答案包含的錯(cuò)誤顯著減少,從而可以顯著改進(jìn)最終的提示輸出。對(duì)于政治家示例中的列表式問題,CoVe可將準(zhǔn)確度提高一倍以上,大大降低錯(cuò)誤率。對(duì)于更復(fù)雜的問答場(chǎng)景,該方法仍可帶來23%的改進(jìn)。即使對(duì)于長(zhǎng)文本,CoVe也可將事實(shí)準(zhǔn)確性提高28%。但是對(duì)于更長(zhǎng)的內(nèi)容,團(tuán)隊(duì)也需要檢查驗(yàn)證答案的不一致之處。
未來,這種方法可以通過整合外部知識(shí)來改進(jìn),例如允許語言模型通過訪問外部數(shù)據(jù)庫來回答驗(yàn)證問題??侻eta的研究為減少類似ChatGPT等對(duì)話系統(tǒng)中的錯(cuò)誤信息提供了新的思路。
(舉報(bào))