哥倫比亞新聞評論(Columbia Journalism Review)旗下的陶氏數(shù)字新聞研究中心(Tow Center for Digital Journalism)的一項(xiàng)新研究發(fā)現(xiàn):用于新聞搜索的生成式AI模型存在嚴(yán)重的準(zhǔn)確性問題 —— 錯誤率高達(dá) 60%。
據(jù)悉,該研究對 8 款具備實(shí)時搜索功能的AI驅(qū)動搜索工具進(jìn)行了測試,結(jié)果發(fā)現(xiàn),AI模型在回答有關(guān)新聞來源的查詢時,平均超過 60% 的答案是錯誤的。
研究人員 Klaudia Ja?wińska 和 Aisvarya Chandrasekar 在報(bào)告中指出,現(xiàn)在大約每 4 個美國人中就有 1 人使用AI模型來替代傳統(tǒng)搜索引擎。鑒于研究中發(fā)現(xiàn)的高錯誤率,不僅引發(fā)了對 AI 可靠性的嚴(yán)重?fù)?dān)憂。
在測試的平臺中,錯誤率差異顯著。Perplexity 在 37% 的測試查詢中提供了錯誤信息,而 ChatGPT 搜索在被查詢的文章中,錯誤識別了 67%(200 篇中的 134 篇)。Grok 3 的錯誤率最 高,達(dá)到了 94%。
在測試中,研究人員將實(shí)際新聞文章的直接節(jié)選內(nèi)容輸入到人工智能模型中,然后要求每個模型識別文章的標(biāo)題、原始發(fā)布者、發(fā)布日期和網(wǎng)址(URL)。他們在這 8 種不同的生成式搜索工具上共進(jìn)行了 1600 次查詢。
這項(xiàng)研究突出了這些AI模型的一個共同趨勢:當(dāng)缺乏可靠的信息支撐時,這些AI模型不是選擇“誠實(shí)”,而是經(jīng)常給出“編造”的內(nèi)容 —— 一些看似合理,卻存在錯誤或猜測性的回答。研究人員強(qiáng)調(diào),所有測試的AI模型都存在這一問題,并非個例!
更離譜的是,這些AI工具的付費(fèi)高 級版本有時表現(xiàn)甚至更差。Perplexity Pro(每月 20 美元)和 Grok 3 的高 級服務(wù)(每月 40 美元)比它們的免費(fèi)版本錯誤率更高,但它們卻十分自信。雖然這些付費(fèi)模型的正確回答數(shù)量較多,但當(dāng)它們面對“不確定的問題”時,不僅不會像免費(fèi)版本那樣“容易崩潰”,而且更喜歡給出一些“自以為是”的回答,這樣導(dǎo)致了它們總體錯誤率比免費(fèi)版還要高。
除此之外,研究人員還發(fā)現(xiàn)了另一個問題,某些AI模型無視了 “機(jī)器人排除協(xié)議(Robot Exclusion Protocol)” —— 出版社利用相關(guān)協(xié)議來防止未經(jīng)授權(quán)的訪問。舉個例子,雖然《國家地理》(National Geographic)明確禁止 Perplexity 的網(wǎng)絡(luò)爬蟲訪問,但 Perplexity 的免費(fèi)版本還是準(zhǔn)確識別出了《國家地理》付費(fèi)內(nèi)容中的 10 篇節(jié)選文章。
與此同時,即使這些AI模型引用了來源數(shù)據(jù),但它們也常常只會將用戶引導(dǎo)至雅虎新聞(Yahoo News)等平臺上的內(nèi)容集,而非內(nèi)容的原始出處。即使在發(fā)布者與人工智能公司有正式許可協(xié)議的情況下,這種情況也會發(fā)生。
編造來源成為了又一個大問題。谷歌 Gemini 和 Grok 3 的內(nèi)容引用來源中,超過50%會將用戶引入一個虛假或無效的網(wǎng)址中,這也是“錯誤答案”的主要來源。在對 Grok 3 的 200 次引用測試中,有 154 次出現(xiàn)了引用來源鏈接無效的情況。
這也讓出版商們叫苦不迭。阻止AI爬蟲吧,他們還是會自行“引用”內(nèi)容,且不標(biāo)注你的來源;允許它們訪問吧,又會導(dǎo)致版權(quán)所有的內(nèi)容被不斷重復(fù)使用,依舊無法將流量引回自己的網(wǎng)站。
《時代》(Time)雜志的CEO馬克?霍華德(Mark Howard)怒斥“現(xiàn)在是AI產(chǎn)品(表現(xiàn))最糟糕的時候?!蓖瑫r,他也對一些用戶提出了批評:如果有任何一個用戶會對這些免費(fèi)產(chǎn)品抱有100 %準(zhǔn)確率的幻想,那他們應(yīng)該感到羞愧。
對于這項(xiàng)研究,OpenAI 和微軟都給予了反饋,承認(rèn)收到了這些研究結(jié)果。OpenAI 指出,它承諾通過摘要、引用、清晰的鏈接和歸屬引用等方式為發(fā)布者帶來流量,以此來支持發(fā)布者。微軟則表示,它遵守 “機(jī)器人排除協(xié)議” 和發(fā)布者的指令。但除此之外,別無他話。
(舉報(bào))