性能是提升了些,但,“胡說八道”的能力提升得更快,直接登頂……
站長之家(ChinaZ.com) 4月21日 消息:最近,OpenAI 發(fā)布了他們比較新的推理型 AI 模型 “o3” 和 “o4 mini” ,它們雖然具備了比上一代更強(qiáng)大的性能,但 AI 幻覺卻變得更嚴(yán)重了 —— AI 幻覺是指生成型人工智能編造出實際并不存在的信息,并將其當(dāng)作事實呈現(xiàn)的現(xiàn)象。
據(jù)海外 IT 專業(yè)媒體 TechCrunch 報道稱,OpenAI 新發(fā)布的 o3 模型在 33% 的問題上出現(xiàn)了 AI 幻覺。這一數(shù)值是 o1(16%)和 o3 mini(14.8%)的兩倍以上。而 o4 mini 模型更加嚴(yán)重 —— 該模型的幻覺率竟然高達(dá) 48%,表現(xiàn)出比包括 GPT-4o 在內(nèi)的現(xiàn)有模型更加不穩(wěn)定的狀態(tài)。這一結(jié)論是該媒體引援 OpenAI 的 PersonQA 基準(zhǔn)測試評估結(jié)果而報道的。
OpenAI 在 16 日以 “新款能夠?qū)D像融入思考過程的模型” 的口號,隆重介紹并推出這些AI模型。官方解釋稱,這些模型不僅僅是單純地識別圖像,還能在推理過程中運(yùn)用視覺信息本身 —— 即 o3 和 o4 mini 模型具備了分析用戶上傳的圖畫、圖表、圖形等內(nèi)容,以及處理模糊或旋轉(zhuǎn)圖像的能力。
在性能方面,在與編碼相關(guān)的基準(zhǔn)測試 SWE 測試中,o3 的得分為 69.1%,o4 mini的得分為 68.1%,不僅超過了之前的模型 o3 mini (49.3%),也高于競爭模型 Claude3.7Sonnet 模型(62.3%)的數(shù)值。然而,盡管有這些技術(shù)上的進(jìn)步,AI幻覺出現(xiàn)率卻反而比以前有所增加。一直以來,每當(dāng)有新模型推出時,AI 幻覺的問題都在逐步得到改善,沒曾想,OpenAI 這次的新模型卻來了個“反其道而行”。
OpenAI 尚未對這一現(xiàn)象的原因給出明確的解釋。在技術(shù)報告中,分析稱:“隨著模型需要應(yīng)對比以前更多的用戶請求,不僅是正確的結(jié)果,產(chǎn)生錯誤結(jié)果的情況似乎也在增加?!?接著表示,為了查明 AI 幻覺現(xiàn)象增加的確切原因,“需要進(jìn)行更多的研究”。
人工智能行業(yè)認(rèn)為,此次事件可能會給推理型模型的可靠性帶來更多的質(zhì)疑。特別是在法律、會計、稅務(wù)等要求高度準(zhǔn)確性的行業(yè)領(lǐng)域,如果 AI 幻覺問題得不到解決,相關(guān)引入推理型 AI 模型的可能性便會減小。
OpenAI 表示:“在所有問題領(lǐng)域完全消除‘幻覺’都是一項持續(xù)的研究課題”,并表示 “我們正在繼續(xù)努力提高準(zhǔn)確性和可靠性” 。
(舉報)