中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

外媒：ChatGPT新模型 o4 mini 的“AI幻覺率”高達(dá)48%

2025-04-21 09:17 · 稿源：站長之家

ChatGPT

性能是提升了些，但，“胡說八道”的能力提升得更快，直接登頂……

站長之家(ChinaZ.com) 4月21日消息:最近，OpenAI 發(fā)布了他們比較新的推理型 AI 模型 “o3” 和 “o4 mini” ，它們雖然具備了比上一代更強(qiáng)大的性能，但 AI 幻覺卻變得更嚴(yán)重了 —— AI 幻覺是指生成型人工智能編造出實際并不存在的信息，并將其當(dāng)作事實呈現(xiàn)的現(xiàn)象。

據(jù)海外 IT 專業(yè)媒體 TechCrunch 報道稱，OpenAI 新發(fā)布的 o3 模型在 33% 的問題上出現(xiàn)了 AI 幻覺。這一數(shù)值是 o1（16%）和 o3 mini（14.8%）的兩倍以上。而 o4 mini 模型更加嚴(yán)重 —— 該模型的幻覺率竟然高達(dá) 48%，表現(xiàn)出比包括 GPT-4o 在內(nèi)的現(xiàn)有模型更加不穩(wěn)定的狀態(tài)。這一結(jié)論是該媒體引援 OpenAI 的 PersonQA 基準(zhǔn)測試評估結(jié)果而報道的。

OpenAI 在 16 日以 “新款能夠?qū)D像融入思考過程的模型” 的口號，隆重介紹并推出這些AI模型。官方解釋稱，這些模型不僅僅是單純地識別圖像，還能在推理過程中運(yùn)用視覺信息本身 —— 即 o3 和 o4 mini 模型具備了分析用戶上傳的圖畫、圖表、圖形等內(nèi)容，以及處理模糊或旋轉(zhuǎn)圖像的能力。

在性能方面，在與編碼相關(guān)的基準(zhǔn)測試 SWE 測試中，o3 的得分為 69.1%，o4 mini的得分為 68.1%，不僅超過了之前的模型 o3 mini （49.3%），也高于競爭模型 Claude3.7Sonnet 模型（62.3%）的數(shù)值。然而，盡管有這些技術(shù)上的進(jìn)步，AI幻覺出現(xiàn)率卻反而比以前有所增加。一直以來，每當(dāng)有新模型推出時，AI 幻覺的問題都在逐步得到改善，沒曾想，OpenAI 這次的新模型卻來了個“反其道而行”。

OpenAI 尚未對這一現(xiàn)象的原因給出明確的解釋。在技術(shù)報告中，分析稱：“隨著模型需要應(yīng)對比以前更多的用戶請求，不僅是正確的結(jié)果，產(chǎn)生錯誤結(jié)果的情況似乎也在增加?！?接著表示，為了查明 AI 幻覺現(xiàn)象增加的確切原因，“需要進(jìn)行更多的研究”。

人工智能行業(yè)認(rèn)為，此次事件可能會給推理型模型的可靠性帶來更多的質(zhì)疑。特別是在法律、會計、稅務(wù)等要求高度準(zhǔn)確性的行業(yè)領(lǐng)域，如果 AI 幻覺問題得不到解決，相關(guān)引入推理型 AI 模型的可能性便會減小。

OpenAI 表示：“在所有問題領(lǐng)域完全消除‘幻覺’都是一項持續(xù)的研究課題”，并表示 “我們正在繼續(xù)努力提高準(zhǔn)確性和可靠性” 。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

OpenAI發(fā)布o3、o4 mini模型，實現(xiàn)“看圖說話”，糊圖也行！

從 GPT-5 開始，推理模型和非推理模型很有可能會整合在一起……

?openai ?chatgpt ?ai模型
超過ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

新版AI模型縮短了響應(yīng)時間，節(jié)約了運(yùn)算成本；還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”，據(jù)稱，這款A(yù)I模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計劃在三星今年上半年推出的AI伴侶機(jī)器人Ballie上搭載生成式AI模型。

?AI模型 ?谷歌 ?Gemini
首次實現(xiàn)圖像思考 OpenAI重磅發(fā)布o3/o4-mini：史上最強(qiáng)、最智能模型

快科技4月17日消息，今日，OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布，這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解，OpenAI o3/o4-mini首次具備真正的視覺推理能力，看圖識圖已經(jīng)是小菜一碟了，現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時處理文本、圖像和音頻，并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強(qiáng)化學(xué)習(xí)，OpenAI訓(xùn)練了o3/o4-mini如何?

?OpenAI ?AI模型 ?視覺推理
薦OpenAI深夜上線o3滿血版和o4 mini - 依舊領(lǐng)先。

晚上1點，OpenAI的直播如約而至。其實在預(yù)告的時候，幾乎已經(jīng)等于明示了。沒有廢話，今天發(fā)布的就是o3和o4-mini。但是奧特曼這個老騙子，之前明明說o3不打算單獨發(fā)布要融到GPT-5里面一起發(fā)，結(jié)果今天又發(fā)了。。。ChatGPT Plus、Pro和Team用戶從今天開始將在模型選擇器中看到o3、o4-mini和o4-mini-high，取代o1、o3-mini和o3-mini-high。我的已經(jīng)變了，但是我最想要的o3pro，還要幾周才能提供

?OpenAI ?GPT-4 ?模型發(fā)布
薦AI日報：字節(jié)發(fā)布豆包1.5深度思考模型；微信首個AI助手 “元寶” 上線；OpenAI發(fā)布o4-mini、滿血版o3

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI發(fā)布兩款多模態(tài)推理模型o4-mini、滿血版o3OpenAI在技術(shù)直播中推出了其最新的多模態(tài)模型o4-mini和滿血版o3，這兩款模型具備同時處理文本、圖像和音頻的能力，并能調(diào)用外部工?

?人工智能 ?多模態(tài)模型 ?OpenAI
IQ 過百的 AI 模型名單發(fā)布：ChatGPT、Deepseek等上榜

人工智能IQ哪家強(qiáng)？o3 智商高達(dá) 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 憑借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

?AI智商 ?ChatGPT ?Deepseek
累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

向 AI 傾訴情感在短期內(nèi)可能會帶來安慰，但過度依賴則存在風(fēng)險。通過即時的回應(yīng)可以獲得暫時的穩(wěn)定感，但從長遠(yuǎn)來看，這會讓人失去培養(yǎng)情緒調(diào)節(jié)能力和解決問題能力的機(jī)會……

?人工智能 ?AI技術(shù) ?AI聊天機(jī)器人
ChatGPT受限？這 8 款免費AI工具，也可以生成“吉卜力風(fēng)格”圖片

自從OpenAI將其先進(jìn)的圖像生成器集成到GPT-4o中后，SNS、網(wǎng)絡(luò)社區(qū)等平臺上掀起了一股“吉卜力風(fēng)格頭像”風(fēng)潮。但隨著版權(quán)爭議的加劇，OpenAI給這項“吉卜力風(fēng)格化”的圖像轉(zhuǎn)化功能加了一點點的限制。這款在線工具可以讓用戶進(jìn)行編輯、增強(qiáng)、放大圖像、將圖像轉(zhuǎn)換為視頻等多樣的操作，只需注冊便可使用。

?吉卜力風(fēng)格 ?圖像生成 ?版權(quán)爭議
“你可能患了血癌……” 醫(yī)生診斷錯誤，而 ChatGPT 是對的！

“當(dāng)身體出現(xiàn)異常時，積極查明原因是很重要的?！? 接受抗癌治療后的瑪琳這樣說道……

?AI醫(yī)療 ?ChatGPT ?AI模型
OpenAI高管計劃收購谷歌Chrome：對ChatGPT搜索至關(guān)重要

OpenAI高管Nick Turley在谷歌反壟斷庭審中透露，若法院裁定谷歌必須出售Chrome瀏覽器以恢復(fù)搜索市場競爭，OpenAI有意收購。庭審揭露OpenAI曾主動尋求與谷歌合作獲取搜索技術(shù)支持，但遭拒絕。目前ChatGPT仍依賴微軟必應(yīng)搜索技術(shù)。Turley承認(rèn)搜索功能對ChatGPT至關(guān)重要，但實現(xiàn)80%查詢使用自有搜索技術(shù)仍需數(shù)年時間。他支持司法部要求谷歌共享搜索數(shù)據(jù)的提議，認(rèn)為這將加速ChatGPT技術(shù)改進(jìn)。這場訴訟揭示了AI領(lǐng)域激烈競爭的冰山一角，檢方擔(dān)憂谷歌搜索壟斷可能延伸至AI領(lǐng)域。

?OpenAI ?谷歌反壟斷 ?Chrome瀏覽器

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

外媒：ChatGPT新模型 o4 mini 的“AI幻覺率”高達(dá)48%

OpenAI發(fā)布o3、o4 mini模型，實現(xiàn)“看圖說話”，糊圖也行！

超過ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

首次實現(xiàn)圖像思考 OpenAI重磅發(fā)布o3/o4-mini：史上最強(qiáng)、最智能模型

薦OpenAI深夜上線o3滿血版和o4 mini - 依舊領(lǐng)先。

薦AI日報：字節(jié)發(fā)布豆包1.5深度思考模型；微信首個AI助手 “元寶” 上線；OpenAI發(fā)布o4-mini、滿血版o3

IQ 過百的 AI 模型名單發(fā)布：ChatGPT、Deepseek等上榜

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

ChatGPT受限？這 8 款免費AI工具，也可以生成“吉卜力風(fēng)格”圖片

“你可能患了血癌……” 醫(yī)生診斷錯誤，而 ChatGPT 是對的！

OpenAI高管計劃收購谷歌Chrome：對ChatGPT搜索至關(guān)重要

熱文

印度將中國電子投資壓股至 10%，且要求“技術(shù)轉(zhuǎn)讓”

“AI教父”杰弗里·辛頓再次發(fā)出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

美國網(wǎng)購市場動蕩，希音、Temu 率先在美開啟“漲價潮”！

站長商機(jī)