聲明:本文來自微信公眾號“大數(shù)據(jù)文摘”(ID:BigDataDigest),作者:文摘菌,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
如果讓AI畫一只狗站在“左邊”,但事先告訴它“左就是右”,你覺得它能反應(yīng)過來嗎?
最近,UCLA的一項新研究用一系列精心設(shè)計的實驗,揭開了GPT-4o在圖像理解和推理上的短板——它畫得漂亮,卻未必真懂你的意思。
論文主線很直接,GPT-4o的畫圖能力確實驚艷,但真正涉及理解圖像、語境推理、多步邏輯鏈條時,依然有明顯短板。
這讓我想起了“看起來很會,實際上還差點意思”那種AI微妙的尷尬。
照例,我把三大實驗部分,一個一個給大家說清楚,希望帶你們完整感受下,這波研究到底發(fā)現(xiàn)了什么。
01. 全局規(guī)則遵循失敗
其實這個部分有點意思,就類似我們平常和朋友開玩笑:“以后我說左其實是右哦”,然后再讓他“往左走一步”,看他會不會真的往右走。
UCLA研究員給GPT-4o下了類似的套:“接下來‘left’都指‘right’”,“數(shù)字都要減2”,然后再讓它“畫一只狗在左邊”,“畫5只鳥”。
本以為AI能舉一反三,結(jié)果——
狗還是在左邊,鳥還是5只,全然無視前面重新定義的規(guī)則。
這說明什么?
GPT-4o在圖像生成時,還是字面理解指令,全局重定義、上文設(shè)定根本進不到它的“畫畫腦子”里。
你想讓它“靈活變通”,它卻只會“忠實執(zhí)行表面”,這跟人類的小聰明比還差了不少。
02. 圖像編輯:淺層語義理解暴露
第二部分測試更有挑戰(zhàn)性,研究員讓GPT-4o動手編輯圖片。
比如,
“只改水里的馬倒影為獅子,別動馬本體?!?/p>
結(jié)果AI一出手,馬和倒影全變了。
再比如,
“只刪掉畫面里坐著的人?!?/p>
結(jié)果站著的背景人也被一鍋端了。
這些例子直接暴露了一個問題:
GPT-4o對于“局部修改”“語義限定”這類任務(wù),根本把握不住分寸。
它沒法精確地區(qū)分“倒影”與“實體”、“坐著”與“站著”,操作經(jīng)?!斑^猶不及”,動錯地方。
說白了,AI的圖像編輯理解,遠沒達到“人類看圖、理解場景”的精細度。
有點像讓一個剛學會PS的小白去修圖,沒概念,純靠猜。
03. 多步推理與條件邏輯:徹底拉胯
最致命的短板,出現(xiàn)在“多步推理”和“條件判斷”環(huán)節(jié)。
比如,
先叫GPT-4o畫一只狗和一只貓,然后告訴它:“如果沒有貓,把狗換成貓并搬到海灘?!?/p>
但其實第一張圖貓已經(jīng)有了。
按理說,這時候AI應(yīng)該什么都不改。
但它還是把狗換成貓,還把場景全搬了——條件完全沒判對,邏輯也亂套。
類似的例子還有很多,AI經(jīng)常搞不清復雜條件,或者干脆“每條指令都照做”,不管前后有沒有沖突。
這印證了一個核心問題:
GPT-4o不具備上下文敏感的推理能力,無法在復雜圖像編輯任務(wù)中進行智能判斷。
它在“理解前提—邏輯判斷—再行動”這個鏈路上,明顯還差一大截。
總的來說,現(xiàn)在的AI,更像是個“精致的指令機器”,你讓它畫什么就畫什么,但要讓它“看懂規(guī)則、讀懂場景、舉一反三”,那還真得再進化幾輪。
這也讓我想起,AI剛學會生成文字那會兒,大家覺得它“能寫會說”,但一追問細節(jié)、讓它編故事、圓邏輯,還是會出大大小小的bug。
今天的GPT-4o,在圖片領(lǐng)域面臨的困境,其實和曾經(jīng)的文本AI如出一轍:
會畫,但不一定會“理解”;能改,但不一定能“精準”;能聽指令,但不一定能“舉一反三”。這也許是我們與“真正理解世界”的AI之間,最值得警惕、也最令人期待的那道坎。
或許,下一次技術(shù)突破,就會從這里開始。但至少現(xiàn)在,我們還沒到那一步。
via
https://the-decoder.com/gpt-4o-makes-beautiful-images-but-fails-basic-reasoning-tests-ucla-study-finds/
(舉報)