要點(diǎn):
美國圣塔菲研究所的研究顯示,GPT-4在圖形推理任務(wù)上的準(zhǔn)確率僅為33%,而多模態(tài)版本GPT-4v的表現(xiàn)更差,只有25%。
通過使用ConceptARC數(shù)據(jù)集,作者對(duì)451名人類受試者進(jìn)行了圖形推理任務(wù)測(cè)試,結(jié)果顯示人類的平均正確率為91%,遠(yuǎn)高于GPT-4。
研究者招募受試者的方式和GPT-4的輸入方式引發(fā)了質(zhì)疑,包括入門測(cè)試不足以篩選高質(zhì)量受試者,樣本的隨機(jī)性受到爭(zhēng)議,以及圖像轉(zhuǎn)換為數(shù)字矩陣可能改變概念等。
站長之家(ChinaZ.com)11月21日 消息:最近的研究表明,GPT-4在圖形推理任務(wù)上表現(xiàn)不佳,僅有33%的準(zhǔn)確率,引發(fā)了對(duì)大型語言模型圖形處理能力的關(guān)注。
通過使用ConceptARC數(shù)據(jù)集,研究者對(duì)451名人類受試者進(jìn)行了圖形推理任務(wù)測(cè)試,結(jié)果顯示人類在這方面表現(xiàn)卓越,平均準(zhǔn)確率達(dá)到91%。
論文地址:https://arxiv.org/pdf/2305.07141.pdf
多模態(tài)版本GPT-4v的表現(xiàn)更差,只有25%的準(zhǔn)確率。這凸顯了在涉及圖形處理的任務(wù)中,大型語言模型的多模態(tài)能力也受到限制。
研究者使用ConceptARC數(shù)據(jù)集進(jìn)行測(cè)試,其中包括16個(gè)子類的圖形推理題,涵蓋了位置關(guān)系、形狀、操作、比較等多個(gè)方面的內(nèi)容。
然而,這項(xiàng)研究的方法引發(fā)了一些質(zhì)疑,包括受試者招募的方式和GPT-4的輸入方式。研究者在亞馬遜眾包平臺(tái)上招募受試者,入門測(cè)試被認(rèn)為不足以篩選高質(zhì)量的受試者,樣本的隨機(jī)性受到爭(zhēng)議。
此外,GPT-4的輸入方式也引發(fā)了一些爭(zhēng)議,特別是將圖像轉(zhuǎn)換為數(shù)字矩陣可能改變概念,這使得一些人對(duì)實(shí)驗(yàn)結(jié)果的可信度產(chǎn)生疑問。綜合而言,這項(xiàng)研究突顯了目前大型語言模型在某些特定任務(wù)上的局限性,并提出了對(duì)研究方法的進(jìn)一步審視的需求。
(舉報(bào))