中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > GPT最新資訊  > 正文

    研究表明:GPT-4在圖形推理任務(wù)上表現(xiàn)不佳,準(zhǔn)確率僅33%

    2023-11-21 16:49 · 稿源:站長之家

    要點(diǎn):

    • 美國圣塔菲研究所的研究顯示,GPT-4在圖形推理任務(wù)上的準(zhǔn)確率僅為33%,而多模態(tài)版本GPT-4v的表現(xiàn)更差,只有25%。

    • 通過使用ConceptARC數(shù)據(jù)集,作者對(duì)451名人類受試者進(jìn)行了圖形推理任務(wù)測(cè)試,結(jié)果顯示人類的平均正確率為91%,遠(yuǎn)高于GPT-4。

    • 研究者招募受試者的方式和GPT-4的輸入方式引發(fā)了質(zhì)疑,包括入門測(cè)試不足以篩選高質(zhì)量受試者,樣本的隨機(jī)性受到爭(zhēng)議,以及圖像轉(zhuǎn)換為數(shù)字矩陣可能改變概念等。

    站長之家(ChinaZ.com)11月21日 消息:最近的研究表明,GPT-4在圖形推理任務(wù)上表現(xiàn)不佳,僅有33%的準(zhǔn)確率,引發(fā)了對(duì)大型語言模型圖形處理能力的關(guān)注。

    通過使用ConceptARC數(shù)據(jù)集,研究者對(duì)451名人類受試者進(jìn)行了圖形推理任務(wù)測(cè)試,結(jié)果顯示人類在這方面表現(xiàn)卓越,平均準(zhǔn)確率達(dá)到91%。

    image.png

    論文地址:https://arxiv.org/pdf/2305.07141.pdf

    多模態(tài)版本GPT-4v的表現(xiàn)更差,只有25%的準(zhǔn)確率。這凸顯了在涉及圖形處理的任務(wù)中,大型語言模型的多模態(tài)能力也受到限制。

    研究者使用ConceptARC數(shù)據(jù)集進(jìn)行測(cè)試,其中包括16個(gè)子類的圖形推理題,涵蓋了位置關(guān)系、形狀、操作、比較等多個(gè)方面的內(nèi)容。

    然而,這項(xiàng)研究的方法引發(fā)了一些質(zhì)疑,包括受試者招募的方式和GPT-4的輸入方式。研究者在亞馬遜眾包平臺(tái)上招募受試者,入門測(cè)試被認(rèn)為不足以篩選高質(zhì)量的受試者,樣本的隨機(jī)性受到爭(zhēng)議。

    此外,GPT-4的輸入方式也引發(fā)了一些爭(zhēng)議,特別是將圖像轉(zhuǎn)換為數(shù)字矩陣可能改變概念,這使得一些人對(duì)實(shí)驗(yàn)結(jié)果的可信度產(chǎn)生疑問。綜合而言,這項(xiàng)研究突顯了目前大型語言模型在某些特定任務(wù)上的局限性,并提出了對(duì)研究方法的進(jìn)一步審視的需求。

    舉報(bào)

    • 相關(guān)推薦