中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關鍵詞  > Gemini最新資訊  > 正文

    扳回一局!Gemini-Pro多模態(tài)能力和GPT-4V不相上下

    2023-12-22 14:46 · 稿源:站長之家

    要點:

    • Gemini-Pro在多模態(tài)能力上與GPT-4V不相上下,尤其在多模態(tài)專有基準MME上表現(xiàn)出1933.4的高分,超過GPT-4V。

    • 在37個視覺理解任務中,Gemini-Pro在文本翻譯、顏色/地標/人物識別、OCR等任務中表現(xiàn)突出,而GPT-4V在名人識別任務上得分為0。

    • 高級認知、挑戰(zhàn)性視覺任務和各種專家能力領域,Gemini-Pro展現(xiàn)了強大的視覺感知和理解能力,但在位置識別任務上表現(xiàn)都不佳。

    站長之家(ChinaZ.com)12月22日 消息:近期的Gemini-Pro評測報告顯示其在多模態(tài)領域取得了顯著的進展,與GPT-4V不相上下,甚至在某些方面表現(xiàn)更為出色。首先,在多模態(tài)專有基準MME上的綜合表現(xiàn)中,Gemini-Pro以1933.4的高分超越了GPT-4V,展現(xiàn)出在感知和認知方面的全面優(yōu)勢。而在37個視覺理解任務中,Gemini-Pro在文本翻譯、顏色/地標/人物識別以及OCR等任務中表現(xiàn)突出,顯示了其在基礎感知領域的卓越能力。

    image.png

    論文地址:https://arxiv.org/pdf/2312.12436.pdf

    項目地址:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

    然而,評測也揭示了兩者的差異。在名人識別任務上,GPT-4V的得分為0,主要因其拒絕回答相關問題。而在位置識別任務中,兩者都呈現(xiàn)出不佳的表現(xiàn),顯示它們對空間位置信息的不敏感。此外,開源模型SPHINX在感知任務上與GPT-4V和Gemini平齊甚至更優(yōu),但在認知方面存在較大差距。

    評測報告分為基礎感知、高級認知、挑戰(zhàn)性視覺任務和各種專家能力四大領域,對Gemini-Pro的視覺理解能力進行了詳細評估?;A感知測試涵蓋了對象級感知、場景級感知和基于知識的感知能力,其中Gemini-Pro在顏色/地標/人物識別和OCR等任務中的表現(xiàn)突出。

    高級認知測試則涉及富含文本的視覺推理、抽象視覺推理、解決科學問題、情感分析和智力游戲等任務,顯示Gemini-Pro在公式生成和抽象視覺刺激方面取得良好成績。

    挑戰(zhàn)性視覺任務包括指稱表達式理解、目標跟蹤和視覺故事生成等,Gemini-Pro在這些任務中展現(xiàn)了深厚的視覺感知和理解能力。最后,各種專家能力測試涉及缺陷檢測和經濟分析等任務,Gemini-Pro在股價走勢圖的分析上顯示了出色的專業(yè)知識。然而,評測也指出Gemini-Pro在一些任務上存在幻覺問題,需要進一步改進。

    Gemini-Pro在多模態(tài)領域取得了令人矚目的成就,展現(xiàn)了其在視覺理解能力上的強大潛力。然而,評測也突顯了在特定任務和領域仍需進一步提升的空間。Gemini-Pro的表現(xiàn)表明了多模態(tài)技術的潛在威力,為未來的研究和應用提供了有益的啟示。

    舉報

    • 相關推薦