中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

<table id="eaxjj"><font id="eaxjj"></font></table>

<rp id="eaxjj"><progress id="eaxjj"></progress></rp>

扳回一局！Gemini-Pro多模態(tài)能力和GPT-4V不相上下

2023-12-22 14:46 · 稿源：站長之家

要點:
Gemini-Pro在多模態(tài)能力上與GPT-4V不相上下，尤其在多模態(tài)專有基準MME上表現(xiàn)出1933.4的高分，超過GPT-4V。
在37個視覺理解任務中，Gemini-Pro在文本翻譯、顏色/地標/人物識別、OCR等任務中表現(xiàn)突出，而GPT-4V在名人識別任務上得分為0。
在高級認知、挑戰(zhàn)性視覺任務和各種專家能力領域，Gemini-Pro展現(xiàn)了強大的視覺感知和理解能力，但在位置識別任務上表現(xiàn)都不佳。

站長之家（ChinaZ.com）12月22日消息:近期的Gemini-Pro評測報告顯示其在多模態(tài)領域取得了顯著的進展，與GPT-4V不相上下，甚至在某些方面表現(xiàn)更為出色。首先，在多模態(tài)專有基準MME上的綜合表現(xiàn)中，Gemini-Pro以1933.4的高分超越了GPT-4V，展現(xiàn)出在感知和認知方面的全面優(yōu)勢。而在37個視覺理解任務中，Gemini-Pro在文本翻譯、顏色/地標/人物識別以及OCR等任務中表現(xiàn)突出，顯示了其在基礎感知領域的卓越能力。

論文地址:https://arxiv.org/pdf/2312.12436.pdf

項目地址:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

然而，評測也揭示了兩者的差異。在名人識別任務上，GPT-4V的得分為0，主要因其拒絕回答相關問題。而在位置識別任務中，兩者都呈現(xiàn)出不佳的表現(xiàn)，顯示它們對空間位置信息的不敏感。此外，開源模型SPHINX在感知任務上與GPT-4V和Gemini平齊甚至更優(yōu)，但在認知方面存在較大差距。

評測報告分為基礎感知、高級認知、挑戰(zhàn)性視覺任務和各種專家能力四大領域，對Gemini-Pro的視覺理解能力進行了詳細評估?；A感知測試涵蓋了對象級感知、場景級感知和基于知識的感知能力，其中Gemini-Pro在顏色/地標/人物識別和OCR等任務中的表現(xiàn)突出。

高級認知測試則涉及富含文本的視覺推理、抽象視覺推理、解決科學問題、情感分析和智力游戲等任務，顯示Gemini-Pro在公式生成和抽象視覺刺激方面取得良好成績。

挑戰(zhàn)性視覺任務包括指稱表達式理解、目標跟蹤和視覺故事生成等，Gemini-Pro在這些任務中展現(xiàn)了深厚的視覺感知和理解能力。最后，各種專家能力測試涉及缺陷檢測和經濟分析等任務，Gemini-Pro在股價走勢圖的分析上顯示了出色的專業(yè)知識。然而，評測也指出Gemini-Pro在一些任務上存在幻覺問題，需要進一步改進。

Gemini-Pro在多模態(tài)領域取得了令人矚目的成就，展現(xiàn)了其在視覺理解能力上的強大潛力。然而，評測也突顯了在特定任務和領域仍需進一步提升的空間。Gemini-Pro的表現(xiàn)表明了多模態(tài)技術的潛在威力，為未來的研究和應用提供了有益的啟示。

（舉報）

相關推薦

關鍵詞：

Gemini

迄今最貴！谷歌Gemini 2.5 Pro API定價公布：每百萬輸入tokens超9元

據(jù)報道，谷歌近日公布了Gemini2.5Pro的API定價，基礎定價為每百萬輸入tokens1.25美元，每百萬輸出tokens10美元。對于超過20萬tokens的長文本輸入，價格調整為每百萬輸入tokens2.50美元，輸出tokens15美元。谷歌CEO桑達爾皮查伊表示，Gemini2.5Pro是目前最受開發(fā)者歡迎的AI模型，僅本月在GoogleAIStudio和GeminiAPI上的使用量就增長了80%。

?谷歌Gemini ?2.5 ?Pro
薦多模態(tài)和Agent成為大廠AI的新賽點

這是《窄播Weekly》的第52期，本期我們關注的商業(yè)動態(tài)是:當大廠的AI競爭策略開始傾斜向應用場景，多模態(tài)能力和代理執(zhí)行成為兩個焦點。大模型落地C端場景的核心，就是讓大模型的能力越來越接近人。沿著這個主旋律，可以劃分出兩個進化方向:一個是持續(xù)降低用戶與大模型進行有效溝通的難度;另一個則是讓大模型具備執(zhí)行更復雜任務的能力。前者的實現(xiàn)，需要給到大模型多

?AI競爭策略 ?多模態(tài)能力 ?大模型應用
薦多模態(tài)和Agent成為大廠AI的新賽點

本期《窄播Weekly》聚焦AI大廠競爭策略向應用場景傾斜的趨勢，重點分析了多模態(tài)能力和代理執(zhí)行兩大發(fā)展方向。文章指出，大模型落地的核心在于讓人機交互更自然，具體表現(xiàn)為：1）通過多模態(tài)技術降低用戶使用門檻，如阿里夸克新推出的"拍照問夸克"功能；2）通過代理執(zhí)行提升復雜任務處理能力，如字節(jié)、百度等推出的通用Agent產品。國內外廠商路徑差異明顯：國?

?AI應用場景 ?多模態(tài)能力 ?代理執(zhí)行
谷歌ai壟斷？谷歌每月向三星支付“巨額費用”，讓其預裝Gemini

繼 Android 系統(tǒng)、Chrome 瀏覽器等應用之后，谷歌又為他們的 Gemini 預裝花費了“巨額費用”……

?谷歌ai壟斷 ?谷歌壟斷 ?三星
谷歌首推Gemini 2.5 Flash：成本爆降600%

快科技4月18日消息，據(jù)報道，谷歌發(fā)布了突破性混合推理模型Gemini 2.5 Flash，該模型創(chuàng)新性地引入可調節(jié)思考預算功能，在保持高性能的同時顯著降低使用成本。在閉源思考模式下，其成本僅為0.6美元/百萬tokens，相比全功能思考模式（3.5美元/百萬tokens）大幅降低600%。值得注意的是，即便在基礎模式下運行，其性能依然超越前代Gemini 2.0 Flash。性能表現(xiàn)方面，Gemini 2.5 Flash在大模?

?谷歌 ?Gemini ?2.5
超過ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

新版AI模型縮短了響應時間，節(jié)約了運算成本；還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”，據(jù)稱，這款AI模型的性能比OpenAI和DeepSeek的AI產品“更高效”。谷歌計劃在三星今年上半年推出的AI伴侶機器人Ballie上搭載生成式AI模型。

?AI模型 ?谷歌 ?Gemini
AI日報：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領域迎來技術標準的變革，ModelContextProtocol成為國內AI生態(tài)的事實標準。12.英偉達發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
開源即支持！基于昇騰MindSpeed MM玩轉InternVL3多模態(tài)理解最新模型

多模態(tài)理解領域當前已成了各家AI大模型公司“軍備競賽”的關鍵點之一，國內外知名AI大模型公司都爭相通過發(fā)布最先進的多模態(tài)大語言模型展現(xiàn)其在多模態(tài)理解領域的前沿能力。近期，上海AI實驗室推出了其最新的多模態(tài)大語言模型InternVL3 系列，相比上一代InternVL2. 5 模型，該模型展現(xiàn)出卓越的多模態(tài)感知和推理能力，同時進一步擴展了其工具使用、GUI代理、工業(yè)圖像分析等

?多模態(tài)理解 ?AI大模型 ?InternVL3
谷歌Gemini整合Veo 2視頻生成模型，8秒720P視頻輕松搞定

谷歌宣布又有一款 AI 模型將加入 Gemini，但這次它不僅僅是一個聊天機器人。

?谷歌 ?谷歌gemini ?veo2
薦剛剛，Llama 4深夜開源擊敗DeepSeek V3！2萬億多模態(tài)巨獸搶回王座

Llama4重磅發(fā)布了!Meta官宣開源首個原生多模態(tài)Llama4，首次采用的MoE架構，支持12種語言，首批發(fā)布一共兩款:Llama4Scout:共有1090億參數(shù)，17B活躍參數(shù)，16個專家，1000萬上下Llama4Maverick:共有4000億參數(shù)，17B活躍參數(shù)，128個專家，100萬上下文另外，2萬億參數(shù)Llama4Behemoth將在未來幾個月面世，288B活躍參數(shù)，16個專家。Llama4的橫空出世，成為迄今為止開源最強，多模態(tài)能力最好的模型之一。L

?Llama4 ?多模態(tài)AI ?Meta開源

熱文

3 天
7天

站長商機

廣告

商務合作侵權投訴廣告服務版權聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<sub id="7xytr"><samp id="7xytr"><acronym id="7xytr"></acronym></samp></sub>