中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

清華、浙大推GPT-4V開源平替！LLaVA、CogAgent等開源視覺模型大爆發(fā)

2024-01-04 09:29 · 稿源：站長之家

要點:
1、清華、浙大等中國頂尖學府提供了性能優(yōu)異的GPT-4V開源替代方案。
2、LLaVA、CogAgent和BakLLaVA是三種具有極大潛力的開源視覺語言模型。
3、LLaVA在視覺聊天和推理問答方面表現(xiàn)出接近GPT-4水平的能力。

站長之家（ChinaZ.com）1月4日消息:近期，GPT-4V的開源替代方案在中國的頂尖學府清華、浙大等的推動下，出現(xiàn)了一系列性能優(yōu)異的開源視覺模型。其中，LLaVA、CogAgent和BakLLaVA是三種備受關(guān)注的開源視覺語言模型。

LLaVA是一個端到端訓練的多模態(tài)大模型，它將視覺編碼器和用于通用視覺和語言理解的Vicuna相結(jié)合，具備令人印象深刻的聊天能力。而CogAgent是在CogVLM基礎(chǔ)上改進的開源視覺語言模型，擁有110億個視覺參數(shù)和70億個語言參數(shù)。

另外，BakLLaVA是使用LLaVA1.5架構(gòu)增強的Mistral7B基礎(chǔ)模型，已經(jīng)在多個基準測試中優(yōu)于LLaVA213B。這三種開源視覺模型在視覺處理領(lǐng)域具有極大的潛力。

LLaVA在視覺聊天和推理問答方面表現(xiàn)出接近GPT-4水平的能力。在視覺聊天方面，LLaVA的表現(xiàn)相對于GPT-4的評分達到了85%，在推理問答方面更是達到了92.53%的超過GPT-4的新SoTA。LLaVA在回答問題時，能夠全面而有邏輯地生成回答，并且可以以JSON格式輸出。

它不僅可以從圖片中提取信息并回答問題，還可以將圖片轉(zhuǎn)化為JSON格式。LLaVA還可以識別驗證碼、識別圖中的物體品種等，展現(xiàn)出了強大的多模態(tài)能力。在性能上接近GPT-4的情況下，LLaVA具有更高的成本效益，訓練只需要8個A100即可在1天內(nèi)完成。

CogAgent作為在CogVLM基礎(chǔ)上改進的開源視覺語言模型，擁有更多的功能和性能優(yōu)勢。它支持更高分辨率的視覺輸入和對話答題，能夠處理超高分辨率圖像輸入。

論文地址:https://arxiv.org/pdf/2312.08914.pdf

CogAgent還提供了可視化代理的能力，能夠返回任何給定任務(wù)的計劃、下一步行動和帶有坐標的具體操作。它還增強了與圖形用戶界面相關(guān)的問題解答功能，可以處理與網(wǎng)頁、PC應(yīng)用程序、移動應(yīng)用程序等任何圖形用戶界面截圖相關(guān)的問題。另外，通過改進預(yù)培訓和微調(diào)，CogAgent還增強了OCR相關(guān)任務(wù)的能力。這些功能的提升使得CogAgent在多個基準測試上實現(xiàn)了最先進的通用性能。

BakLLaVA是使用LLaVA1.5架構(gòu)增強的Mistral7B基礎(chǔ)模型，具備更好的性能和商用能力。BakLLaVA在多個基準測試中優(yōu)于LLaVA213B，并且可以在某些數(shù)據(jù)上進行微調(diào)和推理。雖然BakLLaVA在訓練過程中使用了LLaVA的語料庫，不允許商用，但BakLLaVA2則采用了更大的數(shù)據(jù)集和更新的架構(gòu)，超越了當前的LLaVA方法，具備商用能力。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

GPT

薦“谷歌版MCP”來了，開源A2A，不同廠商Agent也能協(xié)作

“谷歌版MCP”來了!谷歌推出A2A協(xié)議，即Agent2Agent，能讓AIAgent在不同生態(tài)系統(tǒng)間安全協(xié)作無需考慮框架或供應(yīng)商。不同平臺構(gòu)建的AIAgent之間可以進行通信、發(fā)現(xiàn)彼此的能力、協(xié)商任務(wù)并開展協(xié)作，企業(yè)可通過專業(yè)Agent團隊處理復(fù)雜工作流。從各大廠最近動作來看，蕪湖，不愧是Agent元年。

?谷歌 ?A2A協(xié)議 ?AI
剛剛，OpenAI開源BrowseComp，重塑Agent瀏覽器評測

今天凌晨2點，OpenAI開源了專門用于智能體瀏覽器功能的測試基準——BrowseComp。這個測試基準非常有難度，連OpenAI自己的GPT-4o、GPT-4.5準確率只有0.6%和0.9%幾乎為0，即便使用帶瀏覽器功能的GPT-4o也只有1.9%。通過使用更多的計算資源，模型可以嘗試更多的搜索路徑，從提高找到正確答案的概率。

?OpenAI ?智能體 ?測試基準
苦等一年 Meta終于放大招正式發(fā)布開源大模型Llama 4

美國科技巨擘Meta重磅推出其迄今最為強大的開源AI模型Llama4，恰逢Llama3上市一周年之際。Llama4系列采用了先進的混合專家架構(gòu)，這一架構(gòu)在模型訓練及用戶查詢回答過程中展現(xiàn)出更高效率，通過將模型劃分為多個專注于特定任務(wù)的專家”子模型，實現(xiàn)精準高效的處理。Meta首席執(zhí)行官扎克伯格表示：他們的目標是建立世界領(lǐng)先的人工智能，將其開源，并使其普遍可用，以便世界上每個人都能受益。

?Meta ?Llama ?4
薦AI日報：阿里新模型Qwen3即將來襲；GitHub開源MCP服務(wù)器；Runway發(fā)布Gen-4 Turbo

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、Qwen3即將來襲:阿里云新模型相關(guān)支持已正式合并至vLLM代碼庫阿里云的Qwen3模型即將發(fā)布，標志著其在AI領(lǐng)域的又一重要進展。新推出的AI聽歌報告能夠精準識別用戶音樂偏好，場景

?人工智能 ?阿里云 ?Qwen3
谷歌開源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細介紹

在GoogleCloudNext25大會上，谷歌宣布開源了首個標準智能體交互協(xié)議——Agent2AgentProtocol，這一舉措有望徹底改變智能體之間的交互方式，打破系統(tǒng)孤島，對智能體的能力、跨平臺協(xié)作以及執(zhí)行效率產(chǎn)生質(zhì)的飛躍。A2A協(xié)議是一種開放標準，旨在為智能體提供一種通用的交互方式，使它們能夠在不同的底層框架和供應(yīng)商之間無縫協(xié)作。每個部分都有指定的內(nèi)容類型，這使得客戶端和遠程智能體能夠協(xié)商所需的正確格式，并且明確包括用戶界面能力的協(xié)商，比如iframe、視頻、網(wǎng)絡(luò)表單等，從根據(jù)用戶的需求和設(shè)備的能力，提供最佳的用戶體驗。

?Agent2Agent ?Protocol ?智能體交互
薦對標OpenAI，谷歌開源Agent SDK，支持MCP、A2A、5000星

谷歌在GoogleCloudNext25大會上，開源了首個Agent開發(fā)套件—ADK。這也是OpenAI之后第二家大廠發(fā)布的標準化智能體SDK。谷歌剛開源ADK幾天在Github已經(jīng)超過5000顆星，非常受開發(fā)者的歡迎。

?Google ?Cloud ?Next
Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間，口碑急轉(zhuǎn)直下，被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文，打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺，恐將在AI競賽中進一步失去開發(fā)者支持。

?Meta ?Llama ?4
薦AI Agent大變天！谷歌開源A2A，一夜改變智能體交互

谷歌在GoogleCloudNext25大會上，開源了首個標準智能體交互協(xié)議——Agent2AgentProtocol。A2A將徹底打破系統(tǒng)孤島，對智能體的能力、跨平臺、執(zhí)行效率產(chǎn)生質(zhì)的改變，支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企業(yè)應(yīng)用平臺。通過A2A協(xié)議，MongoDB可以使其數(shù)據(jù)庫服務(wù)與智能Agent相結(jié)合，實現(xiàn)更高效的數(shù)據(jù)管理和自動化數(shù)據(jù)處理。

?谷歌
薦生成很強，推理很弱：GPT-4o的視覺短板

研究顯示，GPT-4o在圖像理解和推理上表現(xiàn)出色，能生成精美圖片，但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳，暴露出理解、推斷及多步驟邏輯處理的不足。例如，被要求畫一只貓時，它先畫了狗然后改為貓，但仍存在錯誤判斷。這表明當前AI更像“精確指令機器”，需進一步優(yōu)化以實現(xiàn)更精細的圖像理解和復(fù)雜任務(wù)處理。

?AI畫圖 ?GPT-4o ?圖像理解
薦AI日報：智譜開源32B/9B系列GLM模型并啟用Z.ai域名；OpenAI發(fā)布GPT-4.1系列模型；阿里魔搭上線MCP廣場

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、智譜AI啟用全新域名Z.ai 并開源32B/9B 系列 GLM 模型智譜技術(shù)團隊近期宣布開源32B和9B系列的GLM模型，并推出全新交互體驗平臺Z.ai。這些模型遵循MIT許可協(xié)議，支持商業(yè)用途，提升了

?人工智能 ?開源模型 ?GLM模型

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長商機

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM