中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > GPT最新資訊  > 正文

    清華、浙大推GPT-4V開源平替!LLaVA、CogAgent等開源視覺模型大爆發(fā)

    2024-01-04 09:29 · 稿源:站長之家

    要點:

    1、清華、浙大等中國頂尖學府提供了性能優(yōu)異的GPT-4V開源替代方案。

    2、LLaVA、CogAgent和BakLLaVA是三種具有極大潛力的開源視覺語言模型。

    3、LLaVA在視覺聊天和推理問答方面表現(xiàn)出接近GPT-4水平的能力。

    站長之家(ChinaZ.com)1月4日 消息:近期,GPT-4V的開源替代方案在中國的頂尖學府清華、浙大等的推動下,出現(xiàn)了一系列性能優(yōu)異的開源視覺模型。其中,LLaVA、CogAgent和BakLLaVA是三種備受關(guān)注的開源視覺語言模型。

    LLaVA是一個端到端訓練的多模態(tài)大模型,它將視覺編碼器和用于通用視覺和語言理解的Vicuna相結(jié)合,具備令人印象深刻的聊天能力。而CogAgent是在CogVLM基礎(chǔ)上改進的開源視覺語言模型,擁有110億個視覺參數(shù)和70億個語言參數(shù)。

    另外,BakLLaVA是使用LLaVA1.5架構(gòu)增強的Mistral7B基礎(chǔ)模型,已經(jīng)在多個基準測試中優(yōu)于LLaVA213B。這三種開源視覺模型在視覺處理領(lǐng)域具有極大的潛力。

    LLaVA在視覺聊天和推理問答方面表現(xiàn)出接近GPT-4水平的能力。在視覺聊天方面,LLaVA的表現(xiàn)相對于GPT-4的評分達到了85%,在推理問答方面更是達到了92.53%的超過GPT-4的新SoTA。LLaVA在回答問題時,能夠全面而有邏輯地生成回答,并且可以以JSON格式輸出。

    它不僅可以從圖片中提取信息并回答問題,還可以將圖片轉(zhuǎn)化為JSON格式。LLaVA還可以識別驗證碼、識別圖中的物體品種等,展現(xiàn)出了強大的多模態(tài)能力。在性能上接近GPT-4的情況下,LLaVA具有更高的成本效益,訓練只需要8個A100即可在1天內(nèi)完成。

    CogAgent作為在CogVLM基礎(chǔ)上改進的開源視覺語言模型,擁有更多的功能和性能優(yōu)勢。它支持更高分辨率的視覺輸入和對話答題,能夠處理超高分辨率圖像輸入。

    image.png

    論文地址:https://arxiv.org/pdf/2312.08914.pdf

    CogAgent還提供了可視化代理的能力,能夠返回任何給定任務(wù)的計劃、下一步行動和帶有坐標的具體操作。它還增強了與圖形用戶界面相關(guān)的問題解答功能,可以處理與網(wǎng)頁、PC應(yīng)用程序、移動應(yīng)用程序等任何圖形用戶界面截圖相關(guān)的問題。另外,通過改進預(yù)培訓和微調(diào),CogAgent還增強了OCR相關(guān)任務(wù)的能力。這些功能的提升使得CogAgent在多個基準測試上實現(xiàn)了最先進的通用性能。

    BakLLaVA是使用LLaVA1.5架構(gòu)增強的Mistral7B基礎(chǔ)模型,具備更好的性能和商用能力。BakLLaVA在多個基準測試中優(yōu)于LLaVA213B,并且可以在某些數(shù)據(jù)上進行微調(diào)和推理。雖然BakLLaVA在訓練過程中使用了LLaVA的語料庫,不允許商用,但BakLLaVA2則采用了更大的數(shù)據(jù)集和更新的架構(gòu),超越了當前的LLaVA方法,具備商用能力。

    舉報

    • 相關(guān)推薦
    • “谷歌版MCP”來了,開源A2A,不同廠商Agent也能協(xié)作

      “谷歌版MCP”來了!谷歌推出A2A協(xié)議,即Agent2Agent,能讓AIAgent在不同生態(tài)系統(tǒng)間安全協(xié)作無需考慮框架或供應(yīng)商。不同平臺構(gòu)建的AIAgent之間可以進行通信、發(fā)現(xiàn)彼此的能力、協(xié)商任務(wù)并開展協(xié)作,企業(yè)可通過專業(yè)Agent團隊處理復(fù)雜工作流。從各大廠最近動作來看,蕪湖,不愧是Agent元年。

    • 剛剛,OpenAI開源BrowseComp,重塑Agent瀏覽器評測

      今天凌晨2點,OpenAI開源了專門用于智能體瀏覽器功能的測試基準——BrowseComp。這個測試基準非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。通過使用更多的計算資源,模型可以嘗試更多的搜索路徑,從提高找到正確答案的概率。

    • 苦等一年 Meta終于放大招 正式發(fā)布開源大模型Llama 4

      美國科技巨擘Meta重磅推出其迄今最為強大的開源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進的混合專家架構(gòu),這一架構(gòu)在模型訓練及用戶查詢回答過程中展現(xiàn)出更高效率,通過將模型劃分為多個專注于特定任務(wù)的專家”子模型,實現(xiàn)精準高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標是建立世界領(lǐng)先的人工智能,將其開源,并使其普遍可用,以便世界上每個人都能受益。

    • AI日報:阿里新模型Qwen3即將來襲;GitHub開源MCP服務(wù)器;Runway發(fā)布Gen-4 Turbo

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、Qwen3即將來襲:阿里云新模型相關(guān)支持已正式合并至vLLM代碼庫阿里云的Qwen3模型即將發(fā)布,標志著其在AI領(lǐng)域的又一重要進展。新推出的AI聽歌報告能夠精準識別用戶音樂偏好,場景

    • 谷歌開源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細介紹

      在GoogleCloudNext25大會上,谷歌宣布開源了首個標準智能體交互協(xié)議——Agent2AgentProtocol,這一舉措有望徹底改變智能體之間的交互方式,打破系統(tǒng)孤島,對智能體的能力、跨平臺協(xié)作以及執(zhí)行效率產(chǎn)生質(zhì)的飛躍。A2A協(xié)議是一種開放標準,旨在為智能體提供一種通用的交互方式,使它們能夠在不同的底層框架和供應(yīng)商之間無縫協(xié)作。每個部分都有指定的內(nèi)容類型,這使得客戶端和遠程智能體能夠協(xié)商所需的正確格式,并且明確包括用戶界面能力的協(xié)商,比如iframe、視頻、網(wǎng)絡(luò)表單等,從根據(jù)用戶的需求和設(shè)備的能力,提供最佳的用戶體驗。

    • 對標OpenAI,谷歌開源Agent SDK,支持MCP、A2A、5000星

      谷歌在GoogleCloudNext25大會上,開源了首個Agent開發(fā)套件—ADK。這也是OpenAI之后第二家大廠發(fā)布的標準化智能體SDK。谷歌剛開源ADK幾天在Github已經(jīng)超過5000顆星,非常受開發(fā)者的歡迎。

    • Llama 4模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文,打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競賽中進一步失去開發(fā)者支持。

    • AI Agent大變天!谷歌開源A2A,一夜改變智能體交互

      谷歌在GoogleCloudNext25大會上,開源了首個標準智能體交互協(xié)議——Agent2AgentProtocol。A2A將徹底打破系統(tǒng)孤島,對智能體的能力、跨平臺、執(zhí)行效率產(chǎn)生質(zhì)的改變,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企業(yè)應(yīng)用平臺。通過A2A協(xié)議,MongoDB可以使其數(shù)據(jù)庫服務(wù)與智能Agent相結(jié)合,實現(xiàn)更高效的數(shù)據(jù)管理和自動化數(shù)據(jù)處理。

    • 生成很強,推理很弱:GPT-4o的視覺短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時,它先畫了狗然后改為貓,但仍存在錯誤判斷。這表明當前AI更像“精確指令機器”,需進一步優(yōu)化以實現(xiàn)更精細的圖像理解和復(fù)雜任務(wù)處理。

    • AI日報:智譜開源32B/9B系列GLM模型并啟用Z.ai域名;OpenAI發(fā)布GPT-4.1系列模型;阿里魔搭上線MCP廣場

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、智譜AI啟用全新域名Z.ai 并開源32B/9B 系列 GLM 模型智譜技術(shù)團隊近期宣布開源32B和9B系列的GLM模型,并推出全新交互體驗平臺Z.ai。這些模型遵循MIT許可協(xié)議,支持商業(yè)用途,提升了