中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 熱點 > 關鍵詞  > 正文

    智譜 AI 開源視覺語言模型 CogAgent 支持GUI圖形界面問答

    2023-12-21 08:33 · 稿源:站長之家

    站長之家(ChinaZ.com)12月21日 消息:智譜 AI 開源了 CogAgent,它是一個視覺語言模型,擁有180億參數(shù)規(guī)模。該模型在 GUI 理解和導航方面表現(xiàn)出色,在多個基準測試上取得了 SOTA 的通用性能。

    它還支持高分辨率的視覺輸入和對話問答,并且可以針對任意 GUI 截圖進行問答。

    微信截圖_20231221083343.png

    模型可以通過上傳截圖來進行任務推理,并返回計劃、下一個動作以及具體操作的坐標信息。

    CogAgent 還支持 OCR 相關任務,通過預訓練和微調,其能力得到了顯著提升。

    Github:

    https://github.com/CogNLP/CogAGENT

    cogagent-chat:

    https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary

    cogagent-vqa:

    https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary

    舉報

    • 相關推薦
    • 時空壺接入大語言模型,跨語言溝通已成翻譯的藝術

      在當今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務領域的跨國談判,到文化交流中的思想碰撞,高效、精準的語言翻譯成為關鍵橋梁。隨著技術的不斷發(fā)展與迭代,時空壺有望持續(xù)引領行業(yè)變革,推動全球交流合作邁向新的高度,真正實現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • AI日報:昆侖萬維開源Skywork-OR1系列模型;訊飛星辰Agent開發(fā)平臺全面支持MCP;字節(jié)跳動布局AI智能眼鏡

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、Kimi開源視覺語言模型 Kimi-VL 與 Kimi-VL-Thinking,多項基準超越 GPT-4oMoonshot AI 最近開源了 Kimi-VL 和 Kimi-VL-Thinking 兩款視覺語言模型,展現(xiàn)出卓越的多模態(tài)理解與推理能力。這些模型采

    • AI Agent大變天!谷歌開源A2A,一夜改變智能體交互

      谷歌在GoogleCloudNext25大會上,開源了首個標準智能體交互協(xié)議——Agent2AgentProtocol。A2A將徹底打破系統(tǒng)孤島,對智能體的能力、跨平臺、執(zhí)行效率產生質的改變,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企業(yè)應用平臺。通過A2A協(xié)議,MongoDB可以使其數(shù)據(jù)庫服務與智能Agent相結合,實現(xiàn)更高效的數(shù)據(jù)管理和自動化數(shù)據(jù)處理。

    • 剛剛,OpenAI開源BrowseComp,重塑Agent瀏覽器評測

      今天凌晨2點,OpenAI開源了專門用于智能體瀏覽器功能的測試基準——BrowseComp。這個測試基準非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。通過使用更多的計算資源,模型可以嘗試更多的搜索路徑,從提高找到正確答案的概率。

    • “谷歌版MCP”來了,開源A2A,不同廠商Agent也能協(xié)作

      “谷歌版MCP”來了!谷歌推出A2A協(xié)議,即Agent2Agent,能讓AIAgent在不同生態(tài)系統(tǒng)間安全協(xié)作無需考慮框架或供應商。不同平臺構建的AIAgent之間可以進行通信、發(fā)現(xiàn)彼此的能力、協(xié)商任務并開展協(xié)作,企業(yè)可通過專業(yè)Agent團隊處理復雜工作流。從各大廠最近動作來看,蕪湖,不愧是Agent元年。

    • AI日報:阿里新模型Qwen3即將來襲;GitHub開源MCP服務器;Runway發(fā)布Gen-4 Turbo

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、Qwen3即將來襲:阿里云新模型相關支持已正式合并至vLLM代碼庫阿里云的Qwen3模型即將發(fā)布,標志著其在AI領域的又一重要進展。新推出的AI聽歌報告能夠精準識別用戶音樂偏好,場景

    • 對標OpenAI,谷歌開源Agent SDK,支持MCP、A2A、5000星

      谷歌在GoogleCloudNext25大會上,開源了首個Agent開發(fā)套件—ADK。這也是OpenAI之后第二家大廠發(fā)布的標準化智能體SDK。谷歌剛開源ADK幾天在Github已經超過5000顆星,非常受開發(fā)者的歡迎。

    • AI日報:智譜開源32B/9B系列GLM模型并啟用Z.ai域名;OpenAI發(fā)布GPT-4.1系列模型;阿里魔搭上線MCP廣場

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、智譜AI啟用全新域名Z.ai 并開源32B/9B 系列 GLM 模型智譜技術團隊近期宣布開源32B和9B系列的GLM模型,并推出全新交互體驗平臺Z.ai。這些模型遵循MIT許可協(xié)議,支持商業(yè)用途,提升了

    • 醒醒,只靠MCP和A2A還帶不來AI Agent的大繁榮

      文章探討了AI Agents發(fā)展需要類似HTTPS的安全協(xié)議保障?;仡櫥ヂ?lián)網發(fā)展歷程,TCP/IP協(xié)議統(tǒng)一了網絡通信標準,HTTP協(xié)議實現(xiàn)了全球互聯(lián),而HTTPS通過SSL加密解決了安全問題。類比互聯(lián)網發(fā)展,當前AI Agents產業(yè)面臨類似挑戰(zhàn):Anthropic推出的MCP協(xié)議解決智能體與工具連接問題,Google的A2A協(xié)議實現(xiàn)智能體間協(xié)作,但缺乏安全標準。IIFAA聯(lián)盟正致力于構建AI Agents安全生態(tài),推出ASL中間件保障數(shù)據(jù)隱私和身份認證。文章指出,正如HTTPS推動電商繁榮,AI Agents的安全標準化將加速商業(yè)化進程,螞蟻集團等企業(yè)已開始實踐MCP應用。未來AI Agents可能通過統(tǒng)一入口調用工具池,改變現(xiàn)有交互模式。

    • 谷歌開源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細介紹

      在GoogleCloudNext25大會上,谷歌宣布開源了首個標準智能體交互協(xié)議——Agent2AgentProtocol,這一舉措有望徹底改變智能體之間的交互方式,打破系統(tǒng)孤島,對智能體的能力、跨平臺協(xié)作以及執(zhí)行效率產生質的飛躍。A2A協(xié)議是一種開放標準,旨在為智能體提供一種通用的交互方式,使它們能夠在不同的底層框架和供應商之間無縫協(xié)作。每個部分都有指定的內容類型,這使得客戶端和遠程智能體能夠協(xié)商所需的正確格式,并且明確包括用戶界面能力的協(xié)商,比如iframe、視頻、網絡表單等,從根據(jù)用戶的需求和設備的能力,提供最佳的用戶體驗。