站長之家(ChinaZ.com)12月21日 消息:智譜 AI 開源了 CogAgent,它是一個視覺語言模型,擁有180億參數(shù)規(guī)模。該模型在 GUI 理解和導航方面表現(xiàn)出色,在多個基準測試上取得了 SOTA 的通用性能。
它還支持高分辨率的視覺輸入和對話問答,并且可以針對任意 GUI 截圖進行問答。
模型可以通過上傳截圖來進行任務推理,并返回計劃、下一個動作以及具體操作的坐標信息。
CogAgent 還支持 OCR 相關任務,通過預訓練和微調,其能力得到了顯著提升。
Github:
https://github.com/CogNLP/CogAGENT
cogagent-chat:
https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary
cogagent-vqa:
https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary
(舉報)