要點:
1、清華、浙大等中國頂尖學府提供了性能優(yōu)異的GPT-4V開源替代方案。
2、LLaVA、CogAgent和BakLLaVA是三種具有極大潛力的開源視覺語言模型。
3、LLaVA在視覺聊天和推理問答方面表現(xiàn)出接近GPT-4水平的能力。
站長之家(ChinaZ.com)1月4日 消息:近期,GPT-4V的開源替代方案在中國的頂尖學府清華、浙大等的推動下,出現(xiàn)了一系列性能優(yōu)異的開源視覺模型。其中,LLaVA、CogAgent和BakLLaVA是三種備受關(guān)注的開源視覺語言模型。
LLaVA是一個端到端訓練的多模態(tài)大模型,它將視覺編碼器和用于通用視覺和語言理解的Vicuna相結(jié)合,具備令人印象深刻的聊天能力。而CogAgent是在CogVLM基礎(chǔ)上改進的開源視覺語言模型,擁有110億個視覺參數(shù)和70億個語言參數(shù)。
另外,BakLLaVA是使用LLaVA1.5架構(gòu)增強的Mistral7B基礎(chǔ)模型,已經(jīng)在多個基準測試中優(yōu)于LLaVA213B。這三種開源視覺模型在視覺處理領(lǐng)域具有極大的潛力。
LLaVA在視覺聊天和推理問答方面表現(xiàn)出接近GPT-4水平的能力。在視覺聊天方面,LLaVA的表現(xiàn)相對于GPT-4的評分達到了85%,在推理問答方面更是達到了92.53%的超過GPT-4的新SoTA。LLaVA在回答問題時,能夠全面而有邏輯地生成回答,并且可以以JSON格式輸出。
它不僅可以從圖片中提取信息并回答問題,還可以將圖片轉(zhuǎn)化為JSON格式。LLaVA還可以識別驗證碼、識別圖中的物體品種等,展現(xiàn)出了強大的多模態(tài)能力。在性能上接近GPT-4的情況下,LLaVA具有更高的成本效益,訓練只需要8個A100即可在1天內(nèi)完成。
CogAgent作為在CogVLM基礎(chǔ)上改進的開源視覺語言模型,擁有更多的功能和性能優(yōu)勢。它支持更高分辨率的視覺輸入和對話答題,能夠處理超高分辨率圖像輸入。
論文地址:https://arxiv.org/pdf/2312.08914.pdf
CogAgent還提供了可視化代理的能力,能夠返回任何給定任務(wù)的計劃、下一步行動和帶有坐標的具體操作。它還增強了與圖形用戶界面相關(guān)的問題解答功能,可以處理與網(wǎng)頁、PC應(yīng)用程序、移動應(yīng)用程序等任何圖形用戶界面截圖相關(guān)的問題。另外,通過改進預(yù)培訓和微調(diào),CogAgent還增強了OCR相關(guān)任務(wù)的能力。這些功能的提升使得CogAgent在多個基準測試上實現(xiàn)了最先進的通用性能。
BakLLaVA是使用LLaVA1.5架構(gòu)增強的Mistral7B基礎(chǔ)模型,具備更好的性能和商用能力。BakLLaVA在多個基準測試中優(yōu)于LLaVA213B,并且可以在某些數(shù)據(jù)上進行微調(diào)和推理。雖然BakLLaVA在訓練過程中使用了LLaVA的語料庫,不允許商用,但BakLLaVA2則采用了更大的數(shù)據(jù)集和更新的架構(gòu),超越了當前的LLaVA方法,具備商用能力。
(舉報)