11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
GPT-4V的開源替代方案在中國的頂尖學府清華、浙大等的推動下,出現(xiàn)了一系列性能優(yōu)異的開源視覺模型。LLaVA、CogAgent和BakLLaVA是三種備受關(guān)注的開源視覺語言模型。雖然BakLLaVA在訓練過程中使用了LLaVA的語料庫,不允許商用,但BakLLaVA2則采用了更大的數(shù)據(jù)集和更新的架構(gòu),超越了當前的LLaVA方法,具備商用能力。
智譜AI開源了CogAgent,它是一個視覺語言模型,擁有180億參數(shù)規(guī)模。該模型在GUI理解和導航方面表現(xiàn)出色,在多個基準測試上取得了SOTA的通用性能。CogAgent還支持OCR相關(guān)任務,通過預訓練和微調(diào),其能力得到了顯著提升。