要點:
LLaVA-1.5在11項基準(zhǔn)測試實現(xiàn)了SOTA,使用8塊A100GPU,LLaVA-1.5的訓(xùn)練僅需1天時間即可完成。
LLaVA-1.5在多模態(tài)理解上超越GPT-4V,可對其形成有力競爭。
LLaVA-1.5采用最簡單的架構(gòu)和公開數(shù)據(jù)集,性能顯著提升。
站長之家(ChinaZ.com)10月8日 消息:LLaVA-1.5是來自威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)的研究人員近期開源的一款全新的端到端多模態(tài)大模型,可與OpenAI的GPT-4V形成正面競爭。LLaVA-1.5在11項基準(zhǔn)測試中都實現(xiàn)了新的狀態(tài)最優(yōu)(SOTA)成績,包括視覺問答、圖像 caption等任務(wù),展現(xiàn)出了強(qiáng)大的多模態(tài)理解能力。
論文地址:https://browse.arxiv.org/pdf/2310.03744.pdf
相比之前的版本LLaVA,LLaVA-1.5采用了更高分辨率的圖像輸入、更大規(guī)模的語言模型(13B參數(shù)),以及面向?qū)W術(shù)任務(wù)的視覺問答數(shù)據(jù)集,從而獲得了顯著的性能提升。研究人員發(fā)現(xiàn),與額外的大規(guī)模預(yù)訓(xùn)練相比,視覺指令微調(diào)對提高多模態(tài)能力更為關(guān)鍵。
值得一提的是,LLaVA-1.5采用了最簡單的架構(gòu)設(shè)計,只需要在公開可取得的6百萬圖像文本配對上訓(xùn)練一個全連接層,就能在多項基準(zhǔn)測試中打敗復(fù)雜的SOTA系統(tǒng),刷新記錄。使用8塊A100GPU,LLaVA-1.5的訓(xùn)練僅需1天時間即可完成。LLaVA-1.5展示了開源大模型可以通過簡單的設(shè)計和公共數(shù)據(jù)取得競爭力,為未來的研究提供了有價值的經(jīng)驗。LLaVA-1.5以其出色的多模態(tài)理解能力,向業(yè)內(nèi)掀起了一股“硬剛GPT-4”的新風(fēng)潮。
(舉報)