要點(diǎn):
1、MMICL在多模態(tài)能力評(píng)測(cè)中表現(xiàn)突出,支持文本圖像視頻三種模態(tài)輸入。
2、采用兩階段訓(xùn)練,可實(shí)現(xiàn)“現(xiàn)學(xué)現(xiàn)賣”,有效緩解視覺語(yǔ)言模型中的語(yǔ)言偏見。
3、已開源可商用的Flan版和僅科研用的Vicuna版,都發(fā)布在GitHub。
站長(zhǎng)之家(ChinaZ.com)9月19日 消息:最近,北京交通大學(xué)等機(jī)構(gòu)聯(lián)合推出了新多模態(tài)大模型MMICL。它支持文本、圖像、視頻三種模態(tài)的混合輸入,在多項(xiàng)多模態(tài)能力評(píng)測(cè)中表現(xiàn)搶眼。
MMICL在MMBench和MME兩項(xiàng)多模態(tài)測(cè)評(píng)中均獲得不俗的成績(jī)。它采用Flan-T5XXL作為基礎(chǔ)模型,通過兩階段訓(xùn)練完成。第一階段是預(yù)訓(xùn)練,使用大規(guī)模數(shù)據(jù)集;第二階段是多模態(tài)上下文微調(diào),使用自建包含豐富多模態(tài)樣本的MIC數(shù)據(jù)集。這種訓(xùn)練方式讓MMICL既具備強(qiáng)大的語(yǔ)義理解能力,又特別適合處理復(fù)雜的多模態(tài)輸入。
項(xiàng)目地址:https://github.com/HaozheZhao/MIC
MMICL使用了VCR、VQAv2、GQA、COCO、NLVR2等多種數(shù)據(jù)源。研究人員將這些數(shù)據(jù)轉(zhuǎn)換成了少樣本式數(shù)據(jù),存儲(chǔ)在jsonl文件中,形成了帶有0到少樣本的多指令式數(shù)據(jù)。研究使用python數(shù)據(jù)預(yù)處理腳本,將數(shù)據(jù)轉(zhuǎn)換為后續(xù)訓(xùn)練的原始化數(shù)據(jù)。數(shù)據(jù)格式支持交錯(cuò)的圖像文字輸入,相關(guān)圖像輸入以及語(yǔ)境示范輸入。
MMICL最大的特色在于同時(shí)接受文本和圖像的交錯(cuò)輸入,就像微信聊天一樣自然。它可以分析兩張圖像的關(guān)系,也可以從視頻中提取時(shí)空信息。如果給它一些示例,MMICL還能進(jìn)行“現(xiàn)學(xué)現(xiàn)賣”,對(duì)未知知識(shí)進(jìn)行類比和推理。研究團(tuán)隊(duì)表示,MMICL成功緩解了視覺語(yǔ)言模型中的語(yǔ)言偏見問題,避免在大量文本輸入時(shí)忽視視覺信息。
MMICL的核心功能包括:
1)理解并推理多幅圖像之間的關(guān)系;
2)人工構(gòu)建的語(yǔ)境訓(xùn)練數(shù)據(jù),支持語(yǔ)境學(xué)習(xí);
3)狀態(tài)最先進(jìn)的多模態(tài)建模能力。
目前,MMICL已開源兩個(gè)版本,分別基于FlanT5XL和Vicuna模型,可滿足商用和科研需求。該模型支持多種互動(dòng)方式,開發(fā)者可以通過GitHub獲取代碼和模型進(jìn)行試用。諸如圖像分類、視頻理解等多模態(tài)任務(wù),都可以基于MMICL得到進(jìn)一步提升。
總體來說,MMICL是新興的多模態(tài)預(yù)訓(xùn)練模型中的佼佼者。它具備處理復(fù)雜多模態(tài)輸入的能力,支持各種多模態(tài)任務(wù)精調(diào)。MMICL的開源發(fā)布為多模態(tài)AI的研究和應(yīng)用提供了新的選擇。隨著其性能和適用場(chǎng)景的不斷優(yōu)化,MMICL有望成為多模態(tài)領(lǐng)域的新寵。
(舉報(bào))