站長之家(ChinaZ.com) 12月22日 消息:2023年12月21日,智源研究院發(fā)布了新一代多模態(tài)基礎(chǔ)模型 Emu2。Emu2通過大規(guī)模自回歸生成式多模態(tài)預(yù)訓(xùn)練,顯著推動了多模態(tài)上下文學(xué)習(xí)能力的突破。
Emu2在少樣本多模態(tài)理解任務(wù)上表現(xiàn)出色,超越了主流多模態(tài)預(yù)訓(xùn)練大模型 Flamingo-80B 和 IDEFICS-80B。在 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 等多個少樣本理解、視覺問答、主體驅(qū)動圖像生成任務(wù)上,Emu2取得了最優(yōu)性能。
Emu2是目前最大的開源生成式多模態(tài)模型,基于 Emu2微調(diào)的 Emu2-Chat 和 Emu2-Gen 模型分別是目前開源的性能最強的視覺理解模型和能力最廣的視覺生成模型。Emu2-Chat 可以精準理解圖文指令,實現(xiàn)更好的信息感知、意圖理解和決策規(guī)劃。Emu2-Gen 可以接受圖像、文本、位置交錯的序列作為輸入,實現(xiàn)靈活、可控、高質(zhì)量的圖像和視頻生成。
Emu2使用了更簡單的建??蚣?,并訓(xùn)練了從編碼器語義空間重建圖像的解碼器,將模型規(guī)?;?7B 參數(shù)。Emu2采用大量圖、文、視頻的序列,建立了基于統(tǒng)一自回歸建模的多模態(tài)預(yù)訓(xùn)練框架,將圖像、視頻等模態(tài)的 token 序列直接和文本 token 序列交錯在一起輸入到模型中訓(xùn)練。
通過對多模態(tài)理解和生成能力的評測,Emu2在少樣本理解、視覺問答、主體驅(qū)動圖像生成等任務(wù)上取得了最優(yōu)性能。在16-shot TextVQA 等場景下,Emu2相較于 Flamingo-80B 超過12.7個點。在 DreamBench 主體驅(qū)動圖像生成測試上,Emu2比之前的方法取得了顯著提升。
Emu2具備全面且強大的多模態(tài)上下文學(xué)習(xí)能力,可以照貓畫虎地完成多種理解和生成任務(wù)。Emu2-Chat 經(jīng)過對話數(shù)據(jù)指令微調(diào),可以精準理解圖文指令,完成多模態(tài)理解任務(wù)。Emu2-Gen 可以接受任意 prompt 序列作為輸入,生成高質(zhì)量的圖像和視頻。
Emu2的訓(xùn)練方法是在多模態(tài)序列中進行生成式預(yù)訓(xùn)練,使用統(tǒng)一的自回歸建模方式。相比于 Emu1,Emu2采用了更簡單的建??蚣?,訓(xùn)練了更好的解碼器,并將模型規(guī)?;?7B 參數(shù)。
項目:https://baaivision.github.io/emu2/
模型:https://huggingface.co/BAAI/Emu2
代碼:https://github.com/baaivision/Emu/Emu2
Demo:https://huggingface.co/spaces/BAAI/Emu2
論文:https://arxiv.org/abs/2312.13286
(舉報)