站長之家(ChinaZ.com)9月28日 消息:隨著視覺與語言的深度融合,文本圖像理解成為多模態(tài)領(lǐng)域的新方向。文章介紹了一個突破性的多模態(tài)模型KOSMOS-2.5,它在處理文本密集圖像上展現(xiàn)強大能力。
論文地址:https://arxiv.org/abs/2309.11419
KOSMOS-2.5基于KOSMOS-2改進而來,采用統(tǒng)一的Transformer框架,實現(xiàn)文本圖像的端到端理解。它包含一個視覺編碼器和文本解碼器,通過重采樣模塊連接,可以同時完成檢測文本內(nèi)容和坐標、生成Markdown格式文本。
Datasets是KOSMOS-2.5的關(guān)鍵。文章使用包含豐富文本行圖像和Markdown格式文本的海量數(shù)據(jù)集進行預(yù)訓練,達到3.24億條。這種多任務(wù)聯(lián)合訓練增強了模型的多模態(tài)理解力。
KOSMOS-2.5在多個文本密集圖像任務(wù)上展現(xiàn)卓越表現(xiàn):端到端文檔文本識別和Markdown生成,同時在少樣本學習上也顯現(xiàn)潛力。這標志著在更廣泛的文本圖像理解領(lǐng)域,KOSMOS-2.5能發(fā)揮關(guān)鍵作用。
展望未來,擴展模型規(guī)模以處理更多數(shù)據(jù)是關(guān)鍵方向。目標是進一步提升對文本圖像的解釋生成能力,將KOSMOS-2.5應(yīng)用于更多實際場景,如文檔處理、信息抽取等,從而使語言模型真正具備「讀圖識文」的能力。
(舉報)