**劃重點:**
1. ?? 人工智能系統(tǒng)向使用預訓練、可調(diào)整表示的方向發(fā)展,Florence-2是一款靈活的視覺基礎(chǔ)模型,通過統(tǒng)一提示式表示,成功解決了空間層次和語義細粒度的挑戰(zhàn)。
2. ?? 通過多任務學習和大規(guī)模數(shù)據(jù)集,F(xiàn)lorence-2實現(xiàn)了靈活的通用表示,取得了在多個視覺任務上的零樣本表現(xiàn)和超越專業(yè)模型的成果。
3. ??? 采用序列到序列結(jié)構(gòu),F(xiàn)lorence-2不需要特定任務的架構(gòu)調(diào)整,支持目標識別、字幕生成等多種視覺任務,是一種具有統(tǒng)一基礎(chǔ)的靈活模型。
站長之家(ChinaZ.com)11月23日 消息:近來,人工智能領(lǐng)域的趨勢是采用預訓練、可調(diào)整表示的方法,為各種應用提供任務不可知的優(yōu)勢。與此趨勢相呼應,微軟研究推出了Florence-2,這是一款靈活的視覺基礎(chǔ)模型,通過統(tǒng)一提示式表示成功應對了計算機視覺中的挑戰(zhàn)。
在自然語言處理(NLP)中,我們看到了這種趨勢的明顯體現(xiàn),先進的模型展示了在多個領(lǐng)域和任務上靈活性的同時,能夠通過簡單的指令進行深入的知識覆蓋。NLP的流行鼓勵在計算機視覺中采用類似的策略,但計算機視覺面臨更多挑戰(zhàn),因為它需要處理復雜的視覺數(shù)據(jù),如特征、遮擋輪廓和物體位置。為了實現(xiàn)通用表示,模型必須熟練處理二維排列的各種具有挑戰(zhàn)性的任務。
Florence-2通過統(tǒng)一的預訓練和網(wǎng)絡設(shè)計,引領(lǐng)了在計算機視覺中整合空間、時間和多模態(tài)特征的潮流。該模型通過任務特定的微調(diào)和使用嘈雜的文本-圖像對進行預訓練,在轉(zhuǎn)移學習方面取得了顯著的進展。然而,由于對大型任務特定數(shù)據(jù)集和適配器的依賴,存在解決空間層次和語義細粒度兩個主要問題的差距。研究人員通過使用富有視覺標注的多任務學習,提供了一個通用的骨干,實現(xiàn)了基于提示的統(tǒng)一表示,成功解決了數(shù)據(jù)不完整和缺乏統(tǒng)一架構(gòu)的問題。
在實現(xiàn)多任務學習時,大規(guī)模、高質(zhì)量的標注數(shù)據(jù)是必不可少的。為了克服人工標注的瓶頸,研究團隊創(chuàng)建了一個名為\fld 的廣泛的視覺數(shù)據(jù)集,其中包含對126M張照片的5.4B注釋。通過使用專門的模型共同和自主地注釋照片,該數(shù)據(jù)引擎的第一個模塊跳出了傳統(tǒng)的單一手動注釋策略。與眾多模型合作,共同創(chuàng)建共識,形成更公正和可信的圖片解釋。第二個模塊使用學習到的基本模型,反復改進和過濾這些自動注釋。
Florence-2采用序列到序列(seq2seq)結(jié)構(gòu),通過整合圖像編碼器和多模態(tài)編碼器-解碼器,利用這個大型數(shù)據(jù)集。這種架構(gòu)支持多種視覺任務,無需任務特定的架構(gòu)調(diào)整,符合NLP社區(qū)創(chuàng)建具有統(tǒng)一基礎(chǔ)的靈活模型的目標。數(shù)據(jù)集中的每個注釋都被一致地標準化為文本輸出,從而實現(xiàn)了使用相同損失函數(shù)的單一多任務學習策略的一致優(yōu)化。結(jié)果是一個靈活的視覺基礎(chǔ)模型,可以處理一系列功能,包括目標識別、字幕生成和定位,都在單一模型的統(tǒng)一參數(shù)控制下。文本提示被用來激活任務,與大型語言模型(LLMs)采用的方法一致。
該方法實現(xiàn)了通用表示,并在許多視覺任務中具有廣泛的應用。關(guān)鍵發(fā)現(xiàn)包括:
- 該模型是一種靈活的視覺基礎(chǔ)模型,在諸如RefCOCO的任務中實現(xiàn)了新的零樣本性能,包括引用表達理解、Flick30k上的視覺定位和COCO上的字幕生成。
- 盡管體積較小,但在使用公開可用的人工標注數(shù)據(jù)進行微調(diào)后,與更專業(yè)的模型競爭。值得注意的是,改進后的模型在RefCOCO上創(chuàng)下了新的基準最先進得分。
- 預訓練的骨干在下游任務中超越了監(jiān)督和自監(jiān)督模型,在COCO對象檢測和實例分割以及ADE20K語義分割上取得了顯著的增長。使用Mask-RCNN、DINO和UperNet框架的模型在COCO和ADE20K數(shù)據(jù)集上分別取得了6.9、5.5和5.9個點的顯著增加,同時將在ImageNet上預訓練模型的訓練效率提高了四倍。
這項研究的全部功勞歸功于該項目的研究人員。如果您喜歡他們的工作,請查看論文,并加入他們的社交媒體群體,獲取最新的人工智能研究新聞和有趣的項目。
論文網(wǎng)址:https://arxiv.org/abs/2311.06242
(舉報)