**劃重點(diǎn):**
1. ?? DreamSync是由南加州大學(xué)、華盛頓大學(xué)、巴伊蘭大學(xué)和谷歌研究團(tuán)隊引入的新型人工智能框架,致力于提高擴(kuò)散型文本到圖像(T2I)模型的對齊性和審美吸引力,無需人工標(biāo)注、模型架構(gòu)修改或強(qiáng)化學(xué)習(xí)。
2. ?? DreamSync通過生成候選圖像,利用視覺問答(VQA)模型進(jìn)行評估,并對文本到圖像模型進(jìn)行微調(diào),成功解決了T2I模型中對齊和美感的挑戰(zhàn)。該框架不依賴特定架構(gòu)或標(biāo)記數(shù)據(jù),采用視覺語言模型(VLMs)鑒別生成圖像與輸入文本之間的差異。
3. ?? DreamSync通過模型不可知的框架,結(jié)合VLMs的反饋,取得了在T2I模型上顯著的對齊和視覺吸引力改進(jìn),超越了基準(zhǔn)方法,拓展了在分布內(nèi)外場景中的適用性。
站長之家(ChinaZ.com)12月6日 消息:來自南加州大學(xué)、華盛頓大學(xué)、巴伊蘭大學(xué)和谷歌研究團(tuán)隊的研究人員推出了DreamSync,這是一種新型人工智能框架,致力于解決擴(kuò)散型文本到圖像(T2I)模型中對齊和審美吸引力的問題,而無需進(jìn)行人工標(biāo)注、修改模型架構(gòu)或使用強(qiáng)化學(xué)習(xí)。
DreamSync的方法是通過生成候選圖像,利用視覺問答(VQA)模型對其進(jìn)行評估,然后對文本到圖像模型進(jìn)行微調(diào)。此過程無需特定的架構(gòu)或標(biāo)記數(shù)據(jù),采用了模型不可知的框架,并利用視覺語言模型(VLMs)來識別生成的圖像與輸入文本之間的差異。該框架的關(guān)鍵步驟包括生成多個候選圖像,使用兩個專用的VLMs對它們進(jìn)行文本忠實(shí)度和圖像美感的評估,然后選擇VLM反饋確定的最佳圖像進(jìn)行文本到圖像模型的微調(diào),迭代至收斂。
此外,框架還引入了迭代自舉方法,利用VLMs作為教師模型對未標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)記,用于T2I模型的訓(xùn)練。
DreamSync成功提升了SDXL和SD v1.4T2I模型的性能。在TIFA上進(jìn)行的實(shí)驗顯示,對SDXL進(jìn)行三次迭代,文本忠實(shí)度提高了1.7%和3.7%,視覺美感提高了3.4%。將DreamSync應(yīng)用于SD v1.4,文本忠實(shí)度提高了1%,TIFA上的得分絕對增加了1.7%,美感提高了0.3%。
在與SDXL的比較研究中,DreamSync在對齊方面表現(xiàn)更好,生成的圖像具有更相關(guān)的組件和3.4個更正確的答案。在TIFA和DSG基準(zhǔn)測試中,DreamSync實(shí)現(xiàn)了更卓越的文本忠實(shí)度,而不損害視覺外觀,顯示出隨著迭代的逐漸改進(jìn)。
DreamSync是一個多功能的框架,在具有挑戰(zhàn)性的T2I基準(zhǔn)測試中進(jìn)行了評估,顯示出在分布內(nèi)外場景中對齊和視覺吸引力方面的顯著改進(jìn)。該框架結(jié)合了來自視覺語言模型的雙重反饋,并通過人類評分和偏好預(yù)測模型進(jìn)行了驗證。
未來,DreamSync的改進(jìn)方向包括通過詳細(xì)注釋(如邊界框)來鞏固反饋,調(diào)整每次迭代的提示以針對文本到圖像合成中的特定改進(jìn),探索語言結(jié)構(gòu)和注意力圖以增強(qiáng)屬性-對象綁定,以及使用人類反饋訓(xùn)練獎勵模型,以進(jìn)一步使生成的圖像與用戶意圖一致。同時,拓展DreamSync的應(yīng)用到其他模型架構(gòu),并在不同場景中進(jìn)行性能評估和額外研究也是未來持續(xù)調(diào)查的方向。
論文網(wǎng)址:https://arxiv.org/abs/2311.17946
(舉報)