中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > DreamSync最新資訊  > 正文

    新AI框架DreamSync:結(jié)合圖像理解模型的反饋 改善文本到圖像合成

    2023-12-06 10:44 · 稿源:站長之家

    **劃重點(diǎn):**

    1. ?? DreamSync是由南加州大學(xué)、華盛頓大學(xué)、巴伊蘭大學(xué)和谷歌研究團(tuán)隊引入的新型人工智能框架,致力于提高擴(kuò)散型文本到圖像(T2I)模型的對齊性和審美吸引力,無需人工標(biāo)注、模型架構(gòu)修改或強(qiáng)化學(xué)習(xí)。

    2. ?? DreamSync通過生成候選圖像,利用視覺問答(VQA)模型進(jìn)行評估,并對文本到圖像模型進(jìn)行微調(diào),成功解決了T2I模型中對齊和美感的挑戰(zhàn)。該框架不依賴特定架構(gòu)或標(biāo)記數(shù)據(jù),采用視覺語言模型(VLMs)鑒別生成圖像與輸入文本之間的差異。

    3. ?? DreamSync通過模型不可知的框架,結(jié)合VLMs的反饋,取得了在T2I模型上顯著的對齊和視覺吸引力改進(jìn),超越了基準(zhǔn)方法,拓展了在分布內(nèi)外場景中的適用性。

    站長之家(ChinaZ.com)12月6日 消息:來自南加州大學(xué)、華盛頓大學(xué)、巴伊蘭大學(xué)和谷歌研究團(tuán)隊的研究人員推出了DreamSync,這是一種新型人工智能框架,致力于解決擴(kuò)散型文本到圖像(T2I)模型中對齊和審美吸引力的問題,而無需進(jìn)行人工標(biāo)注、修改模型架構(gòu)或使用強(qiáng)化學(xué)習(xí)。

    DreamSync的方法是通過生成候選圖像,利用視覺問答(VQA)模型對其進(jìn)行評估,然后對文本到圖像模型進(jìn)行微調(diào)。此過程無需特定的架構(gòu)或標(biāo)記數(shù)據(jù),采用了模型不可知的框架,并利用視覺語言模型(VLMs)來識別生成的圖像與輸入文本之間的差異。該框架的關(guān)鍵步驟包括生成多個候選圖像,使用兩個專用的VLMs對它們進(jìn)行文本忠實(shí)度和圖像美感的評估,然后選擇VLM反饋確定的最佳圖像進(jìn)行文本到圖像模型的微調(diào),迭代至收斂。

    此外,框架還引入了迭代自舉方法,利用VLMs作為教師模型對未標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)記,用于T2I模型的訓(xùn)練。

    DreamSync成功提升了SDXL和SD v1.4T2I模型的性能。在TIFA上進(jìn)行的實(shí)驗顯示,對SDXL進(jìn)行三次迭代,文本忠實(shí)度提高了1.7%和3.7%,視覺美感提高了3.4%。將DreamSync應(yīng)用于SD v1.4,文本忠實(shí)度提高了1%,TIFA上的得分絕對增加了1.7%,美感提高了0.3%。

    在與SDXL的比較研究中,DreamSync在對齊方面表現(xiàn)更好,生成的圖像具有更相關(guān)的組件和3.4個更正確的答案。在TIFA和DSG基準(zhǔn)測試中,DreamSync實(shí)現(xiàn)了更卓越的文本忠實(shí)度,而不損害視覺外觀,顯示出隨著迭代的逐漸改進(jìn)。

    image.png

    DreamSync是一個多功能的框架,在具有挑戰(zhàn)性的T2I基準(zhǔn)測試中進(jìn)行了評估,顯示出在分布內(nèi)外場景中對齊和視覺吸引力方面的顯著改進(jìn)。該框架結(jié)合了來自視覺語言模型的雙重反饋,并通過人類評分和偏好預(yù)測模型進(jìn)行了驗證。

    未來,DreamSync的改進(jìn)方向包括通過詳細(xì)注釋(如邊界框)來鞏固反饋,調(diào)整每次迭代的提示以針對文本到圖像合成中的特定改進(jìn),探索語言結(jié)構(gòu)和注意力圖以增強(qiáng)屬性-對象綁定,以及使用人類反饋訓(xùn)練獎勵模型,以進(jìn)一步使生成的圖像與用戶意圖一致。同時,拓展DreamSync的應(yīng)用到其他模型架構(gòu),并在不同場景中進(jìn)行性能評估和額外研究也是未來持續(xù)調(diào)查的方向。

    論文網(wǎng)址:https://arxiv.org/abs/2311.17946

    舉報

    • 相關(guān)推薦
    • UniToken:多模態(tài)AI的“全能選手”,一次編碼搞定圖文理解圖像生成

      復(fù)旦大學(xué)與美團(tuán)研究者提出UniToken框架,首次在統(tǒng)一模型中實(shí)現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼,有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問題。通過三階段訓(xùn)練策略(視覺語義對齊、多任務(wù)聯(lián)合訓(xùn)練、指令強(qiáng)化微調(diào)),UniToken在多個基準(zhǔn)測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在:1)統(tǒng)一的雙邊視覺編碼

    • 字節(jié)發(fā)布豆包1.5深度思考模型:“實(shí)拍級”圖像生成

      快科技4月17日消息,據(jù)報道,今日,在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場,字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出,豆包1.5深度思考模型在多個關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類專業(yè)領(lǐng)域中,它能夠精準(zhǔn)高效地處理復(fù)雜問題;在創(chuàng)意寫作等通用任務(wù)方面,同樣表現(xiàn)出色。該模型采用MoE架構(gòu),總參數(shù)為200B,激?

    • 微美全息(WIMI.US)探索量子圖像壓縮算法,引領(lǐng)圖像處理領(lǐng)域顛覆性創(chuàng)新

      量子計算作為信息技術(shù)領(lǐng)域的顛覆性力量,其在量子圖像處理和圖像壓縮領(lǐng)域也顯示出巨大的技術(shù)潛力。隨著數(shù)字圖像處理技術(shù)的不斷演進(jìn),傳統(tǒng)圖像處理算法,本質(zhì)上依賴于并行計算,然,隨著圖像數(shù)量和分辨率的快速增長,這些經(jīng)典算法在計算資源和時間消耗上存在局限性。量子圖像壓縮技術(shù)的深入研究也將促進(jìn)量子算法和量子信息處理理論的進(jìn)一步發(fā)展,為量子信息技術(shù)的廣泛應(yīng)用奠定堅實(shí)基礎(chǔ),推動數(shù)字圖像處理技術(shù)邁向新的高度,實(shí)現(xiàn)更高效、更智能的圖像處理和壓縮。

    • 首次實(shí)現(xiàn)圖像思考 OpenAI重磅發(fā)布o(jì)3/o4-mini:史上最強(qiáng)、最智能模型

      快科技4月17日消息,今日,OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布,這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解,OpenAI o3/o4-mini首次具備真正的視覺推理能力,看圖識圖已經(jīng)是小菜一碟了,現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時處理文本、圖像和音頻,并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強(qiáng)化學(xué)習(xí),OpenAI訓(xùn)練了o3/o4-mini如何?

    • AI日報:Kimi全音頻基礎(chǔ)模型Kimi-Audio;階躍星辰開源圖像編輯模型Step1X-Edit;?夸克AI超級框上線 “拍照問夸克”

      本期AI日報聚焦多項AI技術(shù)突破與應(yīng)用:1)Moonshot AI推出開源音頻模型Kimi-Audio,基于13億小時訓(xùn)練數(shù)據(jù),支持語音識別等任務(wù);2)階躍星辰開源圖像編輯模型Step1X-Edit,展現(xiàn)強(qiáng)大生成能力;3)夸克AI上線"拍照問夸克"功能,實(shí)現(xiàn)視覺問答;4)蘋果iOS18.5將在中國推送,帶來智能功能;5)谷歌發(fā)布601個生成式AI應(yīng)用案例,覆蓋多行業(yè);6)微軟推出深度整合Windows的UFO2自動化系統(tǒng);7)OpenAI升級ChatGPT至GPT-4o版本,提升STEM領(lǐng)域能力;8)Ema公司推出高性價比語言模型EmaFusion;9)Liquid AI發(fā)布面向邊緣設(shè)備的Hyena Edge模型;10)LemonAI推出實(shí)時音視頻數(shù)字人產(chǎn)品Slice Live。此外,國內(nèi)方面,智譜與生數(shù)科技達(dá)成戰(zhàn)略合作推動大模型發(fā)展,寶馬中國宣布新車將接入DeepSeek技術(shù)。

    • AI日報:阿里騰訊全面支持MCP協(xié)議;階躍星辰多模態(tài)推理模型Step-R1-V-Mini;美WHEE圖像生成模型Miracle F1

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日,中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革,ModelContextProtocol成為國內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B,性能?

    • AI替你打工:AI數(shù)字人直播系統(tǒng)-支持實(shí)時驅(qū)動+無限貼牌/形象克隆+短視頻合成

      數(shù)字人直播領(lǐng)域持續(xù)升溫,尤其在AI技術(shù)快速迭代的當(dāng)下,越來越多企業(yè)希望搭建專屬虛擬主播系統(tǒng),以期用數(shù)字化方案降低人力成本、替代傳統(tǒng)真人直播。然而市場產(chǎn)品良莠不齊,如何精準(zhǔn)匹配需求成為關(guān)鍵難題。今天要推薦的這款A(yù)I數(shù)字人直播系統(tǒng),正是針對這一痛點(diǎn)設(shè)計的解決方案。用戶可自主上傳品牌虛擬形象,通過智能算法快速生成高精度視頻內(nèi)容,并支持實(shí)時直播?

    • 菲游客誤將大鱷魚看成塑料模型遭咬 試與其

      菲律賓一家動物園發(fā)生驚險事件,一名29歲男性游客誤將4.6米長的鱷魚當(dāng)作塑料雕像,冒險翻越圍欄試圖自拍,結(jié)果遭猛烈攻擊。鱷魚死死咬住男子大腿并將其拖入水中翻滾,30分鐘后飼養(yǎng)員冒險投擲水泥塊才迫使鱷魚松口。傷者全身縫合超50針,目前仍在醫(yī)院治療。專家提醒觀賞猛獸必須保持安全距離,任何越過防護(hù)設(shè)施的行為都可能引發(fā)嚴(yán)重后果。動物園方面尚未正式回應(yīng),但工作人員強(qiáng)調(diào)園區(qū)已設(shè)置完善安全警示標(biāo)識。

    • AI日報:ChatGPT重磅上線圖像庫功能;白嫖!Veo2登陸谷歌AI Studio;螞蟻百寶箱推“MCP專區(qū)”

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、報道稱字節(jié)跳動整合 AI 研發(fā)團(tuán)隊,AI Lab 即將并入 Seed字節(jié)跳動正在進(jìn)行AI研發(fā)團(tuán)隊的整合,將獨(dú)立的字節(jié)AI Lab并入Seed團(tuán)隊。這一舉措體現(xiàn)了字節(jié)在AI領(lǐng)域戰(zhàn)略布局的調(diào)整,旨在進(jìn)?

    • ChatGPT圖像生成爆火!OpenAI CEO在線求助:急需10萬塊GPU

      OpenAI近期推出的全新圖像生成工具引發(fā)了熱潮,用戶使用ChatGPT即可創(chuàng)作出吉卜力等風(fēng)格的AI藝術(shù)作品。這一功能不僅推動了ChatGPT用戶數(shù)的創(chuàng)新高導(dǎo)致服務(wù)器負(fù)擔(dān)過重,甚至一度限制了該功能的使用。SensorTower的數(shù)據(jù)顯示,ChatGPT應(yīng)用的全球下載量和每周活躍用戶數(shù)分別較上周增長了11%和5%應(yīng)用內(nèi)購買收入則增加了6%。