中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

新AI框架DreamSync:結(jié)合圖像理解模型的反饋改善文本到圖像合成

2023-12-06 10:44 · 稿源：站長之家

**劃重點(diǎn):**
1. ?? DreamSync是由南加州大學(xué)、華盛頓大學(xué)、巴伊蘭大學(xué)和谷歌研究團(tuán)隊引入的新型人工智能框架，致力于提高擴(kuò)散型文本到圖像（T2I）模型的對齊性和審美吸引力，無需人工標(biāo)注、模型架構(gòu)修改或強(qiáng)化學(xué)習(xí)。
2. ?? DreamSync通過生成候選圖像，利用視覺問答（VQA）模型進(jìn)行評估，并對文本到圖像模型進(jìn)行微調(diào)，成功解決了T2I模型中對齊和美感的挑戰(zhàn)。該框架不依賴特定架構(gòu)或標(biāo)記數(shù)據(jù)，采用視覺語言模型(VLMs)鑒別生成圖像與輸入文本之間的差異。
3. ?? DreamSync通過模型不可知的框架，結(jié)合VLMs的反饋，取得了在T2I模型上顯著的對齊和視覺吸引力改進(jìn)，超越了基準(zhǔn)方法，拓展了在分布內(nèi)外場景中的適用性。

站長之家（ChinaZ.com）12月6日消息:來自南加州大學(xué)、華盛頓大學(xué)、巴伊蘭大學(xué)和谷歌研究團(tuán)隊的研究人員推出了DreamSync，這是一種新型人工智能框架，致力于解決擴(kuò)散型文本到圖像（T2I）模型中對齊和審美吸引力的問題，而無需進(jìn)行人工標(biāo)注、修改模型架構(gòu)或使用強(qiáng)化學(xué)習(xí)。

DreamSync的方法是通過生成候選圖像，利用視覺問答（VQA）模型對其進(jìn)行評估，然后對文本到圖像模型進(jìn)行微調(diào)。此過程無需特定的架構(gòu)或標(biāo)記數(shù)據(jù)，采用了模型不可知的框架，并利用視覺語言模型(VLMs)來識別生成的圖像與輸入文本之間的差異。該框架的關(guān)鍵步驟包括生成多個候選圖像，使用兩個專用的VLMs對它們進(jìn)行文本忠實(shí)度和圖像美感的評估，然后選擇VLM反饋確定的最佳圖像進(jìn)行文本到圖像模型的微調(diào)，迭代至收斂。

此外，框架還引入了迭代自舉方法，利用VLMs作為教師模型對未標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)記，用于T2I模型的訓(xùn)練。

DreamSync成功提升了SDXL和SD v1.4T2I模型的性能。在TIFA上進(jìn)行的實(shí)驗顯示，對SDXL進(jìn)行三次迭代，文本忠實(shí)度提高了1.7%和3.7%，視覺美感提高了3.4%。將DreamSync應(yīng)用于SD v1.4，文本忠實(shí)度提高了1%，TIFA上的得分絕對增加了1.7%，美感提高了0.3%。

在與SDXL的比較研究中，DreamSync在對齊方面表現(xiàn)更好，生成的圖像具有更相關(guān)的組件和3.4個更正確的答案。在TIFA和DSG基準(zhǔn)測試中，DreamSync實(shí)現(xiàn)了更卓越的文本忠實(shí)度，而不損害視覺外觀，顯示出隨著迭代的逐漸改進(jìn)。

DreamSync是一個多功能的框架，在具有挑戰(zhàn)性的T2I基準(zhǔn)測試中進(jìn)行了評估，顯示出在分布內(nèi)外場景中對齊和視覺吸引力方面的顯著改進(jìn)。該框架結(jié)合了來自視覺語言模型的雙重反饋，并通過人類評分和偏好預(yù)測模型進(jìn)行了驗證。

未來，DreamSync的改進(jìn)方向包括通過詳細(xì)注釋（如邊界框）來鞏固反饋，調(diào)整每次迭代的提示以針對文本到圖像合成中的特定改進(jìn)，探索語言結(jié)構(gòu)和注意力圖以增強(qiáng)屬性-對象綁定，以及使用人類反饋訓(xùn)練獎勵模型，以進(jìn)一步使生成的圖像與用戶意圖一致。同時，拓展DreamSync的應(yīng)用到其他模型架構(gòu)，并在不同場景中進(jìn)行性能評估和額外研究也是未來持續(xù)調(diào)查的方向。

論文網(wǎng)址:https://arxiv.org/abs/2311.17946

（舉報）

相關(guān)推薦

關(guān)鍵詞：

薦UniToken：多模態(tài)AI的“全能選手”，一次編碼搞定圖文理解與圖像生成

復(fù)旦大學(xué)與美團(tuán)研究者提出UniToken框架，首次在統(tǒng)一模型中實(shí)現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼，有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問題。通過三階段訓(xùn)練策略（視覺語義對齊、多任務(wù)聯(lián)合訓(xùn)練、指令強(qiáng)化微調(diào)），UniToken在多個基準(zhǔn)測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在：1）統(tǒng)一的雙邊視覺編碼

?UniToken ?多模態(tài)建模 ?視覺編碼
字節(jié)發(fā)布豆包1.5深度思考模型：“實(shí)拍級”圖像生成

快科技4月17日消息，據(jù)報道，今日，在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場，字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出，豆包1.5深度思考模型在多個關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類專業(yè)領(lǐng)域中，它能夠精準(zhǔn)高效地處理復(fù)雜問題；在創(chuàng)意寫作等通用任務(wù)方面，同樣表現(xiàn)出色。該模型采用MoE架構(gòu)，總參數(shù)為200B，激?

?豆包1.5深度思考模型 ?火山引擎AI創(chuàng)新 ?字節(jié)跳動技術(shù)發(fā)布
微美全息（WIMI.US）探索量子圖像壓縮算法，引領(lǐng)圖像處理領(lǐng)域顛覆性創(chuàng)新

量子計算作為信息技術(shù)領(lǐng)域的顛覆性力量，其在量子圖像處理和圖像壓縮領(lǐng)域也顯示出巨大的技術(shù)潛力。隨著數(shù)字圖像處理技術(shù)的不斷演進(jìn)，傳統(tǒng)圖像處理算法，本質(zhì)上依賴于并行計算，然，隨著圖像數(shù)量和分辨率的快速增長，這些經(jīng)典算法在計算資源和時間消耗上存在局限性。量子圖像壓縮技術(shù)的深入研究也將促進(jìn)量子算法和量子信息處理理論的進(jìn)一步發(fā)展，為量子信息技術(shù)的廣泛應(yīng)用奠定堅實(shí)基礎(chǔ)，推動數(shù)字圖像處理技術(shù)邁向新的高度，實(shí)現(xiàn)更高效、更智能的圖像處理和壓縮。

?量子計算 ?圖像處理 ?圖像壓縮
首次實(shí)現(xiàn)圖像思考 OpenAI重磅發(fā)布o(jì)3/o4-mini：史上最強(qiáng)、最智能模型

快科技4月17日消息，今日，OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布，這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解，OpenAI o3/o4-mini首次具備真正的視覺推理能力，看圖識圖已經(jīng)是小菜一碟了，現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時處理文本、圖像和音頻，并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強(qiáng)化學(xué)習(xí)，OpenAI訓(xùn)練了o3/o4-mini如何?

?OpenAI ?AI模型 ?視覺推理
薦AI日報：Kimi全新音頻基礎(chǔ)模型Kimi-Audio；階躍星辰開源圖像編輯模型Step1X-Edit；?夸克AI超級框上線 “拍照問夸克”

本期AI日報聚焦多項AI技術(shù)突破與應(yīng)用：1)Moonshot AI推出開源音頻模型Kimi-Audio，基于13億小時訓(xùn)練數(shù)據(jù)，支持語音識別等任務(wù)；2)階躍星辰開源圖像編輯模型Step1X-Edit，展現(xiàn)強(qiáng)大生成能力；3)夸克AI上線"拍照問夸克"功能，實(shí)現(xiàn)視覺問答；4)蘋果iOS18.5將在中國推送，帶來智能功能；5)谷歌發(fā)布601個生成式AI應(yīng)用案例，覆蓋多行業(yè)；6)微軟推出深度整合Windows的UFO2自動化系統(tǒng)；7)OpenAI升級ChatGPT至GPT-4o版本，提升STEM領(lǐng)域能力；8)Ema公司推出高性價比語言模型EmaFusion；9)Liquid AI發(fā)布面向邊緣設(shè)備的Hyena Edge模型；10)LemonAI推出實(shí)時音視頻數(shù)字人產(chǎn)品Slice Live。此外，國內(nèi)方面，智譜與生數(shù)科技達(dá)成戰(zhàn)略合作推動大模型發(fā)展，寶馬中國宣布新車將接入DeepSeek技術(shù)。

?AI日報 ?音頻技術(shù) ?開源模型
AI日報：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革，ModelContextProtocol成為國內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
讓AI替你打工：AI數(shù)字人直播系統(tǒng)-支持實(shí)時驅(qū)動+無限貼牌/形象克隆+短視頻合成

數(shù)字人直播領(lǐng)域持續(xù)升溫，尤其在AI技術(shù)快速迭代的當(dāng)下，越來越多企業(yè)希望搭建專屬虛擬主播系統(tǒng)，以期用數(shù)字化方案降低人力成本、替代傳統(tǒng)真人直播。然而市場產(chǎn)品良莠不齊，如何精準(zhǔn)匹配需求成為關(guān)鍵難題。今天要推薦的這款A(yù)I數(shù)字人直播系統(tǒng)，正是針對這一痛點(diǎn)設(shè)計的解決方案。用戶可自主上傳品牌虛擬形象，通過智能算法快速生成高精度視頻內(nèi)容，并支持實(shí)時直播?

?數(shù)字人直播 ?AI技術(shù) ?虛擬主播系統(tǒng)
菲游客誤將大鱷魚看成塑料模型遭咬試圖與其合照

菲律賓一家動物園發(fā)生驚險事件，一名29歲男性游客誤將4.6米長的鱷魚當(dāng)作塑料雕像，冒險翻越圍欄試圖自拍，結(jié)果遭猛烈攻擊。鱷魚死死咬住男子大腿并將其拖入水中翻滾，30分鐘后飼養(yǎng)員冒險投擲水泥塊才迫使鱷魚松口。傷者全身縫合超50針，目前仍在醫(yī)院治療。專家提醒觀賞猛獸必須保持安全距離，任何越過防護(hù)設(shè)施的行為都可能引發(fā)嚴(yán)重后果。動物園方面尚未正式回應(yīng)，但工作人員強(qiáng)調(diào)園區(qū)已設(shè)置完善安全警示標(biāo)識。

?動物園事故 ?鱷魚攻擊 ?游客安全
薦AI日報：ChatGPT重磅上線圖像庫功能；白嫖！Veo2登陸谷歌AI Studio；螞蟻百寶箱推“MCP專區(qū)”

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、報道稱字節(jié)跳動整合 AI 研發(fā)團(tuán)隊，AI Lab 即將并入 Seed字節(jié)跳動正在進(jìn)行AI研發(fā)團(tuán)隊的整合，將獨(dú)立的字節(jié)AI Lab并入Seed團(tuán)隊。這一舉措體現(xiàn)了字節(jié)在AI領(lǐng)域戰(zhàn)略布局的調(diào)整，旨在進(jìn)?

?字節(jié)跳動 ?AI研發(fā) ?AI
ChatGPT圖像生成爆火！OpenAI CEO在線求助：急需10萬塊GPU

OpenAI近期推出的全新圖像生成工具引發(fā)了熱潮，用戶使用ChatGPT即可創(chuàng)作出吉卜力等風(fēng)格的AI藝術(shù)作品。這一功能不僅推動了ChatGPT用戶數(shù)的創(chuàng)新高導(dǎo)致服務(wù)器負(fù)擔(dān)過重，甚至一度限制了該功能的使用。SensorTower的數(shù)據(jù)顯示，ChatGPT應(yīng)用的全球下載量和每周活躍用戶數(shù)分別較上周增長了11%和5%應(yīng)用內(nèi)購買收入則增加了6%。

?OpenAI ?ChatGPT ?圖像生成

熱文

3 天
7天

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM