谷歌推擴(kuò)散模型變種UFOGen 真正實(shí)現(xiàn)一步文生圖

2023-11-20 14:35 · 稿源：站長(zhǎng)之家

要點(diǎn):
1. 谷歌研究團(tuán)隊(duì)提出了一種名為UFOGen的擴(kuò)散模型變種，只需要一步就能生成高質(zhì)量的圖片。
2. UFOGen通過(guò)改變生成器的參數(shù)化方式和重構(gòu)損失函數(shù)的計(jì)算方式，理論上可以實(shí)現(xiàn)一步生成。
3. UFOGen的生成器和判別器都是由Stable Diffusion模型初始化，這樣可以最大限度地利用Stable Diffusion的內(nèi)部信息。

站長(zhǎng)之家（ChinaZ.com）11月20日消息:近年來(lái)，擴(kuò)散模型在視覺(jué)創(chuàng)作領(lǐng)域的應(yīng)用不斷增加，但是生成速度一直是一個(gè)問(wèn)題。然而，隨著技術(shù)的進(jìn)步，UFOGen模型的出現(xiàn)解決了這個(gè)問(wèn)題，它只需要一步就能生成高質(zhì)量的圖片。通過(guò)改變生成器的參數(shù)化方式和重構(gòu)損失函數(shù)的計(jì)算方式，UFOGen實(shí)現(xiàn)了一步生成的目標(biāo)。

論文地址:https://arxiv.org/pdf/2311.09257.pdf

之前對(duì)擴(kuò)散模型生成速度的研究主要集中在兩個(gè)方向，一方面是利用更少的離散步數(shù)求解擴(kuò)散模型的采樣ODE，另一方面是利用知識(shí)蒸餾的方法將采樣路徑壓縮到更小的步數(shù)。然而，谷歌的研究團(tuán)隊(duì)在UFOGen模型中采用了一種全新的思路，通過(guò)改變生成器的參數(shù)化方式和重構(gòu)損失函數(shù)的計(jì)算方式來(lái)實(shí)現(xiàn)一步生成的目標(biāo)。

UFOGen模型是在擴(kuò)散模型和GAN混合模型的基礎(chǔ)上發(fā)展而來(lái)的。擴(kuò)散模型假設(shè)降噪分布是一個(gè)簡(jiǎn)單的高斯分布，但這種假設(shè)只在降噪步長(zhǎng)趨于0時(shí)成立，導(dǎo)致生成速度很慢。而UFOGen模型通過(guò)使用帶條件的GAN來(lái)模擬降噪分布，取較大的降噪步長(zhǎng)來(lái)減少步數(shù)，從而提高了生成速度。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

UFOGen

字節(jié)AI加速文生圖技術(shù)新突破，GOOG/微美全息引領(lǐng)開(kāi)源大模型釋放科技勢(shì)能

字節(jié)跳動(dòng)發(fā)布豆包1.5深度思考模型，升級(jí)文生圖能力。該模型在專業(yè)領(lǐng)域和通用任務(wù)中表現(xiàn)突出，采用MoE架構(gòu)，總參數(shù)量200B，激活參數(shù)20B，推理成本優(yōu)勢(shì)顯著。同時(shí)，其圖像生成模型Seedream 3.0性能追平GPT-4o等頂尖模型。全球AI產(chǎn)業(yè)加速發(fā)展，開(kāi)源模型降低技術(shù)門檻，推動(dòng)商業(yè)化落地。微美全息等企業(yè)構(gòu)建開(kāi)放AI生態(tài)，DeepSeek等公司通過(guò)開(kāi)源策略促進(jìn)技術(shù)普惠。行業(yè)迎來(lái)"開(kāi)源AI+"新階段，企業(yè)需把握機(jī)遇應(yīng)對(duì)挑戰(zhàn)。

?字節(jié)跳動(dòng) ?豆包1.5 ?文生圖模型
比GPT-4o更強(qiáng)？三位Adobe老將出走，做出了超強(qiáng)文生圖模型丨AI新榜評(píng)測(cè)

GPT-4o，被擊敗了?最近大伙都被GPT-4o生成的各種“整活”圖像刷屏了吧，各種動(dòng)漫油畫(huà)風(fēng)格改圖、經(jīng)典影視復(fù)現(xiàn)、漫畫(huà)設(shè)計(jì)改圖……新的玩法每天都在涌現(xiàn)，大有“AI一日，人間一年”之勢(shì)。甚至OpenAICEOSamAltman都累了:“收手吧，我們需要休息!”但就在GPT-4o火遍全球之際，一個(gè)來(lái)自初創(chuàng)團(tuán)隊(duì)的新模型ReveImage，卻憑借其在特定圖像生成領(lǐng)域的出色表現(xiàn)，悄然贏得了用戶和專業(yè)榜單的

?GPT-4o ?Reve ?Image
薦挑戰(zhàn)GPT-4o！AI文生圖驚現(xiàn)黑馬，國(guó)產(chǎn)團(tuán)隊(duì)HiDream如何逆襲？

HiDream是一款由國(guó)內(nèi)團(tuán)隊(duì)開(kāi)發(fā)的AI模型，擅長(zhǎng)生成復(fù)雜的圖片與多種風(fēng)格的藝術(shù)作品。它在多個(gè)測(cè)試中表現(xiàn)出對(duì)細(xì)節(jié)、材質(zhì)、光影控制以及創(chuàng)意概念的良好理解，尤其在人物動(dòng)態(tài)、精細(xì)繪畫(huà)等方面效果顯著。HiDream支持輸出4K高清圖片，并兼容多種應(yīng)用領(lǐng)域，包括商業(yè)用途。盡管在某些特定要求下還需提升表現(xiàn)，但其潛力和實(shí)際效果已受到關(guān)注。

?AI技術(shù) ?文生圖 ?開(kāi)源模型
谷歌A2A協(xié)議是什么？ MCP 和 Agent2Agent 有什么區(qū)別？

4月10日，在GoogleCloudNext大會(huì)上，谷歌宣布開(kāi)源Agent2Agent協(xié)議，這一協(xié)議被業(yè)界視為智能體交互領(lǐng)域的“通用語(yǔ)言”，旨在突破跨平臺(tái)、多模態(tài)協(xié)作及安全保障等核心技術(shù)瓶頸，并聯(lián)合全球50余家科技企業(yè)共同構(gòu)建新一代智能生態(tài)。本文從技術(shù)實(shí)現(xiàn)與行業(yè)變革兩個(gè)維度，深度解析A2A協(xié)議的核心價(jià)值。這一協(xié)議的推出，標(biāo)志著智能體協(xié)作模式從封閉系統(tǒng)向開(kāi)放生態(tài)的范式轉(zhuǎn)變，為產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型注入新動(dòng)能。

?Agent2Agent協(xié)議 ?智能體交互 ?跨平臺(tái)協(xié)作
谷歌開(kāi)源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細(xì)介紹

在GoogleCloudNext25大會(huì)上，谷歌宣布開(kāi)源了首個(gè)標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol，這一舉措有望徹底改變智能體之間的交互方式，打破系統(tǒng)孤島，對(duì)智能體的能力、跨平臺(tái)協(xié)作以及執(zhí)行效率產(chǎn)生質(zhì)的飛躍。A2A協(xié)議是一種開(kāi)放標(biāo)準(zhǔn)，旨在為智能體提供一種通用的交互方式，使它們能夠在不同的底層框架和供應(yīng)商之間無(wú)縫協(xié)作。每個(gè)部分都有指定的內(nèi)容類型，這使得客戶端和遠(yuǎn)程智能體能夠協(xié)商所需的正確格式，并且明確包括用戶界面能力的協(xié)商，比如iframe、視頻、網(wǎng)絡(luò)表單等，從根據(jù)用戶的需求和設(shè)備的能力，提供最佳的用戶體驗(yàn)。

?Agent2Agent ?Protocol ?智能體交互
薦“谷歌版MCP”來(lái)了，開(kāi)源A2A，不同廠商Agent也能協(xié)作

“谷歌版MCP”來(lái)了!谷歌推出A2A協(xié)議，即Agent2Agent，能讓AIAgent在不同生態(tài)系統(tǒng)間安全協(xié)作無(wú)需考慮框架或供應(yīng)商。不同平臺(tái)構(gòu)建的AIAgent之間可以進(jìn)行通信、發(fā)現(xiàn)彼此的能力、協(xié)商任務(wù)并開(kāi)展協(xié)作，企業(yè)可通過(guò)專業(yè)Agent團(tuán)隊(duì)處理復(fù)雜工作流。從各大廠最近動(dòng)作來(lái)看，蕪湖，不愧是Agent元年。

?谷歌 ?A2A協(xié)議 ?AI
易鑫宣布年內(nèi)推出汽車金融行業(yè)首個(gè)Agentic大模型

4 月15日，易鑫（02858.HK）在香港舉行的“2 025 世界互聯(lián)網(wǎng)大會(huì)亞太峰會(huì)”上宣布，將于年內(nèi)推出汽車金融行業(yè)首個(gè)Agentic大模型。該模型通過(guò)自主決策智能體深度結(jié)合汽車金融場(chǎng)景需求，有望從根本上解決行業(yè)中長(zhǎng)期存在的效率瓶頸和痛點(diǎn)。易鑫首席AI科學(xué)家、高級(jí)副總裁張磊現(xiàn)場(chǎng)演講易鑫首席AI科學(xué)家、高級(jí)副總裁張磊在大會(huì)“人工智能大模型論壇”做主題演講時(shí)，發(fā)布了這?

?易鑫 ?汽車金融 ?Agentic大模型
薦AI Agent大變天！谷歌開(kāi)源A2A，一夜改變智能體交互

谷歌在GoogleCloudNext25大會(huì)上，開(kāi)源了首個(gè)標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol。A2A將徹底打破系統(tǒng)孤島，對(duì)智能體的能力、跨平臺(tái)、執(zhí)行效率產(chǎn)生質(zhì)的改變，支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企業(yè)應(yīng)用平臺(tái)。通過(guò)A2A協(xié)議，MongoDB可以使其數(shù)據(jù)庫(kù)服務(wù)與智能Agent相結(jié)合，實(shí)現(xiàn)更高效的數(shù)據(jù)管理和自動(dòng)化數(shù)據(jù)處理。

?谷歌
從英語(yǔ)到全科，愛(ài)貝助力成長(zhǎng)每一步

文章討論了人工智能（AI）在未來(lái)2025年的發(fā)展，提出了“智能AI在中國(guó)的未來(lái)”概念，構(gòu)建“互聯(lián)網(wǎng)+全智能”的OMO學(xué)習(xí)生活模式，實(shí)現(xiàn)大規(guī)模個(gè)性化學(xué)習(xí)，最終目標(biāo)是“任何知識(shí)，全智能可及”。文章分為四部分：一是增強(qiáng)理解力，通過(guò)AI智能識(shí)別和分析圖像，構(gòu)建“人工智能+全智能”系統(tǒng)，實(shí)現(xiàn)“一圖勝千言”的效果；二是人機(jī)交互，實(shí)現(xiàn)3D虛擬現(xiàn)實(shí)，通過(guò)虛擬現(xiàn)實(shí)場(chǎng)景模擬體驗(yàn)；三是智能決策，AI自我學(xué)習(xí)優(yōu)化，提供最佳解決方案；四是全面影響，AI技術(shù)在教育、醫(yī)療、生活等領(lǐng)域的應(yīng)用，實(shí)現(xiàn)“一切知識(shí)，全智能可達(dá)”。文章還指出，AI將引領(lǐng)未來(lái)，AI教育成為主流趨勢(shì)，通過(guò)虛擬現(xiàn)實(shí)設(shè)備實(shí)現(xiàn)沉浸式學(xué)習(xí)體驗(yàn)；AI決策，30分鐘內(nèi)完成高難度任務(wù)；AI決策的挑戰(zhàn)，數(shù)學(xué)、物理、跨學(xué)科應(yīng)用，難以預(yù)測(cè)未來(lái)；全智能生活，互聯(lián)網(wǎng)+全智能的融合，推動(dòng)社會(huì)變革；AI普及，24小時(shí)在線學(xué)習(xí)，自我優(yōu)化提升；AI影響人類，AI輔助決策成為常態(tài)，AI在中國(guó)的普及將超過(guò)50%。

?愛(ài)貝AI智習(xí)中心 ?OMO學(xué)習(xí)生態(tài) ?精準(zhǔn)學(xué)習(xí)
能理解海豚聲音！谷歌開(kāi)發(fā)全新AI模型DolphinGemma

快科技4月15日消息，谷歌公布了一款名為DolphinGemma”的大型語(yǔ)言模型，旨在幫助科學(xué)家理解海豚的聲音，并生成類似海豚的聲音序列。研究人員預(yù)計(jì)在未來(lái)幾個(gè)月內(nèi)測(cè)試DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry（CHAT）發(fā)聲系統(tǒng)，以探索是否能夠翻譯并模仿海豚的聲音，進(jìn)而實(shí)現(xiàn)與海豚的某種對(duì)話”。海豚是地球上最聰明且最善于溝通的動(dòng)物之一，其社交互動(dòng)極其復(fù)雜?

?谷歌 ?DolphinGemma ?海豚溝通

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

谷歌推擴(kuò)散模型變種UFOGen 真正實(shí)現(xiàn)一步文生圖

字節(jié)AI加速文生圖技術(shù)新突破，GOOG/微美全息引領(lǐng)開(kāi)源大模型釋放科技勢(shì)能

比GPT-4o更強(qiáng)？三位Adobe老將出走，做出了超強(qiáng)文生圖模型丨AI新榜評(píng)測(cè)

薦挑戰(zhàn)GPT-4o！AI文生圖驚現(xiàn)黑馬，國(guó)產(chǎn)團(tuán)隊(duì)HiDream如何逆襲？

谷歌A2A協(xié)議是什么？ MCP 和 Agent2Agent 有什么區(qū)別？

谷歌開(kāi)源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細(xì)介紹

薦“谷歌版MCP”來(lái)了，開(kāi)源A2A，不同廠商Agent也能協(xié)作

易鑫宣布年內(nèi)推出汽車金融行業(yè)首個(gè)Agentic大模型

薦AI Agent大變天！谷歌開(kāi)源A2A，一夜改變智能體交互

從英語(yǔ)到全科，愛(ài)貝助力成長(zhǎng)每一步

能理解海豚聲音！谷歌開(kāi)發(fā)全新AI模型DolphinGemma

熱文

印度將中國(guó)電子投資壓股至 10%，且要求“技術(shù)轉(zhuǎn)讓”

“AI教父”杰弗里·辛頓再次發(fā)出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

美國(guó)網(wǎng)購(gòu)市場(chǎng)動(dòng)蕩，希音、Temu 率先在美開(kāi)啟“漲價(jià)潮”！

站長(zhǎng)商機(jī)