11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
自回歸文生圖,迎來新王者——新開源模型Infinity,字節(jié)商業(yè)化技術團隊出品,超越DiffusionModel。值得一提的是,這其實是從前段時間斬獲NeurIPS最佳論文VAR衍生來的文生圖版本。Infinity2B和20B的模型都已經(jīng)開放了網(wǎng)站體驗,感興趣的同學可以試一試效果。
OpenAI發(fā)布了全新擴散模型方法sCM,僅需2步就能生成高質(zhì)量圖片、3D模型等實現(xiàn)50倍時鐘加速,尤其是在高分辨率任務上相當出色。通過sCM訓練了一個15億參數(shù)的模型,在單個A100GPU上無需任何推理優(yōu)化0.11秒內(nèi)就能生成內(nèi)容。把這個技術用在Sora,應該就快來了吧?目前,OpenAI已經(jīng)分享了該論文方法,是由兩位華人提出來的。
在CVPR2024上,美國英特爾研究院的蔡志鵬博士及其團隊提出了一種名為L-MAGIC的新技術。這項技術通過結合語言模型和圖像擴散模型,實現(xiàn)了高質(zhì)量、多模態(tài)、零樣本泛化的360度場景生成。技術應用:L-MAGIC還能夠利用深度估計模型生成場景的沉浸式視頻和三維點云,為場景理解和可視化提供了更多可能性。
NVIDIA近期提出了一種名為自動引導的新方法,旨在改善擴散模型中圖像的質(zhì)量和變化不影響其與給定條件的一致性。當前的方法通常會以犧牲多樣性為代價來提高圖像質(zhì)量,從限制了它們在醫(yī)學診斷和自動駕駛等各種現(xiàn)實場景中的適用性。這種創(chuàng)新方法在基準測試中取得了最先進的成績,顯著推進了人工智能研究領域,為生成高質(zhì)量和多樣化圖像提供了更高效、更有效的解決方案。
SLD 是一個自糾正的LLM控制的擴散模型框架,它通過集成檢測器增強生成模型,以實現(xiàn)精確的文本到圖像對齊。SLD框架支持圖像生成和精細編輯,并且與任何圖像生成器兼容,如DALL-E 3,無需額外訓練或數(shù)據(jù)。點擊前往SLD官網(wǎng)體驗入口需求人群:適用于需要精確文本到圖像對齊的研究者和開發(fā)者,以及希望進行圖像生成和編輯的用戶。使用場景示例:使用SLD框架根據(jù)文本提示生?
擴散模型中,UNet的longskipconnection上的scaling操作被證實能夠穩(wěn)定模型訓練。在一些流行的擴散模型中,如Imagen和Score-basedgenerativemodel中,已經(jīng)觀察到設置scaling系數(shù)可以有效加速模型的訓練過程。最近的一些后續(xù)工作也進一步驗證了skipconnection上scaling的重要性,為這一領域的發(fā)展提供了新的思路和方向。
針對文本到圖像生成模型領域中的個性化主題驅動模型,出現(xiàn)了一些令人印象深刻的進展,如DreamBooth和BLIP-Diffusion。這些模型普遍存在著對微調(diào)的需求較高和參數(shù)規(guī)模龐大的限制。綜合對比實驗結果,DiffuseKronA在視覺質(zhì)量、文本對齊性、可解釋性、參數(shù)效率和模型穩(wěn)定性等方面均優(yōu)于LoRA-DreamBooth,為T2I生成模型的領域帶來了重大進展。
音樂生成技術一直是一個迷人的領域,將創(chuàng)造力與技術相結合,產(chǎn)生與人類情感共鳴的作品。這個過程涉及生成與通過文本描述傳達的特定主題或情感相符的音樂。盡管在處理長序列方面存在一些局限性,并且受限于16kHz的采樣率,但MusicMagus在風格和音色轉移方面取得了顯著進展,展示了其創(chuàng)新的音樂編輯方法。
新加坡國立大學尤洋教授團隊聯(lián)合其他機構開發(fā)的p-diff擴散模型在AI領域引起熱議。這項模型能以44倍的速度生成神經(jīng)網(wǎng)絡參數(shù),得到了深度學習領域的重要人物LeCun的點贊。其高效、準確且具有泛化能力的特點將為未來的AI應用提供更多可能性,同時也促進了AI領域知識的共享與交流。
為了使機器具有人類的想象力,深度生成模型取得了重大進展。這些模型能創(chuàng)造逼真的樣本,尤其是擴散模型,在多個領域表現(xiàn)出色。通過整合額外的反饋,豐富了強化學習,從改善了模型的可控條件生成能力。