中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > MediaPipe最新資訊  > 正文

    谷歌研究發(fā)布MediaPipe FaceStylizer 輕松生成各種風(fēng)格頭像

    2023-09-18 18:02 · 稿源:站長之家

    文章概要:

    1. 谷歌研究推出了MediaPipe FaceStylizer,這是一種高效的解決方案,專門用于在少量鏡頭情況下進行人臉風(fēng)格化。這項技術(shù)適用于短視頻、虛擬現(xiàn)實和游戲等領(lǐng)域,具有輕量級和高質(zhì)量的特點。

    2. 該技術(shù)使用了生成對抗網(wǎng)絡(luò)(GAN)方法,將圖像轉(zhuǎn)換為潛在編碼,通過合成網(wǎng)絡(luò)和輔助頭來生成高質(zhì)量的面部圖像。同時,從教師StyleGAN模型中提煉出學(xué)生生成器,以保持模型的輕量化。

    3. MediaPipe FaceStylizer可為用戶提供開源訪問,允許微調(diào)生成器以學(xué)習(xí)不同的風(fēng)格,并將生成的模型部署到設(shè)備上的面部風(fēng)格化應(yīng)用程序中。

    站長之家(ChinaZ.com)9月18日 消息:近年來,隨著增強現(xiàn)實(AR)技術(shù)的崛起,研究人員和消費者對結(jié)合AR的智能手機應(yīng)用表現(xiàn)出了日益增長的興趣。這種技術(shù)允許用戶實時生成和修改面部特征,用于短視頻、虛擬現(xiàn)實(VR)和游戲等應(yīng)用。在這方面,基于生成對抗網(wǎng)絡(luò)(GAN)方法的人臉生成和編輯模型備受歡迎,因為它們不僅輕巧,而且能夠保持卓越的圖像質(zhì)量。然而,大多數(shù)傳統(tǒng)的GAN模型在計算復(fù)雜性方面存在嚴重限制,而且需要大量的訓(xùn)練數(shù)據(jù)集,同時合乎道德地使用這些模型也是一個重要問題。

    image.png

    為了應(yīng)對這些挑戰(zhàn),谷歌研究人員開發(fā)了MediaPipe FaceStylizer,這是一種高效的解決方案,專門用于少量鏡頭臉部風(fēng)格化。這個模型利用了GAN反轉(zhuǎn)技術(shù),將圖像轉(zhuǎn)換為潛在編碼,然后通過一個適合移動設(shè)備的合成網(wǎng)絡(luò)生成從粗到細粒度的高質(zhì)量圖像。此外,他們還從教師StyleGAN模型中提煉出學(xué)生生成器,通過巧妙設(shè)計損失函數(shù),并將其與常見的GAN損失函數(shù)相結(jié)合,創(chuàng)造出一個輕量級模型,能夠保持良好的生成質(zhì)量。MediaPipe還提供了對這一解決方案的開源訪問,使用戶能夠微調(diào)生成器,以從一張或多張照片中學(xué)習(xí)風(fēng)格。

    image.png

    該技術(shù)的關(guān)鍵組成部分是BlazeStyleGAN模型,它包括一個面部生成器和一個面部編碼器,用于生成和優(yōu)化符合特定美學(xué)要求的面部。通過使用MobileNet V2核心,面部編碼器將輸入照片與面部生成器生成的面部關(guān)聯(lián)起來。研究人員還構(gòu)建了一個面部風(fēng)格化流程,使用GAN反轉(zhuǎn)編碼器和有效的面部生成器模型,用戶可以通過幾個樣本來微調(diào)模型,以適應(yīng)不同的風(fēng)格需求。

    為了訓(xùn)練BlazeStyleGAN,谷歌團隊采用了知識蒸餾技術(shù),使用了廣泛使用的StyleGAN2作為訓(xùn)練模型。此外,他們引入了多尺度感知損失,以改善圖像生成質(zhì)量。

    最終,BlazeStyleGAN能夠在移動設(shè)備上以實時速度運行,并且在視覺質(zhì)量上與教師模型非常接近。研究團隊還指出,在某些情況下,BlazeStyleGAN可以通過減少教師模型產(chǎn)生的偽影來提高視覺質(zhì)量。該技術(shù)在移動設(shè)備上的性能表現(xiàn)也令人印象深刻,可以在絕大多數(shù)高端智能手機上實時運行。

    谷歌研究團隊的MediaPipe FaceStylizer技術(shù)為少鏡頭臉部風(fēng)格化提供了一種高效的解決方案,使用戶能夠在移動設(shè)備上實時生成高質(zhì)量的面部圖像。這一技術(shù)的發(fā)布標志著在設(shè)備內(nèi)部生成模型方面的重要進展,為未來的應(yīng)用和探索提供了更多可能性。

    項目網(wǎng)址:https://blog.research.google/2023/09/mediapipe-facestylizer-on-device-real.html

    舉報

    • 相關(guān)推薦
    • Stability AI發(fā)布AI音樂生成工具“Stable Audio” 可生成長達90S音樂

      倫敦初創(chuàng)公司StabilityAI發(fā)布了一款名為StableAudio的AI音樂生成工具,標志著音樂創(chuàng)作領(lǐng)域再次迎來了創(chuàng)新。StableAudio采用了一種稱為潛在擴散的技術(shù),據(jù)稱可以生成高質(zhì)量、商業(yè)可用的音樂。StabilityAI表示,他們正在積極采取措施來確保內(nèi)容的真實性,包括在圖像模型中實施水印技術(shù),以便用戶和平臺可以識別通過其托管服務(wù)生成的AI輔助內(nèi)容。

    • 創(chuàng)新型生成模型CityDreamer:一鍵生成無邊界的3D城市

      關(guān)于3D自然場景生成的研究已經(jīng)很多,但對于3D城市生成的研究相對較少。這是因為在城市環(huán)境中,人們對結(jié)構(gòu)扭曲更加敏感生成3D城市比生成3D自然場景更為復(fù)雜。這一技術(shù)的應(yīng)用前景非常廣闊,將在游戲、城市規(guī)劃、虛擬現(xiàn)實等領(lǐng)域發(fā)揮關(guān)鍵作用。

    • 谷歌研究人員在 JAX 中引入了一個開源庫 用于在球面上進行深度學(xué)習(xí)

      Google研究人員最近推出了一個基于JAX的開源庫,旨在解決在球面上進行深度學(xué)習(xí)的挑戰(zhàn)。傳統(tǒng)的深度學(xué)習(xí)模型通常處理平面數(shù)據(jù),例如圖像,但科學(xué)應(yīng)用中的數(shù)據(jù)通常是球面數(shù)據(jù)。3.這項研究有望在分子性質(zhì)預(yù)測和氣象預(yù)測等領(lǐng)域取得突破性進展,為醫(yī)療研究和氣候分析提供有力支持。

    • 韓國AI研究機構(gòu)出品!MagiCapture:個性化生成高分辨率肖像照片

      韓國的一家人工智能研究機構(gòu)近日發(fā)布了名為MagiCapture的新技術(shù),該技術(shù)旨在解決肖像照片個性化生成的多概念定制挑戰(zhàn)。人們需要前往照相館,經(jīng)歷昂貴和耗時的圖片編輯過程,才能獲得適合簡歷或婚禮慶典等場合的高質(zhì)量肖像照片。通過多概念定制和新的學(xué)習(xí)策略,它成功地克服了傳統(tǒng)個性化技術(shù)存在的問題,為高分辨率肖像照片的定制創(chuàng)造了更多可能性。

    • Suno AI推文本到音樂模型Chirp v1 可根據(jù)風(fēng)格和歌詞生成音樂

      Suno是一家專門從文本生成AI音頻的美國創(chuàng)業(yè)公司。該公司最近推出了最新的文本到歌曲模型Chirpv1,它可以根據(jù)風(fēng)格和歌詞生成音樂,包括人聲。關(guān)于付款模型的更多信息可以在這里找到。

    • AI初創(chuàng)公司Captions發(fā)布多語言視頻翻譯應(yīng)用Lipdub

      AI視頻編輯初創(chuàng)公司Captions發(fā)布了一款名為"Lipdub"的新應(yīng)用,用于將視頻片段翻譯成28種語言。該應(yīng)用支持多種語言,包括法語、印地語、西班牙語、意大利語、葡萄牙語、日語等,甚至可以將視頻翻譯成德克薩斯俚語、Z世代用語、海盜語和嬰兒語。AI配音的初創(chuàng)公司引起了眾多投資者的興趣,像英國的Papercup和以色列的Deepdub等初創(chuàng)公司已籌集了數(shù)百萬美元。

    • Odin:一個利用GPT-4技術(shù)從數(shù)據(jù)中生成知識圖譜的插件

      GitHubRepo上的一個名為Odin的新項目引起了業(yè)界的廣泛關(guān)注。該項目的主要功能是利用GPT-4技術(shù)從用戶的數(shù)據(jù)中生成知識圖譜。這是Obsidian社區(qū)一個非常有前景的插件。

    • 傳音TECNO Phantom V flip折疊屏發(fā)布:圓形“星球”副屏亮眼

      傳音今日在海外正式發(fā)布了翻蓋式智能手機PhantomVFlip5G。TECNOPhantomVFlip配備一個1.32寸圓形副屏,被成為星球”,采用AMOLED面板,466x466分辨率,60Hz刷新率。TECNOPhantomVFlip首發(fā)49999印度盧比。

    • 直接抄Character.AI作業(yè)?Meta發(fā)布虛擬聊天機器人 Gen AI Personas

      Meta計劃推出名為「GenAIPersonas」的AI聊天機器人服務(wù),旨在挽回社交媒體平臺的用戶流失問題。這款A(yù)I聊天機器人將具備個人助理功能,不同性格的聊天機器人選擇以及幫助用戶更好表達自己的能力。雖然Meta希望通過這一產(chǎn)品吸引年輕用戶,但目前的反應(yīng)復(fù)雜,不確定性較大。

    • 視頻編輯器CapCut:針對人工智能驅(qū)動的腳本生成工具

      CapCut是字節(jié)跳動旗下的視頻編輯應(yīng)用程序,是該公司繼TikTok之后第二個消費者支出突破1億美元的應(yīng)用程序,目前正在擴展到商業(yè)工具領(lǐng)域。CapCut因其易于使用的模板、與TikTok的緊密集成以及AI效果和濾鏡的快速采用聞名,它已成為頂級消費者視頻編輯應(yīng)用程序,目前經(jīng)常躋身iOS應(yīng)用程序整體應(yīng)用程序前10名或前20名。品牌、營銷人員和創(chuàng)作者可以免費使用新的CapCutforBusiness軟件?

    熱文

    • 3 天
    • 7天