中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

<strike id="naevp"></strike>

谷歌研究發(fā)布MediaPipe FaceStylizer 輕松生成各種風(fēng)格頭像

2023-09-18 18:02 · 稿源：站長之家

文章概要:
1. 谷歌研究推出了MediaPipe FaceStylizer，這是一種高效的解決方案，專門用于在少量鏡頭情況下進行人臉風(fēng)格化。這項技術(shù)適用于短視頻、虛擬現(xiàn)實和游戲等領(lǐng)域，具有輕量級和高質(zhì)量的特點。
2. 該技術(shù)使用了生成對抗網(wǎng)絡(luò)（GAN）方法，將圖像轉(zhuǎn)換為潛在編碼，通過合成網(wǎng)絡(luò)和輔助頭來生成高質(zhì)量的面部圖像。同時，從教師StyleGAN模型中提煉出學(xué)生生成器，以保持模型的輕量化。
3. MediaPipe FaceStylizer可為用戶提供開源訪問，允許微調(diào)生成器以學(xué)習(xí)不同的風(fēng)格，并將生成的模型部署到設(shè)備上的面部風(fēng)格化應(yīng)用程序中。

站長之家（ChinaZ.com）9月18日消息:近年來，隨著增強現(xiàn)實（AR）技術(shù)的崛起，研究人員和消費者對結(jié)合AR的智能手機應(yīng)用表現(xiàn)出了日益增長的興趣。這種技術(shù)允許用戶實時生成和修改面部特征，用于短視頻、虛擬現(xiàn)實(VR)和游戲等應(yīng)用。在這方面，基于生成對抗網(wǎng)絡(luò)(GAN)方法的人臉生成和編輯模型備受歡迎，因為它們不僅輕巧，而且能夠保持卓越的圖像質(zhì)量。然而，大多數(shù)傳統(tǒng)的GAN模型在計算復(fù)雜性方面存在嚴重限制，而且需要大量的訓(xùn)練數(shù)據(jù)集，同時合乎道德地使用這些模型也是一個重要問題。

為了應(yīng)對這些挑戰(zhàn)，谷歌研究人員開發(fā)了MediaPipe FaceStylizer，這是一種高效的解決方案，專門用于少量鏡頭臉部風(fēng)格化。這個模型利用了GAN反轉(zhuǎn)技術(shù)，將圖像轉(zhuǎn)換為潛在編碼，然后通過一個適合移動設(shè)備的合成網(wǎng)絡(luò)生成從粗到細粒度的高質(zhì)量圖像。此外，他們還從教師StyleGAN模型中提煉出學(xué)生生成器，通過巧妙設(shè)計損失函數(shù)，并將其與常見的GAN損失函數(shù)相結(jié)合，創(chuàng)造出一個輕量級模型，能夠保持良好的生成質(zhì)量。MediaPipe還提供了對這一解決方案的開源訪問，使用戶能夠微調(diào)生成器，以從一張或多張照片中學(xué)習(xí)風(fēng)格。

該技術(shù)的關(guān)鍵組成部分是BlazeStyleGAN模型，它包括一個面部生成器和一個面部編碼器，用于生成和優(yōu)化符合特定美學(xué)要求的面部。通過使用MobileNet V2核心，面部編碼器將輸入照片與面部生成器生成的面部關(guān)聯(lián)起來。研究人員還構(gòu)建了一個面部風(fēng)格化流程，使用GAN反轉(zhuǎn)編碼器和有效的面部生成器模型，用戶可以通過幾個樣本來微調(diào)模型，以適應(yīng)不同的風(fēng)格需求。

為了訓(xùn)練BlazeStyleGAN，谷歌團隊采用了知識蒸餾技術(shù)，使用了廣泛使用的StyleGAN2作為訓(xùn)練模型。此外，他們引入了多尺度感知損失，以改善圖像生成質(zhì)量。

最終，BlazeStyleGAN能夠在移動設(shè)備上以實時速度運行，并且在視覺質(zhì)量上與教師模型非常接近。研究團隊還指出，在某些情況下，BlazeStyleGAN可以通過減少教師模型產(chǎn)生的偽影來提高視覺質(zhì)量。該技術(shù)在移動設(shè)備上的性能表現(xiàn)也令人印象深刻，可以在絕大多數(shù)高端智能手機上實時運行。

谷歌研究團隊的MediaPipe FaceStylizer技術(shù)為少鏡頭臉部風(fēng)格化提供了一種高效的解決方案，使用戶能夠在移動設(shè)備上實時生成高質(zhì)量的面部圖像。這一技術(shù)的發(fā)布標志著在設(shè)備內(nèi)部生成模型方面的重要進展，為未來的應(yīng)用和探索提供了更多可能性。

項目網(wǎng)址:https://blog.research.google/2023/09/mediapipe-facestylizer-on-device-real.html

（舉報）

相關(guān)推薦

關(guān)鍵詞：

Stability AI發(fā)布AI音樂生成工具“Stable Audio” 可生成長達90S音樂

倫敦初創(chuàng)公司StabilityAI發(fā)布了一款名為StableAudio的AI音樂生成工具，標志著音樂創(chuàng)作領(lǐng)域再次迎來了創(chuàng)新。StableAudio采用了一種稱為潛在擴散的技術(shù)，據(jù)稱可以生成高質(zhì)量、商業(yè)可用的音樂。StabilityAI表示，他們正在積極采取措施來確保內(nèi)容的真實性，包括在圖像模型中實施水印技術(shù)，以便用戶和平臺可以識別通過其托管服務(wù)生成的AI輔助內(nèi)容。

?StabilityAI ?StableAudio ?AI頭條
創(chuàng)新型生成模型CityDreamer：一鍵生成無邊界的3D城市

關(guān)于3D自然場景生成的研究已經(jīng)很多，但對于3D城市生成的研究相對較少。這是因為在城市環(huán)境中，人們對結(jié)構(gòu)扭曲更加敏感生成3D城市比生成3D自然場景更為復(fù)雜。這一技術(shù)的應(yīng)用前景非常廣闊，將在游戲、城市規(guī)劃、虛擬現(xiàn)實等領(lǐng)域發(fā)揮關(guān)鍵作用。

?CityDreamer ?AI頭條
谷歌研究人員在 JAX 中引入了一個開源庫用于在球面上進行深度學(xué)習(xí)

Google研究人員最近推出了一個基于JAX的開源庫，旨在解決在球面上進行深度學(xué)習(xí)的挑戰(zhàn)。傳統(tǒng)的深度學(xué)習(xí)模型通常處理平面數(shù)據(jù)，例如圖像，但科學(xué)應(yīng)用中的數(shù)據(jù)通常是球面數(shù)據(jù)。3.這項研究有望在分子性質(zhì)預(yù)測和氣象預(yù)測等領(lǐng)域取得突破性進展，為醫(yī)療研究和氣候分析提供有力支持。

?開源
韓國AI研究機構(gòu)出品!MagiCapture:個性化生成高分辨率肖像照片

韓國的一家人工智能研究機構(gòu)近日發(fā)布了名為MagiCapture的新技術(shù)，該技術(shù)旨在解決肖像照片個性化生成的多概念定制挑戰(zhàn)。人們需要前往照相館，經(jīng)歷昂貴和耗時的圖片編輯過程，才能獲得適合簡歷或婚禮慶典等場合的高質(zhì)量肖像照片。通過多概念定制和新的學(xué)習(xí)策略，它成功地克服了傳統(tǒng)個性化技術(shù)存在的問題，為高分辨率肖像照片的定制創(chuàng)造了更多可能性。

?MagiCapture ?AI肖像 ?AI頭條
Suno AI推文本到音樂模型Chirp v1 可根據(jù)風(fēng)格和歌詞生成音樂

Suno是一家專門從文本生成AI音頻的美國創(chuàng)業(yè)公司。該公司最近推出了最新的文本到歌曲模型Chirpv1，它可以根據(jù)風(fēng)格和歌詞生成音樂，包括人聲。關(guān)于付款模型的更多信息可以在這里找到。

?AI音樂
AI初創(chuàng)公司Captions發(fā)布多語言視頻翻譯應(yīng)用Lipdub

AI視頻編輯初創(chuàng)公司Captions發(fā)布了一款名為"Lipdub"的新應(yīng)用，用于將視頻片段翻譯成28種語言。該應(yīng)用支持多種語言，包括法語、印地語、西班牙語、意大利語、葡萄牙語、日語等，甚至可以將視頻翻譯成德克薩斯俚語、Z世代用語、海盜語和嬰兒語。AI配音的初創(chuàng)公司引起了眾多投資者的興趣，像英國的Papercup和以色列的Deepdub等初創(chuàng)公司已籌集了數(shù)百萬美元。

?Lipdub ?視頻翻譯
Odin：一個利用GPT-4技術(shù)從數(shù)據(jù)中生成知識圖譜的插件

GitHubRepo上的一個名為Odin的新項目引起了業(yè)界的廣泛關(guān)注。該項目的主要功能是利用GPT-4技術(shù)從用戶的數(shù)據(jù)中生成知識圖譜。這是Obsidian社區(qū)一個非常有前景的插件。

?GPT-4
傳音TECNO Phantom V flip折疊屏發(fā)布：圓形“星球”副屏亮眼

傳音今日在海外正式發(fā)布了翻蓋式智能手機PhantomVFlip5G。TECNOPhantomVFlip配備一個1.32寸圓形副屏，被成為星球”，采用AMOLED面板，466x466分辨率，60Hz刷新率。TECNOPhantomVFlip首發(fā)49999印度盧比。
直接抄Character.AI作業(yè)？Meta發(fā)布虛擬聊天機器人 Gen AI Personas

Meta計劃推出名為「GenAIPersonas」的AI聊天機器人服務(wù)，旨在挽回社交媒體平臺的用戶流失問題。這款A(yù)I聊天機器人將具備個人助理功能，不同性格的聊天機器人選擇以及幫助用戶更好表達自己的能力。雖然Meta希望通過這一產(chǎn)品吸引年輕用戶，但目前的反應(yīng)復(fù)雜，不確定性較大。

?Meta
視頻編輯器CapCut：針對人工智能驅(qū)動的腳本生成工具

CapCut是字節(jié)跳動旗下的視頻編輯應(yīng)用程序，是該公司繼TikTok之后第二個消費者支出突破1億美元的應(yīng)用程序，目前正在擴展到商業(yè)工具領(lǐng)域。CapCut因其易于使用的模板、與TikTok的緊密集成以及AI效果和濾鏡的快速采用聞名，它已成為頂級消費者視頻編輯應(yīng)用程序，目前經(jīng)常躋身iOS應(yīng)用程序整體應(yīng)用程序前10名或前20名。品牌、營銷人員和創(chuàng)作者可以免費使用新的CapCutforBusiness軟件?

熱文

3 天
7天

站長商機

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<form id="m9y9t"><xmp id="m9y9t"></xmp></form>

<span id="m9y9t"></span>