文章概要:
1. 谷歌研究推出了MediaPipe FaceStylizer,這是一種高效的解決方案,專門用于在少量鏡頭情況下進行人臉風(fēng)格化。這項技術(shù)適用于短視頻、虛擬現(xiàn)實和游戲等領(lǐng)域,具有輕量級和高質(zhì)量的特點。
2. 該技術(shù)使用了生成對抗網(wǎng)絡(luò)(GAN)方法,將圖像轉(zhuǎn)換為潛在編碼,通過合成網(wǎng)絡(luò)和輔助頭來生成高質(zhì)量的面部圖像。同時,從教師StyleGAN模型中提煉出學(xué)生生成器,以保持模型的輕量化。
3. MediaPipe FaceStylizer可為用戶提供開源訪問,允許微調(diào)生成器以學(xué)習(xí)不同的風(fēng)格,并將生成的模型部署到設(shè)備上的面部風(fēng)格化應(yīng)用程序中。
站長之家(ChinaZ.com)9月18日 消息:近年來,隨著增強現(xiàn)實(AR)技術(shù)的崛起,研究人員和消費者對結(jié)合AR的智能手機應(yīng)用表現(xiàn)出了日益增長的興趣。這種技術(shù)允許用戶實時生成和修改面部特征,用于短視頻、虛擬現(xiàn)實(VR)和游戲等應(yīng)用。在這方面,基于生成對抗網(wǎng)絡(luò)(GAN)方法的人臉生成和編輯模型備受歡迎,因為它們不僅輕巧,而且能夠保持卓越的圖像質(zhì)量。然而,大多數(shù)傳統(tǒng)的GAN模型在計算復(fù)雜性方面存在嚴重限制,而且需要大量的訓(xùn)練數(shù)據(jù)集,同時合乎道德地使用這些模型也是一個重要問題。
為了應(yīng)對這些挑戰(zhàn),谷歌研究人員開發(fā)了MediaPipe FaceStylizer,這是一種高效的解決方案,專門用于少量鏡頭臉部風(fēng)格化。這個模型利用了GAN反轉(zhuǎn)技術(shù),將圖像轉(zhuǎn)換為潛在編碼,然后通過一個適合移動設(shè)備的合成網(wǎng)絡(luò)生成從粗到細粒度的高質(zhì)量圖像。此外,他們還從教師StyleGAN模型中提煉出學(xué)生生成器,通過巧妙設(shè)計損失函數(shù),并將其與常見的GAN損失函數(shù)相結(jié)合,創(chuàng)造出一個輕量級模型,能夠保持良好的生成質(zhì)量。MediaPipe還提供了對這一解決方案的開源訪問,使用戶能夠微調(diào)生成器,以從一張或多張照片中學(xué)習(xí)風(fēng)格。
該技術(shù)的關(guān)鍵組成部分是BlazeStyleGAN模型,它包括一個面部生成器和一個面部編碼器,用于生成和優(yōu)化符合特定美學(xué)要求的面部。通過使用MobileNet V2核心,面部編碼器將輸入照片與面部生成器生成的面部關(guān)聯(lián)起來。研究人員還構(gòu)建了一個面部風(fēng)格化流程,使用GAN反轉(zhuǎn)編碼器和有效的面部生成器模型,用戶可以通過幾個樣本來微調(diào)模型,以適應(yīng)不同的風(fēng)格需求。
為了訓(xùn)練BlazeStyleGAN,谷歌團隊采用了知識蒸餾技術(shù),使用了廣泛使用的StyleGAN2作為訓(xùn)練模型。此外,他們引入了多尺度感知損失,以改善圖像生成質(zhì)量。
最終,BlazeStyleGAN能夠在移動設(shè)備上以實時速度運行,并且在視覺質(zhì)量上與教師模型非常接近。研究團隊還指出,在某些情況下,BlazeStyleGAN可以通過減少教師模型產(chǎn)生的偽影來提高視覺質(zhì)量。該技術(shù)在移動設(shè)備上的性能表現(xiàn)也令人印象深刻,可以在絕大多數(shù)高端智能手機上實時運行。
谷歌研究團隊的MediaPipe FaceStylizer技術(shù)為少鏡頭臉部風(fēng)格化提供了一種高效的解決方案,使用戶能夠在移動設(shè)備上實時生成高質(zhì)量的面部圖像。這一技術(shù)的發(fā)布標志著在設(shè)備內(nèi)部生成模型方面的重要進展,為未來的應(yīng)用和探索提供了更多可能性。
項目網(wǎng)址:https://blog.research.google/2023/09/mediapipe-facestylizer-on-device-real.html
(舉報)