# 劃重點(diǎn)
1. ?? DiffPortrait3D是字節(jié)跳動(dòng)團(tuán)隊(duì)研發(fā)的一種條件擴(kuò)散模型,可從一張野外拍攝的肖像中創(chuàng)建逼真的、3D一致的視圖。
2. ?? 該模型通過(guò)零樣本能力,能夠從單一的肖像生成多樣的面部視圖,包括不定姿態(tài)、夸張表情和各種藝術(shù)風(fēng)格,無(wú)需繁瑣的優(yōu)化或微調(diào)。
3. ?? DiffPortrait3D采用了2D擴(kuò)散模型的生成先驗(yàn),結(jié)合特殊的條件控制模塊、交叉視圖注意力模塊和3D感知噪聲生成機(jī)制,實(shí)現(xiàn)了在多視角和野外場(chǎng)景下的高質(zhì)量、真實(shí)感的3D人像合成。
站長(zhǎng)之家(ChinaZ.com)12月28日 消息:近期,大型語(yǔ)言模型(LLMs)在人工智能社區(qū)引起了轟動(dòng),歸功于其出色的能力和性能。這些模型在幾乎所有基于AI子領(lǐng)域的行業(yè)中展現(xiàn)出了非凡的應(yīng)用,包括自然語(yǔ)言處理、自然語(yǔ)言生成和計(jì)算機(jī)視覺(jué)。盡管計(jì)算機(jī)視覺(jué),尤其是擴(kuò)散模型引起了極大關(guān)注,但仍然存在使用有限輸入生成高保真、連貫新視角的挑戰(zhàn)。
為了應(yīng)對(duì)這一挑戰(zhàn),字節(jié)跳動(dòng)的研究團(tuán)隊(duì)最近推出了DiffPortrait3D,這是一種獨(dú)特的條件擴(kuò)散模型,旨在從一張野外拍攝的肖像中創(chuàng)建逼真的、3D一致的視圖。DiffPortrait3D可以將一張二維(2D)非受限制的肖像重建為人臉的三維(3D)表示。
簡(jiǎn)單來(lái)說(shuō),給定一張彩色照片作為輸入,該項(xiàng)目的目標(biāo)是合成具有保持身份和面部表情的合理但一致的面部細(xì)節(jié),以新的相機(jī)視角呈現(xiàn)出來(lái)。與耗時(shí)的優(yōu)化和微調(diào)不同,這種零樣本方法能夠很好地推廣到具有不規(guī)定相機(jī)視角、極端面部表情和多樣藝術(shù)描繪的任意人臉肖像。其核心思想是利用在大規(guī)模圖像數(shù)據(jù)集上預(yù)訓(xùn)練的2D擴(kuò)散模型作為渲染骨架,同時(shí)使用解耦的關(guān)注控制外觀和相機(jī)姿勢(shì)的去噪引導(dǎo)。
為了實(shí)現(xiàn)這一點(diǎn),首先將參考圖像的外觀上下文注入到凍結(jié)的UNets的自注意層中。然后,使用一個(gè)新穎的條件控制模塊來(lái)解釋相機(jī)姿勢(shì),該模塊通過(guò)觀察來(lái)自相同視角的一個(gè)交叉主體的條件圖像。此外,研究人員插入一個(gè)可訓(xùn)練的跨視圖注意模塊來(lái)增強(qiáng)視圖一致性,這進(jìn)一步通過(guò)推斷期間的新穎3D感知噪聲生成過(guò)程得以加強(qiáng)。
DiffPortrait3D使用特殊的條件控制模塊來(lái)改變渲染視圖。該模塊分析從相同角度拍攝的主體的條件圖像,以解釋相機(jī)的態(tài)度。這使得模型能夠從不同視角結(jié)合一致的面部特征。
為了進(jìn)一步提高視覺(jué)一致性,還引入了一個(gè)可訓(xùn)練的交叉視圖注意力模塊。在面對(duì)嚴(yán)重的面部表情或不定姿態(tài)的相機(jī)視角可能導(dǎo)致困難的情況下,這個(gè)模塊尤其有幫助。
為了確保推理過(guò)程的彈性,還包括了一種獨(dú)特的3D感知噪聲生成機(jī)制。這一階段增加了合成圖像的整體穩(wěn)定性和逼真感。團(tuán)隊(duì)在嚴(yán)格的多視角和野外基準(zhǔn)測(cè)試上評(píng)估了DiffPortrait3D的性能,展示了在各種藝術(shù)風(fēng)格和環(huán)境設(shè)置下產(chǎn)生逼真高質(zhì)量面部重建的最新成果。
該技術(shù)主要特點(diǎn)包括:
1. 引入了一種獨(dú)特的零樣本方法,通過(guò)擴(kuò)展2D穩(wěn)定擴(kuò)散,從單一肖像創(chuàng)建3D一致的新視圖。
2. 該方法在獨(dú)特視圖合成方面取得了令人印象深刻的成就,支持外觀、表情、態(tài)度和風(fēng)格各異的肖像,無(wú)需繁瑣的微調(diào)。
3. 使用明確分離的外觀和相機(jī)視圖控制系統(tǒng),實(shí)現(xiàn)了有效的相機(jī)操作,而不影響主體的表情或身份。
4. 該方法結(jié)合了交叉視圖注意力模塊和3D感知噪聲生成技術(shù),提供了3D視圖的長(zhǎng)程一致性。
項(xiàng)目網(wǎng)址體驗(yàn):https://top.aibase.com/tool/diffportrait3d
論文網(wǎng)址:https://arxiv.org/abs/2312.13016
(舉報(bào))