劃重點(diǎn):
1. ??Convolutional Reconstruction Model(CRM)是一種高保真度的前饋單圖像到3D生成模型,充分考慮了稀疏3D數(shù)據(jù)的限制,強(qiáng)調(diào)了在網(wǎng)絡(luò)設(shè)計中整合幾何先驗的必要性。
2. ???CRM通過生成六個正交視圖圖像,經(jīng)過卷積U-Net處理,利用其強(qiáng)大的像素級對齊能力和顯著的帶寬,創(chuàng)建了高分辨率的三平面
3. ?? 模型在僅10秒內(nèi)從圖像中生成高保真紋理網(wǎng)格,無需任何測試時優(yōu)化。
站長之家(ChinaZ.com) 3月12日 消息:近期,清華大學(xué)的研究團(tuán)隊在圖像處理領(lǐng)域取得了重要進(jìn)展,他們提出了一種名為Convolutional Reconstruction Model(CRM)的前饋式單圖像到3D紋理網(wǎng)格生成模型。與傳統(tǒng)的大型重建模型(LRM)相比,CRM在生成速度上表現(xiàn)出色,同時克服了基于Transformer的方法在幾何先驗方面存在的不足。
傳統(tǒng)的3D生成模型雖然在生成速度上有所突破,但由于Transformer方法未充分利用三平面組件的幾何先驗,導(dǎo)致在有限的3D數(shù)據(jù)和緩慢的訓(xùn)練情況下質(zhì)量不佳。為了解決這一問題,研究團(tuán)隊提出了CRM,一個高保真度的前饋式單圖像到3D生成模型。
CRM的關(guān)鍵觀察是,三平面的可視化呈現(xiàn)出六個正交圖像的空間對應(yīng)關(guān)系。模型首先從單個輸入圖像生成六個正交視圖圖像,然后將這些圖像輸入卷積U-Net進(jìn)行處理,利用其強(qiáng)大的像素級對齊能力和顯著的帶寬,創(chuàng)建高分辨率的三平面。與此同時,CRM采用Flexicubes作為幾何表示,實現(xiàn)對紋理網(wǎng)格的直接端到端優(yōu)化。
整個推理過程僅需要在A800GPU上花費(fèi)約10秒的時間,其中包括U-Net的前向傳播(不到0.1秒)、查詢表面點(diǎn)的UV紋理和文件I/O。與傳統(tǒng)方法相比,CRM從圖像中僅需短短的時間就能生成高保真度的紋理網(wǎng)格,無需在測試時進(jìn)行任何優(yōu)化。
圖中,展示了整個方法的流程。輸入圖像首先經(jīng)過多視圖圖像擴(kuò)散模型,生成六個正交圖像。然后,另一個擴(kuò)散模型用于生成基于這六個圖像的CCMs(conditional convolutional masks)。最后,這六個圖像和CCMs一起輸入CRM,重建最終的紋理網(wǎng)格。
研究團(tuán)隊通過生成的紋理網(wǎng)格展示了CRM的性能,包括玫瑰、青蛙、大象、哆啦A夢、貓和校車等互動網(wǎng)格。同時,CRM還展示了其在創(chuàng)建類似樂高風(fēng)格的對象方面的潛力。
在與現(xiàn)有方法的比較中,CRM展現(xiàn)出了卓越的性能和效率。研究團(tuán)隊通過BibTeX引用了他們的工作,這表明了對該模型的高度認(rèn)可。
這一項研究為單圖像到3D紋理網(wǎng)格的生成提供了一種新的前饋式模型,具有卓越的速度和質(zhì)量,為圖像處理領(lǐng)域帶來了新的可能性。
項目入口:https://top.aibase.com/tool/crm
(舉報)