11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵?lái)騰訊云選購(gòu)吧!
【新智元導(dǎo)讀】Robin3D通過(guò)魯棒指令數(shù)據(jù)生成引擎生成的大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,以提高模型在3D場(chǎng)景理解中的魯棒性和泛化能力,在多個(gè)3D多模態(tài)學(xué)習(xí)基準(zhǔn)測(cè)試中取得了優(yōu)異的性能,超越了以往的方法,且無(wú)需針對(duì)特定任務(wù)的微調(diào)。多模態(tài)大語(yǔ)言模型以文本模態(tài)為基礎(chǔ),將其它各種模態(tài)對(duì)齊至語(yǔ)言模型的語(yǔ)義空間,從實(shí)現(xiàn)多模態(tài)的理解和對(duì)話能力。這種大幅的提升體現(xiàn)了對(duì)抗性數(shù)據(jù)對(duì)模型識(shí)別能力的提升。
谷歌推出的CAT3D模型在3D重建領(lǐng)域取得了顯著的進(jìn)展,它通過(guò)使用多視角擴(kuò)散模型來(lái)創(chuàng)建3D場(chǎng)景,提供了一種快速且高效的方法來(lái)生成3D內(nèi)容。主要特點(diǎn):快速生成:CAT3D能夠在最短的時(shí)間內(nèi),即一分鐘內(nèi)完成整個(gè)3D場(chǎng)景的創(chuàng)建,這比現(xiàn)有的單圖像和少視圖3D場(chǎng)景創(chuàng)建方法要快得多。CAT3D的出現(xiàn)是3D重建技術(shù)的重大突破,它有潛力改變虛擬現(xiàn)實(shí)、游戲開發(fā)、建筑設(shè)計(jì)等多個(gè)行業(yè),為用戶
LixelCyberColor,由XGRIDS公司研發(fā)的這款先進(jìn)技術(shù)產(chǎn)品,正在為3D場(chǎng)景的創(chuàng)建帶來(lái)革命性的變化。LCC能夠自動(dòng)生成具有電影級(jí)效果的無(wú)限大3D場(chǎng)景,這一成就得益于它采用的Multi-SLAM和高斯濺射技術(shù)。隨著XGRIDS技術(shù)的不斷進(jìn)步,我們有理由相信,未來(lái)的虛擬世界將變得更加真實(shí),更加引人入勝。
Meta聯(lián)合倫敦大學(xué)學(xué)院研究院在一項(xiàng)研究中提出了一種全新的文本引導(dǎo)的3D場(chǎng)景編輯方法,被稱為ReplaceAnything3D。這一方法通過(guò)引入Erase-and-Replace策略,能夠有效地替換場(chǎng)景中的特定對(duì)象,實(shí)現(xiàn)了文本提示下的高質(zhì)量3D場(chǎng)景編輯。這項(xiàng)研究對(duì)于游戲、電影、虛擬現(xiàn)實(shí)和混合現(xiàn)實(shí)等領(lǐng)域的3D內(nèi)容創(chuàng)作和編輯具有重要的推動(dòng)作用。
隨著大模型技術(shù)的飛速發(fā)展,基于語(yǔ)言和視覺(jué)的3D場(chǎng)景編輯方法取得了十足進(jìn)步,如Instruct-NeRF2NeRF在修改和場(chǎng)景控制方面展示了強(qiáng)大功能。但在內(nèi)容生成方面依然面臨困難,例如,在3D場(chǎng)景中直接生成一只3D蝴蝶。值得一提的是,InseRF只需要一個(gè)粗略的視角框,就可實(shí)現(xiàn)精確的對(duì)象定位,這對(duì)于用戶來(lái)說(shuō)非常便捷。
通過(guò)文本提示和一個(gè)2D邊界框,我們就能在3D場(chǎng)景中生成對(duì)象。看到下面這張圖了沒(méi)?一開始,盤子里是沒(méi)有東西的,但當(dāng)你在托盤上畫個(gè)框,然后在文本框中輸入文本「在托盤上添加意大利面包」,魔法就出現(xiàn)了:一個(gè)看起來(lái)美味可口的面包就出現(xiàn)在你的眼前。由結(jié)果可知,使用I-N2N會(huì)導(dǎo)致場(chǎng)景中的全局更改,并且這種改變是更改現(xiàn)有對(duì)象不是創(chuàng)建新對(duì)象,例如I-N2N把4a中的樂(lè)高?
InseRF是一種創(chuàng)新性的3D場(chǎng)景編輯和對(duì)象插入工具,可通過(guò)文本提示和2D邊界框在NeRF重建的3D場(chǎng)景中生成新對(duì)象。這種方法允許用戶僅通過(guò)簡(jiǎn)單的文本描述和2D邊界框就能在3D場(chǎng)景中插入新的對(duì)象,從在不需要顯式3D信息的情況下實(shí)現(xiàn)與場(chǎng)景一致的對(duì)象插入。要了解更多詳情并開始您的3D場(chǎng)景編輯之旅,請(qǐng)?jiān)L問(wèn)InseRF官方網(wǎng)站。
Text2Immersion是一種創(chuàng)新的方法,通過(guò)文本提示生成高質(zhì)量的3D沉浸式場(chǎng)景。該項(xiàng)目的流程首先利用預(yù)訓(xùn)練的2D擴(kuò)散和深度估計(jì)模型逐步生成高斯云,然后在高斯云上進(jìn)行細(xì)化階段,通過(guò)插值和細(xì)化來(lái)增強(qiáng)生成場(chǎng)景的細(xì)節(jié)。通過(guò)對(duì)系統(tǒng)進(jìn)行廣泛評(píng)估,我們證明了其在渲染質(zhì)量和多樣性方面超越了其他方法,為文本驅(qū)動(dòng)的3D場(chǎng)景生成邁出了重要一步。
LangSplat是一款利用CLIP語(yǔ)言嵌入映射到3D高斯分布的工具,用于構(gòu)建3D語(yǔ)言場(chǎng)景并實(shí)現(xiàn)對(duì)3D場(chǎng)景的開放詞匯量查詢。它提高了處理效率,避免了NeRF中的昂貴渲染過(guò)程,并且學(xué)習(xí)到的語(yǔ)言特征能精確捕捉對(duì)象邊界,提供精確的3D語(yǔ)言場(chǎng)景,無(wú)需后處理。欲了解更多或開始使用LangSplat,請(qǐng)?jiān)L問(wèn)LangSplat官方網(wǎng)站。
Gaussian-SLAM是一項(xiàng)新興技術(shù),可以通過(guò)分析視頻流中的圖像來(lái)創(chuàng)建逼真的3D模型,從重建現(xiàn)實(shí)世界場(chǎng)景。通過(guò)觀看一個(gè)視頻,Gaussian-SLAM可以分析視頻中的圖像,能夠理解視頻中的環(huán)境布局和物體的位置。這項(xiàng)技術(shù)的出現(xiàn)為模擬現(xiàn)實(shí)世界和創(chuàng)造逼真的虛擬環(huán)境提供了新的可能性。