DL3DV-10K數(shù)據(jù)集:可用于深度學(xué)習(xí)的3D視覺大規(guī)模場(chǎng)景

2024-01-05 12:01 · 稿源：站長(zhǎng)之家

劃重點(diǎn):
?? 研究人員介紹DL3DV-10K，這是一個(gè)大規(guī)模的多視圖場(chǎng)景數(shù)據(jù)集，旨在解決神經(jīng)視圖合成（NVS）中的挑戰(zhàn)，為深度學(xué)習(xí)三維視覺提供強(qiáng)大的數(shù)據(jù)支持。
?? 研究團(tuán)隊(duì)使用DL3DV-10K評(píng)估了現(xiàn)有方法，包括NeRF變體和3D高斯斑點(diǎn)，提出DL3DV-140作為性能基準(zhǔn)，揭示了這些方法在各種真實(shí)場(chǎng)景中的強(qiáng)弱之處。
?? 研究表明，通過使用DL3DV-10K預(yù)訓(xùn)練IBRNet，可以顯著提高當(dāng)前先進(jìn)方法的性能，并強(qiáng)調(diào)大規(guī)模真實(shí)場(chǎng)景數(shù)據(jù)集在推動(dòng)學(xué)習(xí)型通用NeRF方法發(fā)展中的重要性。

神經(jīng)視圖合成（NVS）在從多視圖視頻生成逼真的三維場(chǎng)景方面提出了復(fù)雜的挑戰(zhàn)，尤其是在多樣化的真實(shí)世界場(chǎng)景中。當(dāng)前先進(jìn)的NVS技術(shù)在面對(duì)照明變化、反射、透明度和整體場(chǎng)景復(fù)雜性的變化時(shí)，其局限性變得明顯。為了應(yīng)對(duì)這些挑戰(zhàn)，研究人員致力于推動(dòng)NVS能力的邊界。

為了理解NVS，普渡大學(xué)、Adobe、羅格斯大學(xué)和谷歌的研究團(tuán)隊(duì)對(duì)現(xiàn)有方法進(jìn)行了深入評(píng)估，包括NeRF變體和3D高斯斑點(diǎn)，使用新引入的DL3DV-140基準(zhǔn)進(jìn)行測(cè)試。該基準(zhǔn)源自DL3DV-10K，這是一個(gè)大規(guī)模的多視圖場(chǎng)景數(shù)據(jù)集，作為對(duì)NVS技術(shù)有效性的檢驗(yàn)。為了應(yīng)對(duì)已識(shí)別的局限性，研究人員引入了DL3DV-10K作為一個(gè)強(qiáng)大的數(shù)據(jù)集，為神經(jīng)輻射場(chǎng)（NeRF）的通用先驗(yàn)開發(fā)提供支持。這個(gè)數(shù)據(jù)集被精心設(shè)計(jì)，涵蓋了多樣的真實(shí)場(chǎng)景，捕捉了環(huán)境設(shè)置、照明條件、反射表面和透明材料的變化。

DL3DV-140在各種復(fù)雜性指標(biāo)上審查了NeRF變體和3D高斯斑點(diǎn)，提供了對(duì)它們優(yōu)勢(shì)和劣勢(shì)的見解。值得注意的是，Zip-NeRF、Mip-NeRF360和3DGS在PSNR（峰值信噪比）和SSIM(結(jié)構(gòu)相似性指數(shù))方面始終優(yōu)于它們的對(duì)手，其中Zip-NeRF表現(xiàn)出色，在性能方面顯示出卓越的表現(xiàn)。

研究人員仔細(xì)分析了場(chǎng)景復(fù)雜性的微妙差異，考慮了室內(nèi)與室外設(shè)置、照明條件、反射類別和透明類別等因素。性能評(píng)估提供了對(duì)這些方法在不同情景下的表現(xiàn)有深入的理解。特別是，盡管使用默認(rèn)批處理大小會(huì)占用更多GPU內(nèi)存，Zip-NeRF表現(xiàn)出了強(qiáng)大的魯棒性和高效性。

除了對(duì)SOTA方法進(jìn)行基準(zhǔn)測(cè)試外，研究團(tuán)隊(duì)還探討了DL3DV-10K在訓(xùn)練通用NeRF中的潛力。通過使用數(shù)據(jù)集預(yù)訓(xùn)練IBRNet，研究人員展示了數(shù)據(jù)集在提高先進(jìn)方法性能方面的有效性。實(shí)驗(yàn)證明，從DL3DV-10K的子集中獲得的先驗(yàn)知識(shí)顯著增強(qiáng)了IBRNet在各種基準(zhǔn)上的通用性。這種實(shí)驗(yàn)為大規(guī)模真實(shí)場(chǎng)景數(shù)據(jù)集（如DL3DV-10K）在推動(dòng)學(xué)習(xí)型通用NeRF方法發(fā)展中的作用提供了有力的論據(jù)。

這項(xiàng)研究深入探討了神經(jīng)視圖合成，解決了當(dāng)前方法的局限性，并提出DL3DV-10K作為一個(gè)重要的解決方案。全面的基準(zhǔn)測(cè)試DL3DV-140評(píng)估了SOTA方法，并對(duì)它們?cè)诟鞣N真實(shí)場(chǎng)景中的性能進(jìn)行了檢驗(yàn)。對(duì)DL3DV-10K在訓(xùn)練通用NeRF中的潛力的探討強(qiáng)調(diào)了它在推動(dòng)三維表示學(xué)習(xí)領(lǐng)域發(fā)展中的重要性。

隨著研究團(tuán)隊(duì)引領(lǐng)創(chuàng)新方法，這項(xiàng)工作的影響超越基準(zhǔn)測(cè)試，影響著NVS研究和應(yīng)用的未來(lái)發(fā)展方向。數(shù)據(jù)集的先進(jìn)和方法學(xué)創(chuàng)新的結(jié)合推動(dòng)該領(lǐng)域朝著更加強(qiáng)大和多功能的神經(jīng)視圖合成能力邁進(jìn)。

論文網(wǎng)址:https://arxiv.org/abs/2312.16256

項(xiàng)目網(wǎng)址:https://dl3dv-10k.github.io/DL3DV-10K/

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

大模型時(shí)代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語(yǔ)音合成數(shù)據(jù)集

本文探討了人工智能語(yǔ)音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出，大模型技術(shù)驅(qū)動(dòng)下語(yǔ)音交互應(yīng)用場(chǎng)景持續(xù)拓展，但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語(yǔ)音大模型訓(xùn)練需要TB至PB級(jí)數(shù)據(jù)，而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的重要補(bǔ)充，能通過參數(shù)化生成機(jī)制規(guī)避隱私風(fēng)險(xiǎn)，突破傳統(tǒng)數(shù)據(jù)在多樣性和場(chǎng)景覆蓋上的局限性。國(guó)內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型，如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語(yǔ)音合成數(shù)據(jù)集，包含上萬(wàn)小時(shí)數(shù)據(jù)，覆蓋中英混合場(chǎng)景，支持情感合成、風(fēng)格遷移等前沿任務(wù)，為虛擬偶像、數(shù)字人等元宇宙場(chǎng)景提供實(shí)時(shí)語(yǔ)音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù)，在自然度、流暢度等方面達(dá)到行業(yè)領(lǐng)先水平。

?大模型技術(shù) ?人工智能變革 ?語(yǔ)音交互
薦英偉達(dá)開源15T數(shù)據(jù)集：32萬(wàn)個(gè)機(jī)器人訓(xùn)練軌跡

全球AI領(lǐng)導(dǎo)者英偉達(dá)開源了，用于實(shí)體機(jī)器人和自動(dòng)化駕駛的超大訓(xùn)練數(shù)據(jù)合集——NVIDIAPhysicalAIDataset。這個(gè)數(shù)據(jù)集一共15T，涵蓋了超過320，000個(gè)機(jī)器人訓(xùn)練軌跡，以及多達(dá)1，000個(gè)通用場(chǎng)景描述包括一個(gè)SimReady集合。英偉達(dá)表示，未來(lái)將繼續(xù)擴(kuò)展PhysicalAIDataset，將其建設(shè)成世界最大、統(tǒng)一的開源數(shù)據(jù)集，可用于AI模型、醫(yī)療、自動(dòng)化駕駛等不同領(lǐng)域，加速AI、實(shí)體機(jī)器人的訓(xùn)練效?

?NVIDIA ?Physical ?AI
薦媲美OpenAI-o3，剛剛開源模型DeepCoder，訓(xùn)練方法、數(shù)據(jù)集大公開

今天凌晨4點(diǎn)，著名大模型訓(xùn)練平臺(tái)TogetherAI和智能體平臺(tái)Agentica，聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù)，但在知名代碼測(cè)試平臺(tái)LiveCodeBench的測(cè)試分為60.6%，高于OpenAI的o1模型，略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資，其估值也從去年的12.5億美元翻倍至33億美元。

?大模型 ?深度學(xué)習(xí) ?開源模型
提升大模型自動(dòng)修Bug能力豆包正式開源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集

今日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)宣布，正式開源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評(píng)估和提升大模型自動(dòng)修Bug”能力。在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語(yǔ)言，是真正面向全棧工程”的評(píng)測(cè)基準(zhǔn)。相比于以往聚焦Python的單語(yǔ)言任務(wù)，Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語(yǔ)言開發(fā)場(chǎng)景，也更能反映當(dāng)前模型在自動(dòng)化軟件工程”方向上的實(shí)際能力邊界。

?字節(jié)跳動(dòng) ?多語(yǔ)言數(shù)據(jù)集 ?大模型自動(dòng)修復(fù)
大規(guī)模專家并行推理集群實(shí)現(xiàn)性能3倍躍遷，聯(lián)通元景開啟推理新紀(jì)元

中國(guó)聯(lián)通持續(xù)技術(shù)攻堅(jiān)，依托元景大模型MaaS平臺(tái)成功搭建“大規(guī)模專家并行”推理集群，實(shí)現(xiàn)DeepSeekMoE大模型在多節(jié)點(diǎn)間的超高效集群推理，單卡吞吐提升3倍，解碼時(shí)延降低50%。這一成果不僅為人工智能技術(shù)的創(chuàng)新發(fā)展提供了強(qiáng)大助力，也讓各行業(yè)以更高效率應(yīng)用AI技術(shù)，加速推動(dòng)千行百業(yè)的數(shù)字化轉(zhuǎn)型。這一推理創(chuàng)新舉措必將助力各行業(yè)在復(fù)雜多變、競(jìng)爭(zhēng)激烈的市場(chǎng)環(huán)境中搶占先機(jī)，以智能化驅(qū)動(dòng)數(shù)字化轉(zhuǎn)型，進(jìn)推動(dòng)實(shí)體經(jīng)濟(jì)高質(zhì)量發(fā)展。

?中國(guó)聯(lián)通 ?大模型 ?人工智能
10倍精度升級(jí)！騰訊混元3D模型v2.5版本發(fā)布

騰訊混元3D模型升級(jí)至v2.5版本，建模精度和貼圖真實(shí)度顯著提升。新版本參數(shù)體量從1B增至10B，有效面片數(shù)增加超10倍，支持1024幾何分辨率。紋理系統(tǒng)支持4K高清貼圖和凹凸細(xì)節(jié)，率先支持多視圖生成PBR模型。針對(duì)動(dòng)畫場(chǎng)景優(yōu)化骨骼蒙皮系統(tǒng)，支持非標(biāo)準(zhǔn)姿態(tài)自動(dòng)綁定。新增文生/圖生3D減面模型、多視圖建模模板等專業(yè)工作流?；煸?D v2.5已全面更新至騰訊AI創(chuàng)作引擎，免費(fèi)生成額度提升至每日20次，并正式上線騰訊云API面向企業(yè)開放。GitHub開源版本累計(jì)Star超1.2萬(wàn)。

?騰訊 ?混元3D ?模型升級(jí)
薦日銷破千元！AI生成的3D梗圖掛件，被我們賣爆了

先說(shuō)結(jié)論:我們花15天做的AI3D掛件，在線下賣爆了，單日營(yíng)收破千元!故事的開始，是因?yàn)槲覀儼l(fā)現(xiàn)把AI3D打印手辦做成一門小生意的可行性越來(lái)越高，這也激發(fā)了我們的“搞錢基因”。再加上前不久新榜在上海舉辦了「新榜內(nèi)容節(jié)」，一拍即合，我們于是做了一批模型去大會(huì)現(xiàn)場(chǎng)擺攤試水!最后結(jié)果還不錯(cuò)，單日最高收入突破1000元，是我們“創(chuàng)業(yè)史”上的一個(gè)高光表現(xiàn)。歡迎大家

?AI ?3D打印 ?創(chuàng)業(yè)經(jīng)驗(yàn)
Funcom宣布《沙丘：覺醒》大規(guī)模測(cè)試即將開啟

《沙丘：覺醒》將于6月10日正式上線，5月10日將在倫敦與PAX East同步舉行全球在線派對(duì)直播，并發(fā)放數(shù)萬(wàn)測(cè)試密鑰。5月9日至12日將開啟大規(guī)模測(cè)試，玩家可體驗(yàn)前20小時(shí)內(nèi)容及第一章劇情。游戲基于弗蘭克·赫伯特經(jīng)典科幻小說(shuō)改編，融合電影化敘事與開放世界生存玩法，玩家將探索厄拉科斯沙漠星球，揭開神秘預(yù)言與古老陰謀交織的故事。購(gòu)買豪華版或終極版可提前5天進(jìn)入游戲。開發(fā)商Funcom曾推出《流放者柯南》等知名作品。

?沙丘覺醒 ?在線派對(duì) ?游戲測(cè)試
?上海毅速推出第三代模具3D打印專機(jī)E3系列，引領(lǐng)模具制造技術(shù)革新

導(dǎo)讀：近年來(lái)，金屬3D打印技術(shù)在模具制造領(lǐng)域得到了廣泛的應(yīng)用，模具行業(yè)正在迎來(lái)一場(chǎng)前所未有的技術(shù)變革，隨著應(yīng)用的逐漸深入，模具專用的金屬3D打印機(jī)應(yīng)運(yùn)而生。2025 年 4 月 15 日，上海毅速激光科技有限公司（以下簡(jiǎn)稱“毅速”）正式發(fā)布了其第三代模具3D打印專機(jī)系列——E3- 420 和E3-520。這一新品的推出，標(biāo)志著模具制造行業(yè)向增材制造邁出了重要一步。毅速E3- 420 ?

?金屬3D打印 ?模具制造 ?增材制造
聚首華南，2025下半年增材制造、3D 打印的頂尖展覽與活動(dòng)推薦

2025年全球3D打印行業(yè)將迎來(lái)系列盛會(huì)。4月西安論壇成功舉辦后，下半年將迎來(lái)深圳Formnext Asia（8月26-28日）、東京論壇（9月25-26日）和法蘭克福Formnext展會(huì)（11月18-21日）三大國(guó)際活動(dòng)。這些平臺(tái)將匯聚全球頂尖企業(yè)，展示航空航天、醫(yī)療健康、汽車工業(yè)等領(lǐng)域的最新技術(shù)成果，特別關(guān)注中國(guó)企業(yè)的快速成長(zhǎng)。法蘭克福展會(huì)預(yù)計(jì)吸引超900家展商，中國(guó)展商數(shù)量有望再創(chuàng)新高。系列活動(dòng)將搭建全球產(chǎn)業(yè)交流平臺(tái)，推動(dòng)3D打印技術(shù)創(chuàng)新與商業(yè)應(yīng)用深度融合。

?3D打印 ?增材制造 ?技術(shù)交流

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘