站長之家(ChinaZ.com)5月23日 消息:巴黎礦業(yè)大學和以色列理工學院的研究人員聯(lián)合推出了一款創(chuàng)新視頻模型——Slicedit。這款模型能夠在不改變視頻背景的情況下,對視頻中的主要對象進行修改。例如,可以將沖浪者變成鋼鐵俠,或?qū)⑥D(zhuǎn)球的男孩變成NBA巨星庫里等。
Slicedit模型結(jié)合了文生圖像的擴散模型和對視頻時空切片的預處理。盡管修改后的視頻可能會出現(xiàn)一些模糊和扭曲,但對于不熟悉專業(yè)視頻編輯軟件的業(yè)余人員來說,Slicedit提供了一種快速完成視頻內(nèi)容修改的方法,類似于視頻版的Photoshop。這使得它非常適合用來制作搞笑視頻,用于鬼畜、抖音、快手等平臺。
Slicedit通過以下幾個關(guān)鍵技術(shù)克服了視頻編輯中的難題:
空間時間切片:從視頻的三維空間中提取的二維平面,可以是固定時間點上的視頻幀,或者是特定方向上跨越時間的連續(xù)幀組合。這使得模型能夠處理視頻中的動態(tài)元素,同時保持背景和其他非目標區(qū)域的穩(wěn)定和完整性。
擴展注意力:Slicedit改進了傳統(tǒng)的注意力機制,使其能夠處理時間序列數(shù)據(jù)。模型在處理當前幀時,不僅考慮當前幀的信息,還會考慮與之相鄰的幀,從而捕捉視頻幀之間的動態(tài)變化。
DDPM反演:Slicedit采用了一種反推的去噪過程,從目標數(shù)據(jù)開始,找到一組噪聲向量,這些向量在經(jīng)過DDPM的生成過程后能夠重建原始數(shù)據(jù)。這涉及到將輸入視頻幀轉(zhuǎn)換為噪聲空間,并進行條件去噪,以符合用戶的編輯標準。
研究人員表示,他們計劃很快開源Slicedit模型,以便更多的開發(fā)人員可以構(gòu)建自己的視頻編輯器。
這項技術(shù)的發(fā)展可能會對視頻編輯領域產(chǎn)生重大影響,使得視頻編輯變得更加容易和可訪問,同時也為內(nèi)容創(chuàng)作者提供了更多創(chuàng)新的可能性。
論文地址:https://arxiv.org/pdf/2405.12211
(舉報)