要點(diǎn):
MotionCtrl是一種用于視頻生成的統(tǒng)一而靈活的運(yùn)動(dòng)控制器,能夠有效地獨(dú)立控制攝像機(jī)運(yùn)動(dòng)和物體運(yùn)動(dòng),實(shí)現(xiàn)更精細(xì)和多樣化的運(yùn)動(dòng)控制。
MotionCtrl通過(guò)兩個(gè)模塊,即攝像機(jī)運(yùn)動(dòng)控制模塊(CMCM)和物體運(yùn)動(dòng)控制模塊(OMCM),以及精心設(shè)計(jì)的架構(gòu)和訓(xùn)練策略。
通過(guò)CMCM和OMCM的獨(dú)立訓(xùn)練和結(jié)合LVDM,MotionCtrl能夠在相對(duì)有限的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在生成視頻時(shí)靈活地控制攝像機(jī)和物體的運(yùn)動(dòng),展示出較之前方法更為出色的性能。
站長(zhǎng)之家(ChinaZ.com)12月8日 消息:近年來(lái),視頻生成領(lǐng)域取得了顯著進(jìn)展,但對(duì)于視頻中的攝像機(jī)和物體運(yùn)動(dòng)的準(zhǔn)確控制仍然是一個(gè)挑戰(zhàn)。傳統(tǒng)方法往往集中在其中一種運(yùn)動(dòng)類型,或者在兩者之間沒(méi)有明確的區(qū)分,從而限制了運(yùn)動(dòng)控制的多樣性。為了解決這一問(wèn)題,研究人員開發(fā)了一種名為MotionCtrl的技術(shù),可以通過(guò)手繪的軌跡來(lái)控制攝像機(jī)和視頻中物體的運(yùn)動(dòng)軌跡。該技術(shù)還支持Animatediff,希望在開源后能夠有相應(yīng)的節(jié)點(diǎn)插件。
MotionCtrl能夠獨(dú)立有效地控制攝像機(jī)運(yùn)動(dòng)和物體運(yùn)動(dòng),實(shí)現(xiàn)更精細(xì)和多樣化的運(yùn)動(dòng)控制。其架構(gòu)考慮了攝像機(jī)運(yùn)動(dòng)和物體運(yùn)動(dòng)的固有屬性,通過(guò)CMCM和OMCM模塊分別處理這兩種運(yùn)動(dòng)類型。這使得在生成的視頻中可以實(shí)現(xiàn)更細(xì)致的運(yùn)動(dòng)調(diào)整,并靈活地組合這兩種運(yùn)動(dòng)類型,提高了控制的多樣性。
論文地址:https://arxiv.org/pdf/2312.03641.pdf
MotionCtrl的運(yùn)動(dòng)條件由攝像機(jī)姿態(tài)和軌跡決定,這些條件與外觀無(wú)關(guān),最小程度地影響生成視頻中物體的外觀或形狀。這使得MotionCtrl生成的視頻在保持物體自然外觀的同時(shí),能夠準(zhǔn)確地反映所給攝像機(jī)姿態(tài)和軌跡,提高了生成視頻的真實(shí)感。
MotionCtrl是相對(duì)通用的模型,一旦訓(xùn)練完成,能夠適應(yīng)各種攝像機(jī)姿態(tài)和軌跡,無(wú)需對(duì)每個(gè)攝像機(jī)或物體運(yùn)動(dòng)進(jìn)行精細(xì)調(diào)整。這增強(qiáng)了模型的泛化能力,使其在不同情境下都能表現(xiàn)出色。
該項(xiàng)目的優(yōu)勢(shì)在于,它可以有效地獨(dú)立控制攝像機(jī)和物體的運(yùn)動(dòng),實(shí)現(xiàn)更精細(xì)的運(yùn)動(dòng)控制,促進(jìn)兩種類型運(yùn)動(dòng)的靈活多樣組合。此外,該技術(shù)的運(yùn)動(dòng)條件由攝像機(jī)的姿勢(shì)和軌跡確定,與視頻中物體的外觀或形狀影響最小。
MotionCtrl的實(shí)現(xiàn)方法是通過(guò)添加相機(jī)運(yùn)動(dòng)控制模塊(CMCM)和物體運(yùn)動(dòng)控制模塊(OMCM)來(lái)擴(kuò)展LVDM的去噪U(xiǎn)-Net結(jié)構(gòu)。CMCM通過(guò)將相機(jī)姿態(tài)序列RT附加到第二個(gè)自注意模塊的輸入中,并應(yīng)用一個(gè)定制的輕量級(jí)全連接層來(lái)提取相機(jī)姿態(tài)特征,將其與LVDM的時(shí)間變換器進(jìn)行集成。
為了訓(xùn)練MotionCtrl,研究人員采用了一種多階段的訓(xùn)練策略,并使用特定的增強(qiáng)數(shù)據(jù)集,以滿足攝像機(jī)運(yùn)動(dòng)和物體運(yùn)動(dòng)控制的訓(xùn)練需求。對(duì)于攝像機(jī)運(yùn)動(dòng)控制模塊(CMCM),研究人員選擇了Realestate10K數(shù)據(jù)集,并通過(guò)Blip2生成視頻片段的文字描述。對(duì)于物體運(yùn)動(dòng)控制模塊(OMCM),由于缺乏同時(shí)包含攝像機(jī)姿態(tài)、文字描述和物體運(yùn)動(dòng)軌跡的綜合數(shù)據(jù)集,研究人員采用了ParticleSfM來(lái)生成物體運(yùn)動(dòng)軌跡,并通過(guò)Gaussian filter進(jìn)行優(yōu)化。
實(shí)驗(yàn)結(jié)果表明,MotionCtrl相對(duì)于現(xiàn)有方法在運(yùn)動(dòng)控制方面表現(xiàn)出色,具有更高的生成視頻質(zhì)量和更靈活的運(yùn)動(dòng)控制能力。
(舉報(bào))