要點:
1. 該研究提出了MotionDirector,一種基于人工智能的方法,用于自定義視頻的運動和外觀,通過訓(xùn)練模型學(xué)習(xí)運動和外觀,以生成特定運動的視頻。
2. MotionDirector采用雙通道架構(gòu),分別學(xué)習(xí)單一或多個參考視頻中的外觀和運動,實現(xiàn)外觀和運動的解耦,并能夠合并不同源視頻的外觀和運動。
3. 該研究通過對多個基準數(shù)據(jù)進行比較,表明MotionDirector在生成具有多樣性和所需運動概念的視頻方面具有潛力,盡管有一些改進的空間。
站長之家(ChinaZ.com)10月18日 消息:最新研究指出,文本到視頻傳播模型在最近取得了顯著進展,用戶只需提供文本描述,就可以創(chuàng)建逼真或富有想象力的視頻。這些基礎(chǔ)模型還被調(diào)整以生成與特定外觀、風(fēng)格和主題匹配的圖像。
然而,在文本到視頻生成中自定義運動的領(lǐng)域仍需要深入探討。用戶可能希望創(chuàng)建具有特定運動的視頻,比如汽車前進然后左轉(zhuǎn)。因此,將擴散模型調(diào)整以創(chuàng)建更具體內(nèi)容以滿足用戶的需求變得非常重要。
項目地址:https://showlab.github.io/MotionDirector/
為了解決這一問題,研究人員提出了MotionDirector,這是一種雙通道架構(gòu)的人工智能方法,旨在訓(xùn)練模型學(xué)習(xí)給定單個或多個參考視頻中的外觀和運動,使其能夠同時實現(xiàn)運動的自定義和外觀的多樣性。
其中,空間通道包含了一個基礎(chǔ)模型,其在每個視頻的變換層中集成了可訓(xùn)練的空間LoRAs(低秩適應(yīng)),這些LoRAs是通過在每個訓(xùn)練步驟中隨機選擇的單幀來進行訓(xùn)練,以捕捉輸入視頻的視覺屬性。與此相反,時間通道復(fù)制了基礎(chǔ)模型,與空間通道共享空間LoRAs,以適應(yīng)給定輸入視頻的外觀。此外,時間通道中的時間變換器還使用從輸入視頻中選擇的多幀進行訓(xùn)練,以捕捉固有的運動模式。
通過部署經(jīng)過訓(xùn)練的時間LoRAs,基礎(chǔ)模型可以合成具有多樣外觀的學(xué)習(xí)運動的視頻。這種雙通道架構(gòu)使模型能夠分別學(xué)習(xí)視頻中物體的外觀和運動,從而使MotionDirector能夠隔離視頻的外觀和運動,然后從不同的源視頻中進行組合。
研究人員通過在多個基準數(shù)據(jù)上比較MotionDirector的性能,包括80多種不同的運動和600個文本提示。在UCF體育動作基準測試中,MotionDirector被人工評定者約75%的時間選擇,以獲得更好的運動保真度,該方法還勝過了25%的基準模型的首選項。
在第二個基準測試中,即LOVEU-TGVE-2023基準測試中,MotionDirector表現(xiàn)優(yōu)于其他可控生成和調(diào)整方法。這些結(jié)果表明,MotionDirector可以定制多個基礎(chǔ)模型,以生成具有多樣性和所需運動概念的視頻。
總之,MotionDirector是一種有潛力的新方法,可用于調(diào)整文本到視頻傳播模型,以生成具有特定運動的視頻。它在學(xué)習(xí)和適應(yīng)物體和攝像機的特定運動方面表現(xiàn)出色,并可以用于生成具有各種視覺風(fēng)格的視頻。
盡管在學(xué)習(xí)參考視頻中多個主體的運動方面仍有改進空間,但即便存在這些限制,MotionDirector仍有潛力增強視頻生成的靈活性,使用戶能夠制作符合其需求的定制視頻。
(舉報)