11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵?lái)騰訊云選購(gòu)吧!
微軟最近發(fā)布了DragNUWA1.5版本,這個(gè)新版本的功能讓用戶在通過(guò)圖像生成視頻之前,能夠在圖像上畫(huà)出對(duì)應(yīng)方向的箭頭標(biāo)記。如果你標(biāo)記的不是具體的物體,鏡頭就會(huì)按照你標(biāo)記的方向運(yùn)動(dòng)。設(shè)置完成后,用戶可以使用pythonDragNUWA_demo.py命令啟動(dòng)Gradio演示,從能夠拖動(dòng)圖像并實(shí)時(shí)觀察其動(dòng)畫(huà)效果。
微軟提出文本圖像軌跡條件視頻生成模型DragNUWA,支持手繪軌跡驅(qū)動(dòng)圖像動(dòng)態(tài)化,實(shí)現(xiàn)復(fù)雜運(yùn)動(dòng)及場(chǎng)景控制。微軟開(kāi)發(fā)的視頻生成模型DragNUWA讓清明上河圖動(dòng)起來(lái)了!只要用拖動(dòng)的方式給出運(yùn)動(dòng)軌跡,DragNUWA就能讓圖像中的物體對(duì)象按照該軌跡移動(dòng)位置并生成連貫的視頻。他被評(píng)為中國(guó)計(jì)算機(jī)協(xié)會(huì)杰出會(huì)員、CCF-NLPCC青年科學(xué)家、DeepTech中國(guó)智能計(jì)算科技創(chuàng)新人物。
隨著ChatGPT、GPT-4、LLaMa等模型的問(wèn)世,人們?cè)絹?lái)越關(guān)注生成式模型的發(fā)展。相比于日漸成熟的文本生成和圖像生成,視頻、語(yǔ)音等模態(tài)的AI生成還面臨著較大的挑戰(zhàn)。下圖6通過(guò)展示文本、軌跡和圖像的不同組合說(shuō)明了這些控制條件的必要性。
DragNUWA是一種基于擴(kuò)散算法的視頻生成模型,DragNUWA模型旨在解決視頻生成中的精細(xì)控制問(wèn)題。該模型通過(guò)引入文本、圖像和軌跡信息,并從語(yǔ)義、空間和時(shí)間角度提供精細(xì)控制。該模型在實(shí)驗(yàn)中展現(xiàn)出優(yōu)越的細(xì)粒度控制性能。