軌迹可控視頻生成新範式，復旦微軟破解視頻生成難題，精準控制任意物體運動

今天小編(佼昌翰)要和大家分享的是軌迹可控視頻生成新範式，復旦微軟破解視頻生成難題，精準控制任意物體運動,歡迎閱讀~

軌迹可控的視頻生成來了，支持三種不同級别的軌迹控制條件——分别為掩碼、邊界框和稀疏框。

近年來，視頻生成技術快速發展 , 顯著提升了視頻的視覺質量與時間連貫性。在此基礎上，（trajectory-controllable video generation）湧現了許多工作，使得通過明确定義的路徑精确控制生成視頻中的物體運動軌迹成為可能。

然而，現有方法在處理復雜的物體運動軌迹和多物體軌迹控制方面仍面臨挑戰，導致生成的視頻物體移動軌迹不夠精确，或者整體視覺質量較低。此外，這些方法通常僅支持單一格式的軌迹控制，限制了其在不同應用場景中的靈活性。不僅如此，目前尚無專門針對軌迹可控視頻生成的公開數據集或評價基準，阻礙了該領網域的更進一步的深入研究與系統性評估。

為了解決這些挑戰，研究人員提出了 MagicMotion，一種創新的影像到視頻生成框架，共同第一作者為復旦大學研究生李全昊、邢桢，通訊作者為復旦大學吳祖煊副教授。

在給定一張輸入影像和對應物體軌迹的情況下，MagicMotion 能夠精準地控制物體沿着指定軌迹運動，同時保持視頻的視覺質量。

此外，本文構建了 MagicData，一個大規模的軌迹控制視頻數據集，并配備了一套自動化的标注與篩選流程，以提升數據質量和處理效率。

本文還引入了 MagicBench，一個專為軌迹控制視頻生成設計的綜合評測基準，旨在評估在控制不同數量物體運動情況下的視頻質量及軌迹控制精度。

大量實驗表明，MagicMotion 在多個關鍵指标上均超越現有方法，展現出卓越的性能。

方法介紹

MagicMotion 基于 CogVideoX5B-I2V 這一影像到視頻生成模型，并引入了額外的軌迹控制網絡（Trajectory ControlNet）。該設計能夠高效地将不同類型的軌迹信息編碼到視頻生成模型中，實現軌迹可控的視頻生成。如圖所示，本文使用 3D VAE 編碼器将軌迹圖編碼到隐空間，然後将其與編碼後的視頻拼接，作為軌迹控制網絡的輸入。軌迹控制網絡由所有預訓練的 DiT 模塊的可訓練副本構建而成，用于編碼用戶提供的軌迹信息。每個軌迹控制網絡模塊的輸出随後會通過一個零初始化的卷積層進行處理，并添加到基礎模型中對應的 DiT 模塊，以提供軌迹引導。

MagicMotion 采用了從密集軌迹控制到稀疏軌迹控制的漸進式訓練過程，其中每個階段都用前一階段的權重來初始化其模型。這使得能夠實現從密集到稀疏的三種類型的軌迹控制。本文發現，與使用稀疏條件從頭開始訓練相比，這種漸進式訓練策略有助于模型取得更好的性能。具體來說，本文在各個階段采用以下軌迹條件：階段 1 使用分割掩碼，階段 2 使用邊界框，階段 3 使用稀疏邊界框，其中少于 10 幀有邊界框标注。此外，本文總是将軌迹條件的第一幀設定為分割掩碼，以指定應該移動的前景對象。

此外，MagicMotion 還提出了隐分割損失（latent segment loss），它在模型訓練過程中引入分割掩碼信息，增強了模型對物體細粒度形狀的感知能力。研究者使用輕量級分割頭直接在隐空間中預測出分割掩碼，從而在引入極小計算開銷的情況下，無需進行解碼操作，幫助模型在生成視頻的同時在潛在空間中執行物體分割任務，從而更好地理解物體的細粒度形狀。

研究者還提出了一個全新的自動數據處理流程，包括兩個主要階段：數據整理流程（Curation Pipeline）和數據篩選流程（Filtering Pipeline）。數據整理流程負責從大規模的視頻 - 文本數據集中構造軌迹信息，而數據篩選流程則确保在訓練前移除不适合的視頻。

實驗與結果

MagicMotion 的每個階段都在 MagicData 上訓練一個輪次。訓練過程包括三個階段。階段 1 從零開始訓練軌迹控制網絡（Trajectory ControlNet）。在階段 2 中，使用階段 1 的權重進一步優化軌迹控制網絡（Trajectory ControlNet），同時從零開始訓練分割頭（Segment Head）。最後，在階段 3 中，軌迹控制網絡（Trajectory ControlNet）和分割頭（Segment Head）都使用階段 2 的權重繼續訓練。研究者采用 AdamW 作為優化器，所有訓練實驗均在 4 張 NVIDIA A100-80G GPU 上進行，學習率設為 1e-5。

研究者将 MagicMotion 與 7 種流行的軌迹可控影像到視頻（I2V）方法進行了對比，在 MagicBench 和 DAVIS 上對所有方法進行評估。

結果如下表所示，MagicMotion 在 MagicBench 和 DAVIS 上的所有指标上都優于以往的所有方法，這表明它能夠生成更高質量的視頻并實現更精确的軌迹控制。

此外，本文根據受控對象的數量評估了每種方法在 MagicBench 上的性能。如下圖所示，MagicMotion 方法在所有受控物體數量的類别中都取得了最佳結果，進一步證明了該方法的優越性。

定性對比結果

如下圖所示，Tora 能夠精準控制運動軌迹，但難以精确保持物體的形狀。DragAnything 、ImageConductor 和 MotionI2V 在保持主體一致性方面存在困難，導致後續幀中出現明顯的形變。同時，DragNUWA、LeviTor 和 SG-I2V 生成的結果經常出現視頻質量底下和細節不一致的問題。相比之下，MagicMotion 能夠使移動的物體平滑地沿指定軌迹運動，同時保持高質量的視頻生成效果。

論文地址：https://arxiv.org/abs/2503.16421

論文主頁：https://quanhaol.github.io/magicmotion-site/

代碼鏈接：https://github.com/quanhaol/MagicMotion

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請于工作日發郵件到：

ai@qbitai.com

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點亮星标

科技前沿進展每日見

關于軌迹可控視頻生成新範式，復旦微軟破解視頻生成難題，精準控制任意物體運動就分享完了，您有什麼想法可以聯系小編(佼昌翰)。

相關推薦