高馬爾
一個信息發佈的網站

AI視頻是否符合物理規律,量化基準來了,實現人類感知對齊

今天小編(集玲琳)要和大家分享的是AI視頻是否符合物理規律,量化基準來了,實現人類感知對齊,歡迎閱讀~

測一測現有 AI 生成視頻是否符合物理運動規律!

來自阿裡 - 高德、中科院的研究人員提出一個面向感知對齊的視頻運動生成基準

名為VMBench,是首個開源的運動質量評測基準,通過整合運動評估指标與人類感知對齊的評測方法,揭示現有模型在生成物理合理運動方面的不足。

圖 1 VMBench 的整體結構

新基準測試涵蓋了六種主要的運動模式類别,每個提示都構建為圍繞三個核心組件(主體、地點和動作)的綜合運動。

作者提出了一種新穎的多維視頻運動評估方法,包含五個源自感知偏好的以人類為中心的質量指标。利用由流行的 T2V 模型生成的視頻進行了系統的人類評估,以驗證其指标在捕捉人類感知偏好的有效性。

總體而言,VMBench 具有以下幾大優勢:

基于感知的運動評估指标:作者從人類感知的角度出發,設計了五個核心維度,并據此制定精細化的評估指标,從而更深入地分析模型在運動質量上的優勢與不足。

基于元信息的運動提示生成:作者提出一種結構化的方法,通過提取元信息、利用 LLM 生成多樣化的運動提示,并結合人機協同驗證進行優化,最終構建了涵蓋六大動态場景維度的分層提示庫

人類感知對齊的驗證機制:作者提供人類偏好标注來驗證基準的有效性,實驗結果表明,其評估指标相較于基線方法,在 Spearman 相關性上平均提升 35.3%。這是首次從人類感知對齊的角度對視頻運動質量進行評估。

此外,團隊已将 VMBench 代碼及相關資源開源至 GitHub。

以下是更多細節。

感知對齊的評估體系

視頻動态生成的評估面臨兩大核心挑戰:

現有指标未能充分對齊人類感知,且評測提示的多樣性有限,導致模型動态生成潛力未被充分探索。

為此,團隊提出 VMBench ——首個融合感知對齊指标與多樣化動态類型的視頻運動評測基準。

人類觀察視頻時,首先基于先驗經驗和物理規律構建場景的整體理解,随後選擇性關注運動物體的平滑性與時序一致性(尤其在遮擋場景)。

受此分層感知機制啟發(圖 2),PMM 設計了從全局到局部的五維評估體系:

圖 2 用于評估視頻運動的指标框架

上圖框架靈感源自人類對視頻中運動感知的機制。(a)人類對視頻中運動的感知主要涵蓋兩個維度:運動的綜合分析和運動細節的捕捉。(b)作者提出的用于評估視頻運動的指标框架。

具體而言,MSS 和 CAS 對應于人類對運動的綜合分析過程,而 OIS、PAS 和 TCS 則對應于運動細節的捕捉。

1、常識遵守性評分(CAS)

通過構建多層級分類模型量化視頻内容是否符合物理規律。

具體流程包括:

首先從主流生成模型中收集 10,000 個視頻構建數據集,結合 VideoReward 模型對視頻質量進行五級分類(Bad 到 Perfect);随後采用 VideoMAEv2 架構的時空建模網絡預測視頻的常識合理性概率分布,最終通過加權平均各類别概率得出綜合評分。

該指标解決了傳統方法對物理規律違反(如物體反重力運動)的漏檢問題。

2、運動平滑度評分(MSS)

針對傳統光流法對視覺感知不敏感的問題,提出場景自适應的質量驟降檢測機制。

基于 Q-Align 美學評分模型,分析相鄰幀間的質量降低幅度,當超過動态阈值(通過 Kinetics 等真實視頻統計建模獲得)時判定為異常幀。

最終以異常幀占比的補數作為平滑度得分,有效捕捉人類敏感的低幀率卡頓和高動态模糊。

3、對象完整性評分(OIS)

為檢測運動中的非自然形變(如人體關節錯位),基于 MMPose 提取關鍵點軌迹,結合解剖學約束規則(如四肢長度比例容差)分析形狀穩定性。

通過統計自然運動數據集設定各部位形變阈值,計算所有幀中符合解剖學約束的比例。

相比僅關注語義一致性的 DINO 方法,該指标更貼近人類對肢體協調性的敏感度。

4、可感知幅度評分(PAS)

通過多模态定位技術分離主動運動主體與背景位移。

首先用 GroundingDINO 鎖定語義主體,借助 GroundedSAM 生成時序穩定的實例掩膜,再通過 CoTracker 追蹤關鍵點位移軌迹。

結合場景類型(如機械運動 vs. 流體運動)設定感知敏感阈值,計算幀級位移幅度與阈值的歸一化比值。

該方法克服了傳統光流法因相機運動導致的幅度高估問題。

5、時間一致性評分(TCS)

針對物體異常消失 / 出現問題,提出軌迹驗證雙階段檢測。

第一階段用 GroundedSAM2 實現像素級實例分割與跨幀 ID 追蹤,記錄物體的可見狀态;第二階段通過 CoTracker 追蹤物體運動軌迹,構建連續性規則(如遮擋重現需滿足空間連貫性),過濾合法消失事件 / 出現(如移出畫面邊界)。

最終以異常消失實例占比的補數作為評分,相比 CLIP 特征相似度方法更加貼合人眼的視覺感知。

整體的評估流程如圖 3 所示。

圖 3 感知驅動的運動指标(PMM)框架。

PMM 包含多個評估指标:常識一致性得分(CAS)、運動平滑度得分(MSS)、物體完整性得分(OIS)、可感知幅度得分(PAS)以及時間連貫性得分(TCS)。

上圖(a-e)是每個指标的計算流程圖。

PMM 生成的得分呈現出與人類評估一致的變化趨勢,表明與人類感知高度契合。

元信息引導的 Prompt 自動生成

針對現有基準因提示類型單一而無法充分評估模型運動生成能力的問題,作者提出了元信息引導的 Prompt 生成框架(MMPG),通過結構化元信息提取與大語言模型協同優化,構建了目前覆蓋最廣、描述最細的運動提示庫,涵蓋六大動态場景維度(如生物運動、流體動态等)。

該框架包含以下核心步驟:

元信息結構化提取

作者将運動描述拆解為三個核心元信息要素:主體(Subject,S)、場景(Place,P)、動作(Action,A)。

基于現有視頻文本數據集,利用大語言模型(Qwen-2.5)構建包含數萬條元信息的數據庫,并通過多維度擴展策略提升多樣性:

主體擴展:分類為人類、動物、物體,結合目标檢測模型篩選可識别實體,并通過 GPT-4o 生成不同實體數量(單 / 多主體)的變體描述;

場景擴展:從 Places365 等數據集中提取多樣化場景,過濾重復或模糊的地理信息;

動作擴展:從動力學數據集中采樣真實動作,并通過 LLM 推理生成動物與物體的合理運動模式。

自優化提示生成與驗證

從元信息庫中随機組合三元組(S,P,A),利用 GPT-4o 評估其邏輯一致性,并通過迭代優化生成自然流暢的運動描述。

例如,将 " 人類(S)- 廚房(P)- 切菜(A)" 轉化為 " 一位廚師在現代化廚房中快速切菜,刀具與砧板碰撞發出規律聲響 "。

為提升物理合理性,作者引入雙階段過濾機制:

LLM 邏輯驗證:通過 Deepseek-R1 推理剔除違背物理規律或語義矛盾的描述(如 " 汽車在湖面飛行 ");

人機協同校驗:結合專家标注與自動化篩選,從 5 萬候選提示中精選 1,050 條高質量提示,确保覆蓋復雜互動(如多主體協作)、精細動作(如手指彈奏)及特殊場景(如微觀流體)。

構建提示詞的流程如圖 4 所示。

圖 4 元指導運動提示生成(MMPG)框架。

MMPG包含三個階段:

元信息提取:從 VidProM、Didemo、MSRVTT、WebVid、Place365 和 Kinect-700 等數據集中提取主體、場所和動作信息。

自優化提示生成:基于提取的信息生成提示,并通過迭代優化提示内容。

人類 -LLM 聯合驗證:通過人類與 DeepSeek-R1 的協作過程驗證提示的合理性。

作者用這樣的方式一共構建了 1050 條高質量的提示詞,其具體的統計如圖 5 所示。

圖 5 VMBench 中運動提示的統計分析

( a-h ) :從多個角度對 VMBench 中的提示進行統計分析。

這些分析展示了 VMBench 的全面評估範圍,涵蓋運動動态、信息多樣性以及對現實世界常識的符合度。

實驗實驗設定

研究基準測試對六個流行的文本生成視頻(Text-to-Video, T2V)模型進行評估,包括 OpenSora、CogVideoX、OpenSora-Plan、Mochi 1、HunyuanVideo 和 Wan2.1。

為了提供更豐富的運動類型,作者構建了 MMPG-set(Meta-Guided Motion Prompt Generation 數據集),該數據集涵蓋六種運動模式,共 1,050 個運動提示(prompts),用于評估模型的運動生成能力。

每個模型基于 MMPG-set 生成 1,050 個視頻,最終總計 6,300 個視頻。

為了保證公平比較,作者嚴格按照各模型官方項目的超參數設定進行實驗。每個提示詞(prompt)僅生成一段視頻,并且固定初始種子(seed)以保證可復現性。推理過程運行在 8 張 Nvidia H20 GPU 上。

此外,作者從每個模型的輸出結果中随機抽取 200 段視頻,共 1,200 段視頻,用于人類感知對齊驗證實驗(human-aligned validation experiments)。

以下是比較指标(Comparison Metrics)。

1 ) 基于規則的指标

基于規則的方法評估四個維度:

可感知動态幅度(Perceptible Amplitude):采用 RAFT 光流幅值分析 結合 結構運動一致性檢測(基于 4 幀 SSIM 平均值) 進行評估,遵循既定評測協定。

時間一致性(Temporal Coherence):使用 DINO 和 CLIP 特征跟蹤,通過計算 相鄰幀餘弦相似度 來衡量幀間一致性。

運動平滑度(Motion Smoothness):結合 插值誤差與 Dover 視頻質量評估的混合方法進行測量。

物體完整性(Object Integrity):通過 光流扭曲誤差(optical flow warping error)與 語義一致性檢查 進行雙重驗證。

2 ) 多模态大語言模型(MLLM)評估

團隊選取五個前沿的多模态大模型進行運動評測:

LLaVA-NEXT-Video

MiniCPM-V-2.6

InternVL2.5

Qwen2.5-VL

InternVideo2.5

這些模型的評估采用标準化流程,即對每個視頻以 2 幀 / 秒(fps)的采樣率進行處理,以保持運動模式完整性并控制計算成本。

MLLM 評估涵蓋五個關鍵維度:運動幅度(Amplitude)、時間一致性(Coherence)、物體完整性(Integrity)、運動平滑度(Smoothness)、常識性(Common-sense adherence)。

每個維度采用 1-5 分制進行評分。為保證公平性,在所有模型間保持 一致的幀序列與評估标準。

接下來是評估指标(Metrics)。

1 ) 斯皮爾曼相關系數(Spearman Correlation)

斯皮爾曼秩相關系數(Spearman ’ s Rank Correlation Coefficient, ρ)用于衡量兩個變量之間的單調關系。該方法是非參數統計方法,特别适用于變量不服從正态分布的數據集。

與 皮爾遜相關系數(Pearson Correlation)  不同,皮爾遜主要衡量線性關系,而 斯皮爾曼相關性關注基于排名的關聯性,因此對異常值(outliers)更加魯棒,并适用于有序數據(ordinal data)  或非線性依賴關系的場景。

2 ) 準确性(Accuracy)

為了驗證運動評估指标與人類偏好的一致性,作者在 1,200 段帶有人類标注的視頻(200 個提示 × 6 個模型)上進行了成對比較(pairwise comparisons)。

對于每個提示(prompt),作者比較所有 15 種可能的視頻對(由不同模型生成的 6 選 2 組合),最終得到 3,000 組視頻對進行評估。

人類偏好标注(ground truth)通過比較五個核心維度(OIS, MSS, CAS, TCS, PAS)下的平均專家評分确定。得分較高的視頻被認定為 " 偏好樣本 "(preferred sample)。

PMM 評估指标計算各視頻在相同标準下的綜合 PMM 評分,并基于此進行視頻對比。

一致性準确率(Alignment Accuracy)計算 PMM 偏好與人類标注結果一致的比率(不包括評分相同的樣本,以确保決策的明确性)。

這一過程确保本研究的評估指标能夠更好地對齊人類感知,并提供精确的運動質量評估方法。

實驗結果

人類感知對齊驗證機制(Human-Aligned Validation Mechanism)

作者邀請了三位領網域專家對每個樣本進行獨立标注,基于 PMM 評估标準,包括可感知動态幅度(Perceptible Amplitude, PAS)、時間一致性(Temporal Coherence, TCS)、物體完整性(Object Integrity, OIS)、運動平滑度(Motion Smoothness, MSS)和常識一致性(Commonsense Adherence, CAS)。

最終,共收集到 6,000 條詳細評分,并達到了高度的标注一致性(high inter-annotator agreement)。

為了評估評測指标與人類感知的一致性,作者計算了斯皮爾曼相關系數(Spearman Correlation),用于衡量評測指标分數與專家評分之間的對齊程度。較高的 Spearman 相關系數意味着更強的與人類感知的一致性。

與其他評測指标的比較(Comparison with Alternative Metrics)

表 1 基于斯皮爾曼相關系數(ρ × 100)的人類評分與評估指标之間的相關性分析

上标 * 和†分别表示遵循 VBench 和 EvalCrafter 的實現。在規則基(Rule-based)方法中,黃色背景表示特定維度的基線。

從表 1 可以看出,在運動平滑度(MSS)  評估方面,即便是先進的指标,如 AMT(18.1%)和 Warping Error(-19.1%),在面對復雜形變時仍然表現出有限的區分能力,并產生了違反直覺的評估結果。

在物體完整性(OIS)  評估中,也存在類似問題。例如,DINO 的對齊度僅為 27.4%,而 Dover 僅為 34.5%,二者都未能有效捕捉人類對運動中結構保持性的敏感度。

在可感知動态幅度(PAS)  評估中,基于規則的方法,如 SSIM 和 RAFT ,其人類對齊度分别僅為 17.8% 和 47.7%。

相比之下,本研究方法達到了 65.2% 的對齊度,表現出明顯優勢。對于時間一致性(TCS)評估,基于規則的指标,如 CLIP 和 DINO,其對齊度僅為 28.0% 和 27.4%,無法準确反映人類對輕微不一致性的容忍度,同時也未能維持物理合理性。

而本研究評測方法達到了 54.5% 的對齊度,大幅領先。

與現有基準(VBench 和 EvalCrafter)的比較

VBench 評測方法包含 RAFT、CLIP、DINO 和 AMT。

EvalCrafter 采用 Dover 技術評估和 Warping Error。

然而,從表中數據可以看出,與本研究方法相比,VBench 和 EvalCrafter 的運動評估指标與人類感知的相關性明顯較低,表明它們無法有效評估運動質量。

與多模态大語言模型(MLLMs)的比較

盡管多模态大模型(MLLMs)在物理适應性評分(PAS)方面表現出一定能力(例如 InternVideo2.5 取得 44.3%),但整體來看,MLLMs 在所有維度上的平均相關性僅為 10.0% - 30.0%。

這表明當前的 MLLMs 在運動質量評估方面存在根本性的不匹配(fundamental misalignment),難以準确對齊人類的感知标準。

消融實驗

運動評估指标的消融研究(Ablation Study of Motion Metrics)

表 2 本研究評價指标消融實驗計算了不同度量組合相對于人類偏好的預測準确率(%)

基于移除的消融實驗展示了單獨去除每個度量的影響,而基于添加的消融實驗則逐步加入各個度量,以觀察其影響。

根據表 2,去除任意單一指标 都會導致整體評估準确率顯著下降,凸顯出 每個評估維度 在整體框架中的重要性。

值得注意的是,去除 CAS(常識一致性,Commonsense Adherence, CAS)  指标後,準确率下降最為顯著,降至 64.1%,其影響超過其他單個維度的消融效果。

這表明 CAS 指标在評估視頻質量中的關鍵作用,并且高度契合人類在感知視頻質量時優先關注的關鍵因素。

對于面向性能優化的變體(performance-oriented variants),作者模拟人類的感知信息處理流程,通過逐步增加評估維度,結果顯示每新增一個評估維度,整體準确率均有顯著提升。

這一結果不僅驗證了增量評估方法的有效性,還進一步證明了本研究提出的評估框架與人類感知機制的一致性。

定性分析

PMM 評估與人類感知的一致性(Alignment of PMM with Human Perception)

圖 6 不同評估機制下指标的相關性矩陣分析

( a ) 人類标注的斯皮爾曼相關性矩陣; ( b ) PMM 指标的斯皮爾曼相關性矩陣。

如圖 6 所示,人類評分在五個評估維度(OIS、CAS、MSS、TCS、PAS)與 PMM 評估指标之間的相關性保持一致。

例如,OIS(物體完整性)、CAS(常識一致性)和 MSS(運動平滑度)之間存在較強的相關性,而 PAS(可感知動态幅度)與其它指标的相關性較弱。

具體來看:

圖 6 ( a ) 顯示,PAS 與其它維度呈負相關,例如與 OIS 的相關系數 ρ =-0.18。

可能的原因是,視頻中的高動态振幅(high dynamic amplitudes)會導致形變和偽影,進而降低結構完整性(OIS)和時間一致性(TCS)評分。

OIS 與 MSS 及 CAS 之間存在較強的正相關性,分别為 ρ =0.59 和 ρ =0.50,表明 OIS 能很好地反映物理合理性(physical plausibility)和運動合理性(motion rationality)。

TCS(時間一致性)與其它維度的相關性較低,表明該指标可提供更加獨立和全面的評估視角。

PAS 與結構 / 時間相關指标的負相關性挑戰了傳統基于光流(optical-flow-based)的視頻運動評估框架,突顯出在運動視頻評估中,單獨衡量運動幅度的重要性。

此外,圖 6 ( b ) 顯示,作者提出的評估指标相互關聯性符合人類感知特性,進一步驗證了 PMM 評估框架的合理性。

使用 PMM 評估視頻生成模型(Assessing Video Generation Models with PMM)

表 3 視頻生成模型在 VMBench 上的表現。

使用 VMBench 評估了六個開源視頻生成模型。分數越高表示該類别的性能越優。

如表 3 所示,作者使用 PMM 評估指标對多個領先的視頻生成模型進行了評測,包括 Mochi 1、OpenSora、CogVideoX、OpenSora-Plan、HunyuanVideo 和 Wan2.1。

評測結果表明,Wan2.1 在運動視頻生成方面表現最佳,其生成的視頻在視覺真實性(realism)方面優于其它模型。‍

論文鏈接:https://arxiv.org/pdf/2503.10076

代碼倉庫鏈接:https://github.com/GD-AIGC/VMBench

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—    —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

  點亮星标

科技前沿進展每日見

關于AI視頻是否符合物理規律,量化基準來了,實現人類感知對齊就分享完了,您有什麼想法可以聯系小編(集玲琳)。