今天小編(賁芳蕤)要和大家分享的是Llama都在用的RoPE有了視頻版,復旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔,歡迎閲讀~
Llama 都在用的 RoPE(旋轉位置嵌入)被擴展到視頻領網域,長視頻理解和檢索更強了。
復旦大學、上海 AI 實驗室等提出VideoRoPE,并确定了将 RoPE 有效應用于視頻所需的四個關鍵特性。
在長視頻檢索、視頻理解和視頻幻覺等各種下遊任務中,VideoRoPE 始終優于先前的 RoPE 變體。
用三維結構保留時空關系
RoPE 是一種能夠将相對位置信息依賴集成到 self-attention 中并提升 transformer 架構性能的位置編碼方式。
RoPE 及其變體因其長上下文處理能力而被廣泛采用,但将一維 RoPE 擴展到具有復雜時空結構的視頻領網域仍然是一個懸而未決的挑戰。
作為分析的一部分,這項工作引入了一個具有挑戰性的 V-NIAH-D(帶幹擾項的視覺大海撈針)任務,該任務在 V-NIAH 任務的基礎上增加了周期性幹擾項。
V-NIAH-D 任務表明,先前缺乏适當時間維度分配的 RoPE 變體很容易被幹擾項誤導。基于分析,作者提出了 VideoRoPE,它具有三維結構,旨在保留時空關系。
VideoRoPE 的特點包括低頻時間分配以減輕周期性碰撞、對角布局以保持空間對稱性,以及可調整的時間間隔以解耦時間和空間索引。
左圖:為了展示頻率分配的重要性,基于 VIAH(a),作者提出了一個更具挑戰性的 V-NIAH-D 任務(b),其中插入了相似影像作為幹擾項。
右圖:與 M-RoPE 相比,VideoRoPE 在檢索中更具魯棒性,并且不容易受到幹擾項的影響。
上圖:M-RoPE 的時間維度局限于局部信息,導致對角線布局。
下圖:VideoRoPE 有效利用時間維度進行檢索。
M-RoPE 在定位目标影像上有效,但在多選問題中表現不佳,因為它主要通過垂直位置編碼來定位影像,而非時間特征,導致時間維度未能捕捉長距離依賴關系,關注局部信息。相比之下,空間維度則捕捉長距離語義信息,導致 M-RoPE 在頻率分配設計上表現較差。
VideoRoPE 設計
作者團隊提出了 VideoRoPE,一種視頻位置嵌入策略,優先考慮時間建模,通過低頻時間分配(LTA)減少振蕩并确保魯棒性。它采用對角線布局(DL)以保持空間對稱性,并引入可調時間間隔(ATS)來控制時間間隔。VideoRoPE 有效地建模了時空信息,從而實現了魯棒的視頻位置表示。
1、低頻時間分配(LTA):
考慮一個基于 RoPE 的 LLM,頭部維度為 128,對應 64 個旋轉角度 θ n,分布在不同維度上。每個圖示中,用平行的藍色平面表示 cos ( θ nt ) 在 3 維上的表現。
(a)對于 M-RoPE,時間依賴性由前 16 個高頻旋轉角度建模,導致振蕩和位置信息失真。低維度間隔較短,振蕩周期性使得遠距離位置可能具有相似信息,類似哈希碰撞(如紅色平面所示),容易引發幹擾,誤導模型。
(b)相比之下,VideoRoPE 通過最後 16 個旋轉角度建模時間依賴性,具有更寬的單調間隔。時間建模不再受振蕩影響,顯著抑制了幹擾項的誤導效應。
2、對角線布局(DL):
原始 1D RoPE(Su et al., 2024)未包含空間建模。M-RoPE(Wang et al., 2024b)雖然采用 3D 結構,但引入了不同幀間視覺标記索引的差異。
相比之下,VideoRoPE 實現了平衡,保留了原始 RoPE 一致的索引增長模式,并引入了空間建模。優點包括:1)保留視覺标記的相對位置,避免文本标記過于接近角落;2)保持原始 RoPE 編碼形式,相鄰幀的空間位置信息增量與文本标記增量一致。
3、可調時間間隔(ATS):
為了縮放時間索引,作者團隊引入縮放因子 δ 來對齊視覺和文本标記之間的時間信息。假設 τ 為标記索引,起始文本(0 ≤ τ <Ts)的時間、水平和垂直索引為原始标記索引 τ。對于視頻輸入(Ts ≤ τ <Ts+Tv),τ − Ts 表示當前幀相對于視頻開始的索引,通過 δ 縮放控制時間間距。
對于結束文本(Ts+Tv ≤ τ <Ts+Tv+Te),時間、水平和垂直索引保持不變,形成線性進展。根據可調節的時間間距設計,視頻位置編碼(VideoRoPE)中 τ -th 文本标記或(τ ,w,h)-th 視覺标記的位置信息(t,x,y)如式(7)所示。
其中,w 和 h 分别表示視覺塊在幀中的水平和垂直索引。
相鄰文本标記的位置信息嵌入對于 Vanilla RoPE(頂部行)、相鄰幀中對應的視覺标記對于 M-RoPE(中間行)以及我們設計的帶有交錯水平垂直排布和時間維度放後面設計的 VideoRoPE(底部行)。
優于其他 RoPE 變體
長視頻檢索任務:
作者團隊展示了 VideoRoPE 與其他 RoPE 變體在 V-NIAH 和 V-NIAH-D 上的性能。V-NIAH-D 比 V-NIAH 更具挑戰性。Vanilla RoPE 和 TAD-RoPE 在視覺訓練上下文外具備一定外推能力,但超出極限後失效。相比之下,VideoRoPE 和 M-RoPE 在測試上下文内表現優越,且 VideoRoPE 始終優于 M-RoPE,展現出更強魯棒性。
長視頻理解任務:
如表所示,作者團隊在三個長視頻理解基準上比較了 VideoRoPE 與現有 RoPE 變體(Vanilla RoPE、TAD-RoPE 和 M-RoPE)。VideoRoPE 在這些基準上優于所有基線方法,展示了其魯棒性和适應性。在 LongVideoBench、MLVU 和 Video-MME 上,VideoRoPE 在 64k 上下文長度下分别比 M-RoPE 提高了 2.91、4.46 和 1.66 分,突顯了其在捕捉長距離依賴關系和處理具有挑戰性的視頻任務中的卓越能力。
視頻幻覺任務:
在 VideoHallucer 基準測試中,作者團隊的 VideoRoPE 顯著優于現有 RoPE 方法。特别是在時間幻覺任務中,VideoRoPE 提升了 29.5%,展示了更強的時間依賴關系捕捉能力,适合處理動态視頻序列。在空間方面,VideoRoPE 在對象 - 關系幻覺任務中提升了 18.0%,突顯了其辨識復雜空間互動的能力。這些結果強調了 VideoRoPE 在視頻幻覺問題上的魯棒性和實際應用潛力。
總結
本文确定了有效位置編碼的四個關鍵标準:2D/3D 結構、頻率分配、空間對稱性和時間索引縮放。通過 V-NIAH-D 任務,作者展示了先前 RoPE 變體因缺乏适當的時間分配而易受幹擾。
因此,提出了 VideoRoPE,采用 3D 結構保持時空一致性,低頻時間分配減少振蕩,對角布局實現空間對稱性,并引入可調節時間間距。VideoRoPE 在長視頻檢索、視頻理解和視頻幻覺任務中優于其他 RoPE 變體。
Paper:https://arxiv.org/pdf/2502.05173
Project Page:https://wiselnn570.github.io/VideoRoPE/
Code:https://github.com/Wiselnn570/VideoRoPE/
— 完 —
投稿請工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
關于Llama都在用的RoPE有了視頻版,復旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔就分享完了,您有什麼想法可以聯系小編(賁芳蕤)。