今天小编(賁芳蕤)要和大家分享的是Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档,欢迎阅读~
Llama 都在用的 RoPE(旋转位置嵌入)被扩展到视频领網域,长视频理解和检索更强了。
复旦大学、上海 AI 实验室等提出VideoRoPE,并确定了将 RoPE 有效应用于视频所需的四个关键特性。
在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE 始终优于先前的 RoPE 变体。
用三维结构保留时空关系
RoPE 是一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。
RoPE 及其变体因其长上下文处理能力而被广泛采用,但将一维 RoPE 扩展到具有复杂时空结构的视频领網域仍然是一个悬而未决的挑战。
作为分析的一部分,这项工作引入了一个具有挑战性的 V-NIAH-D(带干扰项的视觉大海捞针)任务,该任务在 V-NIAH 任务的基础上增加了周期性干扰项。
V-NIAH-D 任务表明,先前缺乏适当时间维度分配的 RoPE 变体很容易被干扰项误导。基于分析,作者提出了 VideoRoPE,它具有三维结构,旨在保留时空关系。
VideoRoPE 的特点包括低频时间分配以减轻周期性碰撞、对角布局以保持空间对称性,以及可调整的时间间隔以解耦时间和空间索引。
左图:为了展示频率分配的重要性,基于 VIAH(a),作者提出了一个更具挑战性的 V-NIAH-D 任务(b),其中插入了相似影像作为干扰项。
右图:与 M-RoPE 相比,VideoRoPE 在检索中更具鲁棒性,并且不容易受到干扰项的影响。
上图:M-RoPE 的时间维度局限于局部信息,导致对角线布局。
下图:VideoRoPE 有效利用时间维度进行检索。
M-RoPE 在定位目标影像上有效,但在多选问题中表现不佳,因为它主要通过垂直位置编码来定位影像,而非时间特征,导致时间维度未能捕捉长距离依赖关系,关注局部信息。相比之下,空间维度则捕捉长距离语义信息,导致 M-RoPE 在频率分配设计上表现较差。
VideoRoPE 设计
作者团队提出了 VideoRoPE,一种视频位置嵌入策略,优先考虑时间建模,通过低频时间分配(LTA)减少振荡并确保鲁棒性。它采用对角线布局(DL)以保持空间对称性,并引入可调时间间隔(ATS)来控制时间间隔。VideoRoPE 有效地建模了时空信息,从而实现了鲁棒的视频位置表示。
1、低频时间分配(LTA):
考虑一个基于 RoPE 的 LLM,头部维度为 128,对应 64 个旋转角度 θ n,分布在不同维度上。每个图示中,用平行的蓝色平面表示 cos ( θ nt ) 在 3 维上的表现。
(a)对于 M-RoPE,时间依赖性由前 16 个高频旋转角度建模,导致振荡和位置信息失真。低维度间隔较短,振荡周期性使得远距离位置可能具有相似信息,类似哈希碰撞(如红色平面所示),容易引发干扰,误导模型。
(b)相比之下,VideoRoPE 通过最后 16 个旋转角度建模时间依赖性,具有更宽的单调间隔。时间建模不再受振荡影响,显著抑制了干扰项的误导效应。
2、对角线布局(DL):
原始 1D RoPE(Su et al., 2024)未包含空间建模。M-RoPE(Wang et al., 2024b)虽然采用 3D 结构,但引入了不同帧间视觉标记索引的差异。
相比之下,VideoRoPE 实现了平衡,保留了原始 RoPE 一致的索引增长模式,并引入了空间建模。优点包括:1)保留视觉标记的相对位置,避免文本标记过于接近角落;2)保持原始 RoPE 编码形式,相邻帧的空间位置信息增量与文本标记增量一致。
3、可调时间间隔(ATS):
为了缩放时间索引,作者团队引入缩放因子 δ 来对齐视觉和文本标记之间的时间信息。假设 τ 为标记索引,起始文本(0 ≤ τ <Ts)的时间、水平和垂直索引为原始标记索引 τ。对于视频输入(Ts ≤ τ <Ts+Tv),τ − Ts 表示当前帧相对于视频开始的索引,通过 δ 缩放控制时间间距。
对于结束文本(Ts+Tv ≤ τ <Ts+Tv+Te),时间、水平和垂直索引保持不变,形成线性进展。根据可调节的时间间距设计,视频位置编码(VideoRoPE)中 τ -th 文本标记或(τ ,w,h)-th 视觉标记的位置信息(t,x,y)如式(7)所示。
其中,w 和 h 分别表示视觉块在帧中的水平和垂直索引。
相邻文本标记的位置信息嵌入对于 Vanilla RoPE(顶部行)、相邻帧中对应的视觉标记对于 M-RoPE(中间行)以及我们设计的带有交错水平垂直排布和时间维度放后面设计的 VideoRoPE(底部行)。
优于其他 RoPE 变体
长视频检索任务:
作者团队展示了 VideoRoPE 与其他 RoPE 变体在 V-NIAH 和 V-NIAH-D 上的性能。V-NIAH-D 比 V-NIAH 更具挑战性。Vanilla RoPE 和 TAD-RoPE 在视觉训练上下文外具备一定外推能力,但超出极限后失效。相比之下,VideoRoPE 和 M-RoPE 在测试上下文内表现优越,且 VideoRoPE 始终优于 M-RoPE,展现出更强鲁棒性。
长视频理解任务:
如表所示,作者团队在三个长视频理解基准上比较了 VideoRoPE 与现有 RoPE 变体(Vanilla RoPE、TAD-RoPE 和 M-RoPE)。VideoRoPE 在这些基准上优于所有基线方法,展示了其鲁棒性和适应性。在 LongVideoBench、MLVU 和 Video-MME 上,VideoRoPE 在 64k 上下文长度下分别比 M-RoPE 提高了 2.91、4.46 和 1.66 分,突显了其在捕捉长距离依赖关系和处理具有挑战性的视频任务中的卓越能力。
视频幻觉任务:
在 VideoHallucer 基准测试中,作者团队的 VideoRoPE 显著优于现有 RoPE 方法。特别是在时间幻觉任务中,VideoRoPE 提升了 29.5%,展示了更强的时间依赖关系捕捉能力,适合处理动态视频序列。在空间方面,VideoRoPE 在对象 - 关系幻觉任务中提升了 18.0%,突显了其辨识复杂空间互動的能力。这些结果强调了 VideoRoPE 在视频幻觉问题上的鲁棒性和实际应用潜力。
总结
本文确定了有效位置编码的四个关键标准:2D/3D 结构、频率分配、空间对称性和时间索引缩放。通过 V-NIAH-D 任务,作者展示了先前 RoPE 变体因缺乏适当的时间分配而易受干扰。
因此,提出了 VideoRoPE,采用 3D 结构保持时空一致性,低频时间分配减少振荡,对角布局实现空间对称性,并引入可调节时间间距。VideoRoPE 在长视频检索、视频理解和视频幻觉任务中优于其他 RoPE 变体。
Paper:https://arxiv.org/pdf/2502.05173
Project Page:https://wiselnn570.github.io/VideoRoPE/
Code:https://github.com/Wiselnn570/VideoRoPE/
— 完 —
投稿请工作日发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
关于Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档就分享完了,您有什么想法可以联系小编(賁芳蕤)。