高马尔
一个信息发布的网站

AI危险检测再进化!三层级解析长视频异常,各种时序粒度均有明显优势

今天小编(衛青柏)要和大家分享的是AI危险检测再进化!三层级解析长视频异常,各种时序粒度均有明显优势,欢迎阅读~

多模态视频异常理解任务,又有新突破!

" 异常理解 " 是指在视频监控、自动驾驶等场景中,利用模型发现视频中的异常内容,从而预判危险,以便及时做出决策。

来自华中科大等机构的研究人员,提出了新的视频异常理解模型 Holmes-VAU,以及相关数据集。

与通用多模态大模型对比,Holmes-VAU 在各种时序粒度的视频异常理解上都展现出显著优势。

为了实现开放世界的多模态视频异常理解(VAU),已有的 VAU benchmark 只有短视频的 caption 标注或长视频的 instruction 标注,忽略了视频异常事件的时序复杂性。

为同时促进模型对短视频的感知能力和对长视频的推理能力,作者提出了一种高效半自动数据引擎并构建了 HIVAU-70k 数据集,包含超 7 万视频异常理解任务的多时序尺度指令数据。

同时作者提出了一种基于异常分数的时序采样器,从长视频中动态稀疏采样关键帧到后续多模态大模型中,显著提升了异常分析的准确性和推理效率。

多层级视频异常理解指令数据集

针对视频异常理解任务 ( Video Anomaly Understanding ) ,以往的一些异常视频指令数据集主要有两方面问题:

数据集中的视频时长较短,导致模型缺乏对长视频的异常理解能力;

即便包含长视频,也缺乏对长视频的细粒度和结构化的标注,导致模型的异常理解空间难以对齐。

为此,作者提出了一个大型多模态指令数据集 HIVAU-70k,其中包含多种时间粒度的视频异常标注,由粗到细分别为:

video-level:未裁剪长视频,包括视频中所有异常事件的文本描述分析;

event-level:从长视频中裁剪出的异常事件片段,包括单个异常事件的文本描述分析;

clip-level:从 event 中进一步裁剪出的视频片段,包括视频片段的文本描述。

HIVAU-70k 中的指令数据包括视频描述、异常判断、异常描述和异常分析等任务,为视频异常理解多模态大模型提供了丰富多样的数据来源。

这样的多层级指令数据集是怎么构造的呢?从一个未裁剪的长视频开始,需要依次经过以下三个步骤:

分层视频解耦(Hierarchical Video Decoupling):将 video-level 视频中的异常事件标注并裁剪出来,得到 event-level 视频 , 再对 event-level 视频进一步平均切分得到 clip-level 视频;

分层自由文本注释(Hierarchical Free-text Annotation):对于 clip-level 视频,使用人工或 caption model 得到 clip caption;对于 event-level 视频,结合所包含的 clip-level caption 和异常类别,提示 LLM 得到事件总结;对于 video-level 视频,结合所包含的事件总结和异常类别,提示 LLM 得到视频总结;

层次化指令数据构建(Hierarchical Instruction Data Construction):针对不同层级的视频及其文本标注,设计不同的任务,构造任务相关的问题并与文本注释组合,得到最终的指令数据。

与其他相关的数据集相比,HIVAU-70k 不仅有数量上的优势,还提供了多粒度的文本标注以及时序上的异常边界标注。

动态稀疏采样的视频异常理解模型

长视频异常理解在使用大型语言模型(LLMs)或视觉语言模型(VLMs)时,常因帧冗余问题而受到限制,导致异常检测的准确性变得复杂。

以往的 VAU(视频异常理解)方法难以聚焦异常。

例如,密集視窗采样方法会增加大量冗余帧的计算量,而均匀帧采样方法常常错过关键异常帧,使其应用范围局限于短视频。

为此,作者提出了 Anomaly-focused Temporal Sampler ( ATS ) ,并将其集成到 VLM 中,通过在 HIVAU-70k 上的指令微调,构建了 Holmes-VAU 模型。

异常帧通常比正常帧包含更多信息,并表现出更大的变化,基于这一观察,作者设计了一种采样策略,在异常分数较高的区網域采样更多帧,同时在分数较低的区網域减少采样。

为实现非均匀采样,作者提出了一种 " 密度感知采样器 "(density-aware sampler),用于从总共 T 个输入帧中选择 N 个帧。

具体来说,作者将异常分数 S 视为概率质量函数,并首先沿时间维度累积它们,得到累积分布函数(CDF),记为 S_cumsum:

接着,在累积轴上均匀采样 N 个点,并将这些点映射到累积分布 S_cumsum 上。相应的时间轴上的 N 个时间戳会被映射到最接近的帧索引,最终形成采样的帧索引集合 G。

Holmes-VAU 模型框架图

下入展示了测试集上的异常分数和采样帧的可视化结果。这些结果表明了 ATS 的准确异常检测能力,最终输入到多模态大模型的采样帧也集中于异常区網域。

Anomly-focused Temporal Sampler ( ATS ) 异常分数及采样帧示意图实验结果异常推理性能评估

作者在 HIVAU-70k 的测试集上,将模型输出的推理文本与注释的真实文本进行比较,计算了包括 BLEU、CIDEr、METEOR 和 ROUGE 等指标来衡量模型输出的异常理解文本质量。

与通用多模态大模型对比,Holmes-VAU 在各种时序粒度的视频异常理解上都展现出显著优势。

在多层级标注中,对不同层级指令数据集的组合,可以观察发现,单一层级的标注只能提升单一层级任务的性能。

不同层级的标注组合可以相互补充,实现从 clip-level 的基础视觉感知 , 到 event-level 单一异常事件的分析,再到 video-level 的长时序异常总结和推理等方面的全面提升,达到更细粒度和完整的多模态异常空间对齐。

对于非均匀采样器的作用,作者也对比了不同帧采样方式,包括本文提出的 ATS、之前方法用的 Top-K 采样和 Uniform 采样。

结果表明在相同的采样帧数下,ATS 展现出更优越的长视频异常理解能力,这是由于 Top-K 采样过于集中在异常帧,忽略了视频上下文的参考,Uniform 采样则容易忽略关键的异常帧。

而作者提出的 ATS 则有效结合了这两者的优势,关注异常帧的同时,能够保留部分上下文帧的采样。

定性比较

下图对比了 Holmes-VAU 和其他 MLLM 输出的异常分析文本,Holmes-VAU 表现出更准确的异常判断和分析能力,同时对长视频也表现出更完整的异常总结能力。

Holmes-VAU 和其他 MLLM 的异常分析文本质量对比

论文:

https://arxiv.org/abs/2412.06171

代码:

https://github.com/pipixin321/HolmesVAU

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点亮星标

科技前沿进展每日见

关于AI危险检测再进化!三层级解析长视频异常,各种时序粒度均有明显优势就分享完了,您有什么想法可以联系小编(衛青柏)。