達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA

今天小編(惠惠君)要和大家分享的是達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA,歡迎閲讀~

7B 大小的視頻理解模型中的新 SOTA，來了！

它就是由達摩院出品的Video LLaMA 3，以影像為中心構建的新一代多模态視頻 - 語言模型。

在通用視頻理解、時間推理和長視頻理解三個核心維度進行評估的過程中，VideoLLaMA 3 均取得優異成績，超越多數基線模型。

不僅如此，适用于端側的2B大小的 Video LLaMA 3，在影像理解上的表現也是較為出色。

在涵蓋文檔 / 圖表 / 場景文本理解、數學推理、多影像理解和常識問答等多個維度的基準測試，如在 InfoVQA 中超越之前最好成績，在 MathVista 數學推理任務上優勢明顯。

VideoLLaMA 3 以圖片為中心的設計理念貫穿于整個模型架構和訓練過程。

通過高質量的圖片文本數據為視頻理解打下堅實基礎，僅使用3M視頻文本數據，實現全面超越同參數量開源模型的視頻理解能力。

在線可玩

目前，VideoLLaMA 3 已經在 HuggingFace 上提供了影像、視頻理解的 demo。

例如我們給一張《蒙娜麗莎的微笑》，并向 VideoLLaMA 3 提問：

Discuss the historical impact and the significance of this painting in the art world.

讨論這幅畫在藝術界的歷史影響和意義。

VideoLLaMA 3 的回答是這樣的：

《蒙娜麗莎》不僅是世界上最著名的畫作之一，也是藝術史上的重要作品。它創作于文藝復興時期，體現了該時期對人文主義的關注和古典學習的復興。列奧納多 · 達 · 芬奇的創新技術，如在色彩和色調之間進行柔和過渡的模糊手法，為這幅畫的神秘品質做出了貢獻。幾個世紀以來，《蒙娜麗莎》一直是一個迷人的主題，激發了無數的解釋和分析。它已成為西方文化的标志，象征着藝術成就的頂峰，象征着視覺藝術對跨越時間和文化的觀眾的持久魅力。

再來看下視頻理解的 demo，我們的問題是：

What is unusual in the video?

視頻中有什麼不尋常之處？

對此，VideoLLaMA 3 表示：

這段視頻的不同尋常之處在于，它展示了熊這種典型的野生動物，正在進行一種類似人類的活動，比如在桌子上吃壽司。

VideoLLaMA 3 回答可謂是非常簡約且精準了。

并且這個 demo 在 HuggingFace 上的操作也是極其簡單，只需上傳圖片或視頻，再提出你的問題即可。

怎麼做到的？

VideoLLaMA 3 的關鍵，在于它是一種以影像為中心的訓練範式。

這種範式主要包含四個關鍵内容：

視覺編碼器适配：讓視覺編碼器能處理動态分辨率影像，用不同場景影像提升其性能，使其能捕捉精細視覺細節。

視覺語言對齊：用豐富影像文本數據為多模态理解打基礎，利用多種數據增強空間推理能力，同時保留模型語言能力。

多任務微調：用影像文本問答數據和視頻字幕數據微調模型，提升其遵循自然語言指令和多模态理解能力，為視頻理解做準備。

視頻微調：增強模型視頻理解和問答能力，訓練數據包含多種視頻及影像、文本數據。

從框架設計來看，主要包含兩大内容。

首先是任意分辨率視覺标記化（AVT）。

這種方法突破了傳統固定分辨率限制，采用 2D - RoPE 替換絕對位置嵌入，讓視覺編碼器能處理不同分辨率影像和視頻，保留更多細節。

其次是差分幀剪枝器（DiffFP）。

針對視頻數據冗餘問題，通過比較相鄰幀像素空間的 1- 範數距離，修剪冗餘視頻标記，提高視頻處理效率，減少計算需求。

除了框架之外，高質量數據也對 VideoLLaMA 3 的性能起到了關鍵作用。

首先是高質量影像重新标注數據集 VL3Syn7M 的構建。

為給 VideoLLaMA 3 提供高質量訓練數據，團隊構建了包含 700 萬影像 - 字幕對的 VL3Syn7M 數據集。

Aspect Ratio Filtering（長寬比過濾）：影像長寬比可能影響模型特征提取。像一些長寬比極端的影像，過寬或過長，會使模型在處理時產生偏差。通過過濾，确保數據集中影像長寬比處于典型範圍，為後續準确的特征提取奠定基礎。

Aesthetic Score Filtering（美學評分過濾）：利用美學評分模型評估影像視覺質量，舍棄低評分影像。這一步能去除視覺效果差、構圖不佳的影像，減少噪聲幹擾，保證模型學習到的影像内容和描述質量更高，進而提升模型生成優質描述的能力。

Text-Image Similarity Calculation with Coarse Captioning（帶粗略字幕的文本 - 影像相似度計算）：先用 BLIP2 模型為影像生成初始字幕，再借助 CLIP 模型計算文本 - 影像相似度，剔除相似度低的影像。這一操作确保剩餘影像内容與描述緊密相關，使模型學習到的圖文對更具可解釋性和代表性。

Visual Feature Clustering（視覺特征聚類）：運用 CLIP 視覺模型提取影像視覺特征，通過 k- 最近鄰（KNN）算法聚類，從每個聚類中心選取固定數量影像。這樣既保證數據集多樣性，又維持語義類别的平衡分布，讓模型接觸到各類視覺内容，增強其泛化能力。

Image Re - caption（影像重新标注）：對過濾和聚類後的影像重新标注。簡短字幕由 InternVL2-8B 生成，詳細字幕則由 InternVL2-26B 完成。不同階段訓練使用不同類型字幕，滿足模型多樣化學習需求。

其次是各訓練階段的數據混合。

在 VideoLLaMA 3 的不同訓練階段，數據混合策略為模型提供了豐富多樣的學習場景。此外，團隊使用統一的數據組織形式以統一各個階段的訓練。

Vision Encoder Adaptation（視覺編碼器适配）：此階段旨在增強模型對多樣場景的理解和特征提取能力，訓練數據融合場景影像、文檔識别影像和少量場景文本影像。

場景影像來源廣泛，像 VL3-Syn7M-short 等，其中 Object365 和 SA-1B 數據集的引入增加了數據多樣性；場景文本影像來自 BLIP3-OCR，其文本内容和簡短重新标注都作為字幕；文檔影像選取自 pdfa-eng-wds 和 idl-wds，文檔文本内容按閲讀順序作為影像字幕。

Vision-Language Alignment（視覺語言對齊）：該階段使用高質量數據微調模型，涵蓋場景影像、場景文本影像、文檔、圖表、細粒度數據以及大量高質量純文本數據。

場景影像整合多個數據集并重新标注；場景文本影像包含多種中英文數據集，并對 LAION 數據集中影像篩選形成 Laion-OCR 數據集，其字幕包含文本内容和文本位置的邊界框注釋。

文檔影像除常見數據集外，還加入手寫和復雜文檔數據集；圖表數據雖量少，但來自 Chart-to-Text 數據集；細粒度數據包含區網域字幕數據和帶框字幕數據，增強模型對影像細節的理解。

Multi-task Fine-tuning（多任務微調）：用指令跟随數據進行指令微調，數據混合覆蓋多種任務。

影像數據分為一般、文檔、圖表 / 圖形、OCR、定位和多影像六類，每類針對特定視覺理解方面。同時包含大量純文本數據，提升模型處理涉及視覺和文本輸入的指令跟随任務的能力。

視頻數據則結合常用高質量視頻字幕數據集、少量問答數據，以及 VideoLLaMA2 的内部數據和内部時間定位數據，增強模型視頻理解能力。

Video - centric Fine - tuning（視頻微調）：此階段聚焦提升模型視頻理解能力，收集多個開源數據集中帶注釋的視頻數據，還通過合成特定方面的密集字幕和問答對擴展數據規模。

此外，引入流媒體視頻理解和時間定位特征，同時使用一定量的純影像和純文本數據，緩解模型災難性遺忘問題。

論文和 demo 地址放在下面了，感興趣的小夥伴可以去體驗喽 ~

論文地址：

https://arxiv.org/abs/2501.13106

GitHub 項目地址：

https://github.com/DAMO-NLP-SG/VideoLLaMA3/tree/main?tab=readme-ov-file

影像理解 demo：

https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image

視頻理解 demo：

https://huggingface.co/spaces/lixin4ever/VideoLLaMA3

HuggingFace 地址：

https://huggingface.co/collections/DAMO-NLP-SG/videollama3-678cdda9281a0e32fe79af15

— 完 —

投稿請工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

一鍵關注點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

關于達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA就分享完了，您有什麼想法可以聯系小編(惠惠君)。

相關推薦