高馬爾
一個信息發佈的網站

視覺自回歸生成理解編輯大一統!北大團隊多模态新突破,訓練數據代碼全面開源

今天小編(惠惠君)要和大家分享的是視覺自回歸生成理解編輯大一統!北大團隊多模态新突破,訓練數據代碼全面開源,歡迎閱讀~

最近 Google 的 Gemini Flash 和 OpenAI 的 GPT-4o 等先進模型又一次推動了 AI 浪潮。這些模型通過整合文本、影像、音頻等多種數據形式,實現了更為自然和高效的生成和互動。

北京大學團隊繼 VARGPT 實現視覺理解與生成任務統一之後,再度推出了 VARGPT-v1.1 版本。

該版本進一步提升了視覺自回歸模型的能力,不僅在在視覺理解方面有所加強,還在影像生成和編輯任務中達到新的性能高度

目前訓練、推理和評估代碼,數據,模型均已開源。

VARGPT-v1.1 延續了前作的設計理念,采用了創新的 "next-token" 與 "next-scale" 自回歸預測機制,同時引入四大關鍵創新點:

迭代視覺指令微調與強化學習結合的訓練策略:  通過交替進行監督微調(SFT)與基于偏好直接優化(DPO)的強化學習,有效提高了模型的影像生成質量。模型逐步提升影像生成分辨率,從 256 × 256 擴展至 512 × 512 像素,影像細節與真實性顯著增強。

更大規模的視覺生成訓練數據集:  VARGPT-v1.1 采用了多達 830 萬條視覺生成指令數據,包括真實世界的 LAION-COCO 數據集以及由 Midjourney 與 Flux 模型生成的合成數據。大規模數據的使用顯著擴大了模型對不同類型影像生成的泛化能力。

更新語言模型主幹至 Qwen2:  引入最新的 Qwen2-7B 語言模型主幹,利用其高效的注意力機制與更好的 token 化策略,有效提升了模型的視覺理解能力。

無架構修改的影像編輯能力:  VARGPT-v1.1 在不改動模型架構的基礎上,通過專門構建的影像編輯數據集,實現了影像編輯功能。這使得模型不僅可以理解和生成影像,還能根據用戶指令對影像進行編輯。

1 模型架構

VARGPT-v1.1 遵循 VARGPT 的模型架構設計,以統一視覺理解和生成,其架構如上圖所示。由(1)一個大語言模型(Qwen2-7B)、視覺編碼器和用于視覺理解的理解投影器;(2)視覺解碼器和用于視覺生成的雙生成投影器組成。VARGPT-v1.1 在大語言模型主幹中采用因果注意力機制,同時在視覺解碼器中使用塊因果注意力機制。

2 訓練策略

VARGPT-v1.1 的訓練遵循 VARGPT 的三階段訓練方法,整體訓練過程如上圖所示。區别于 VARGPT,在第三階段, VARGPT-v1.1 提出了迭代指令微調和強化學習的方法,以增強統一模型的視覺生成能力。具體來說,第三階段的迭代訓練過程如下圖所示:

2.1 視覺指令微調

視覺生成的指令微調旨在通過監督微調賦予 VARGPT-v1.1 視覺生成能力。這個階段,首先解凍視覺解碼器和兩個投影器,并凍結其他參數以進行有監督微調,如上圖所示。本文采用一種逐步提高影像分辨率的訓練方法來訓練 VARGPT-v1.1。具體來說,在第一個 SFT 階段,影像分辨率設定為 256x256,模型訓練 40K 步,以賦予其生成影像的初始能力。在第二個 SFT 階段,影像分辨率設定為 512x512 ,模型訓練 30K 步,以進一步增強其高分辨率視覺生成能力。該視覺指令微調階段的訓練數據包括 8.3M 收集和構建的指令對。

2.2 基于人類反饋的強化學習

除了指令微調外,VARGPT-v1.1 提出迭代指令微調與強化學習來訓練視覺自回歸的大視覺語言模型。VARGPT-v1.1 通過将生成質量的提升表述為一個偏好選擇問題 , 并采用直接偏好優化(DPO)來對模型進行訓練。這種方法激勵模型傾向于生成高質量的影像輸出,同時拒絕質量較差的輸出。具體來說,VARGPT-v1.1 訓練時将傾向于拒絕低質量的影像 , 接受高質量的影像來優化策略模型 :

2.3 視覺編輯的有監督微調

經過有監督微調(SFT)和直接偏好優化(DPO)的多階段漸進式分辨率迭代後,我們系統地構建了一個包含來自 Style-Booth 的 11325 個樣本的指令調優數據集,以使 VARGPT-v1.1 具備視覺編輯能力。該流程通過視覺編碼器處理目标影像,同時利用編輯指令作為文本提示,來監督模型對編輯後影像分布的逼近。這種方法實現了:(1)架構保留式适配,無需引入的冗餘設計實現編輯能力;(2)通過聯合文本 - 影像标記預測實現統一的多模态編輯。在該監督微調期間,所有模型參數均未凍結,以在保持生成多樣性的同時最大化編輯保真度。

3 實驗與結果

遵循 VARGPT 和其他多模态大語言模型的設定,本文在一系列面向學術任務的基準測試和最新的視覺理解基準測試中,評估了 VARGPT-v1.1 在視覺理解方面的有效性,總共涉及 11 個基準測試:在包括 MMMU、MME、MMBench、SEEDBench 和 POPE (包括不同的設定,随機、流行和對抗)在内的多模态基準上進行零樣本多模态評估。總體來說,VARGPT-v1.1 實現了顯著的視覺理解性能,在各種統一模型和各類多模态大語言模型的對比上均占優勢。

3.1 Zero-shot multi-modal evaluation

對 VARGPT-v1.1 與各種先進的多模态模型進行了全面評估,結果如下表。實驗結果表明 VARGPT -v1.1 在所有基準測試中表現出色,在 MMBench 上達到 81.01,在 SEED 上達到 76.08,在 MMMU 上達到 48.56,取得了先進水平的結果。此外,在 LLaVA - Bench 基準測試上的持續性能提升驗證了我們的架構選擇和訓練策略的有效性,确立了 VARGPT-v1.1 作為一個強大且通用的多模态模型的地位。

3.2 Performance comparison on visual question answering tasks

本文在多個視覺問答數據集上評估了 VARGPT - v1.1 的性能,并将其與幾種最先進的多模态模型進行了比較。結果見表 3。我們的實驗結果表明 VARGPT-v1.1 在所有視覺問答(VQA)基準測試中均取得了卓越的性能,相較于現有模型有顯著提升。

3.3 Performance comparison on visual question answering tasks.

為了評估 VARGPT 的視覺生成能力,我們使用廣泛采用的 GenEval 基準和 DPG - Bench 基準進行了全面評估,定量結果分别見下表。這些數據集為文本到影像的生成能力提供了嚴格的評估框架。我們的實驗結果表明,VARGPT-v1.1 優于許多專門的影像生成模型,包括基于擴散的架構(如 SDv2.1)和自回歸方法(如 LlamaGen)。

3.4 Performance comparison on the DPG-Bench benchmark.

3.5 視覺理解的比較

VARGPT-v1.1 展現了更強的理解和解讀視覺内容中幽默元素的能力。

3.6 多模态影像文本生成

VARGPT-v1.1 生成的一些 512 x 512 的樣本如下所示。VARGPT-v1.1 支持用戶輸入文本和影像指令,并同時輸出文本和影像的混合模态數據。此外,與現有的統一模型基線相比,我們的方法在準确的文本到影像生成方面取得了顯著改進。如下圖所示,我們展示了 VARGPT-v1.1 生成的代表性影像輸出和對話互動。定性分析表明,VARGPT-v1.1 始終能生成與給定文本指令緊密匹配的高質量影像。

3.7 影像編輯能力

視覺編輯結果可視化如下圖所示,本文對視覺編輯能力進行的定性評估表明,VARGPT-v1.1 具備基本的影像操作能力。這種能力僅通過使用視覺編輯指令微調數據進行訓練即可獲得,無需對架構進行任何修改。此外,這些觀察結果證實了統一模型架構在單一框架内實現通用視覺理解、生成和編輯方面具有巨大潛力。

4 結論與展望

VARGPT-v1.1 通過采用為多模态大模型設計的靈活的訓練策略使其具有可擴展性,同時為多模态系統架構設計開辟了新的技術途徑。盡管 VARGPT-v1.1 取得了重大進展,但團隊指出目前版本和商用生成模型之間仍存在差距,此外在影像編輯能力方面也存在局限性。未來,團隊将進一步擴展訓練數據規模,探索新型 token 化方法,并嘗試更多的強化學習策略,進一步推動多模态生成理解統一大模型的發展。

project:   https://vargpt1-1.github.io/

code:   https://github.com/VARGPT-family/VARGPT-v1.1

arxiv:   https://arxiv.org/abs/2504.02949

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—    —

學術投稿請于工作日發郵件到:

ai@qbitai.com

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點亮星标

科技前沿進展每日見

關于視覺自回歸生成理解編輯大一統!北大團隊多模态新突破,訓練數據代碼全面開源就分享完了,您有什麼想法可以聯系小編(惠惠君)。