今天小編(謝飛揚)要和大家分享的是院士領銜萬字長文,全面系統梳理多模态LLM對齊算法,歡迎閲讀~
萬字長文,對多模态LLM中對齊算法進行全面系統性回顧!
從現有對齊算法涵蓋的應用場景,到構建對齊數據集的核心因素,再到用于評估對齊算法的基準,還有對齊算法未來潛在發展方向,全都梳理了一遍。
大語言模型(LLMs)能夠通過簡單的提示完成多種任務,且無需進行任務特定的訓練。然而,這些模型主要處理文本數據,對于多模态數據的處理存在局限。
由于世界本質上是多模态的,包括視覺、聽覺和文本等數據,研究者開始在LLM的基礎上開發多模态大語言模型(MLLMs),以處理更復雜的數據形式。
然而,現有的MLLMs仍面臨一系列挑戰,尤其是在真實性、安全性、推理能力和與人類偏好對齊方面,這些問題尚未得到充分解決。
因此,針對這些問題的對齊算法應運而生,成為解決這些挑戰的有效途徑。
本文這項研究的主要貢獻是對多模态大型語言模型(MLLMs)中的對齊算法進行全面的系統性回顧。
具體而言,探讨了以下四個關鍵問題:
現有對齊算法的應用場景:文章通過分類當前的對齊算法,清晰地展示了它們在不同應用領網域的适用性,并為研究者提供了一個統一的符号系統,幫助理解各算法之間的區别與聯系。
對齊數據集的構建:對齊數據集的構建涉及數據源、模型響應和偏好注釋三個核心因素。文章對這些因素進行了系統分析與分類,并總結了公開數據集的優勢與不足,為未來的改進提供參考。
對齊算法的評估方法:鑑于大多數對齊算法針對特定任務,如減少幻覺、确保安全性和改善推理能力,文章整理了常用的評估基準,提出了清晰的評估框架。
未來發展方向:文章提出了對齊算法發展的潛在未來方向,特别是視覺信息的整合、LLM對齊方法的經驗啓示,以及MLLM作為智能體面臨的挑戰與機遇。
這項研究由來自中國科學院自動化研究所、南京大學、中國科學技術大學、南洋理工大學、清華大學深圳國際研究生院、騰訊優圖實驗室、新加坡國立大學、理海大學、香港科技大學、松鼠Ai學習等機構的研究人員共同完成。
中國科學院院士譚鐵牛、中國計算機學會會士王亮領銜。
以下是更多細節。
應用場景與代表性方法應用場景
文章介紹了多模态大語言模型(MLLM)對齊算法的應用場景,分為三大層次:
通用影像理解:主要集中在減少幻覺(模型生成不準确或無關的輸出),并提升模型在其他功能(如對話、推理能力)方面的表現。
多影像、視頻和音頻:針對復雜多模态數據,如多影像和視頻,提出了不同的架構和訓練方法來處理這些任務,尤其是如何在這些任務中減少幻覺并提高模型的能力。
擴展應用:探讨了将MLLM應用于領網域特定任務,如醫學、數學推理、安全系統等,介紹了如何根據這些特定領網域的需求對模型進行優化。
通用影像理解與多模态o1
一般影像理解
MLLM對齊算法的初衷是解決多模态系統中的幻覺問題。最近的研究表明,這些算法不僅能提升幻覺的處理,還能增強模型的安全性、對話能力、推理能力等多個功能屬性。
本節将系統地介紹幾種創新的方法,按其主要應用場景分類:減少幻覺和提升其他能力。
減少幻覺
MLLM對齊算法的最初設計目的是減少幻覺現象。
例如,Fact-RLHF是第一個多模态的RLHF算法,使用了10K個人工标注的樣本來訓練獎勵模型,并引入了每個token的KL懲罰、事實信息校準、以及正确性和長度懲罰等機制。
DDPO通過提高更正數據的權重,進一步優化了标準的DPO。
HA-DPO則利用MLLM生成影像描述,通過GPT-4驗證幻覺并對正負樣本進行重寫,加入了輔助的因果語言建模損失以減少幻覺。
mDPO通過引入視覺損失函數來解決視覺信息忽視問題,并增加錨定機制來避免選定響應的概率下降。
提升綜合能力
除了減少幻覺,一些算法還專注于提升模型的多方面能力。
例如,Silkie通過收集多樣的指令數據集,并使用GPT-4V評估生成的響應,從而為應用DPO提供偏好數據。CLIP-DPO利用CLIP分數對數據進行标注,并應用DPO損失,從而同時提升幻覺減緩和零樣本分類任務的表現。
SIMA通過讓模型自我評估其生成的響應來構建偏好對,進一步提升了多影像任務的表現。
近期,MM-RLHF等方法通過更多樣性的數據和算法,将alignment的效果進一步提升。
多模态o1發展
DeepSeek-R1的流行給MLLM社區帶來了新的啓示。
LMM-R1使用純文本數學數據集,通過RLOO訓練,并在多模态數學基準上取得了改進。
Open-R1-Video則利用GRPO方法提升了模型在視頻領網域的表現。
VLM-R1應用R1方法處理指代表達理解任務,進一步擴展了多模态推理的能力。
多影像、視頻和音頻
在這一部分,文章讨論了多影像、視頻和音頻任務中的挑戰和解決方法。
多影像任務:現有的MLLM在多影像理解方面常常遇到困難,MIA-DPO通過構建多影像偏好數據來解決這一問題,取得了較好的效果。
視頻任務:視頻理解任務比單影像任務更加復雜,DPO和交錯視覺指令的結合,能夠有效提升視頻任務的處理能力,如LLaVA-NeXT-Interleave方法。
音頻任務:音頻-視覺理解存在音頻盲視問題,Video-SALMONN 2通過引入音頻-視覺對齊機制,成功解決了這一問題。
擴展多模态應用
文章還介紹了在特定領網域的擴展應用,提出了針對性更強的對齊方法。
醫學應用:3D-CT-GPT++通過對醫學影像分析進行優化,成功減少了診斷中的誤差,達到了臨床級别的準确性。
數學應用:MAVIS方法通過改進視覺數學問題解決框架,提高了MLLM在數學推理中的表現。
安全性:為應對多模态大語言模型的對抗性攻擊,文章介紹了AdPO和VLGuard等方法,它們通過優化訓練數據和模型結構來提高模型的魯棒性。
代理和智能系統:INTERACTIVECOT和EMMOE方法通過動态優化推理流程和分解任務,提高了多模态大語言模型在嵌入式智能中的表現,尤其是在復雜決策過程中。
作者分析多模态大語言模型的不同應用場景,詳細介紹了多種算法和方法,涵蓋了從通用影像理解到特定領網域應用的各個方面。
主要貢獻在于展示了如何通過優化對齊算法來減少幻覺現象并提升模型在不同任務中的綜合能力,尤其在視頻、音頻、醫學、數學等復雜領網域的應用。
随着這些方法的不斷優化,MLLM将在更多領網域展現其強大的處理能力。
下表總結了目前alignment策略常見的損失函數形式:
MLLM對齊數據構造與現有數據總結主要内容總結
在多模态大型語言模型(MLLM)的研究中,對齊數據集是關鍵組成部分。由于多模态數據集的構建涉及到大量的數據來源、生成方法和注釋技術,研究者們對不同構建方法進行了分類。
這些數據集大致可以分為兩類:引入外部知識的數據集和依賴自我标注的數據集。
通過這些分類,研究者可以更清晰地了解不同數據集的特點,進而為多模态系統的優化提供支持。
作者對現有MLLM對齊數據集進行了全面的分類與分析,詳細介紹了不同構建方法的優缺點以及應用場景。研究主要關注以下幾個方面:
引入外部知識的數據集:讨論了通過人類注釋和閉源模型(如GPT-4系列)構建的數據集,這些方法提高了數據的質量,但也面臨高成本和主觀性等挑戰。
自我标注的數據集:探讨了利用模型自身生成偏好對進行數據集構建的方法,包括單一文本模态、單一影像模态和影像-文本混合模态三種類型的數據構建方法。
數據質量和規模的平衡:文章還讨論了如何平衡數據質量、規模與成本的關系,并展望了未來自動化數據增強技術的潛力,特别是如何利用自我标注方法提升數據質量。
通過這項工作,研究者們可以更加清楚地理解多模态數據集的構建策略,為未來的研究提供有力的支持。
引入外部知識的數據集
人工注釋:通過人工标注,收集了不同領網域的高質量數據。
例如,LLaVA-RLHF通過人工選擇正負響應收集了10k個樣本,RLHF-V通過人工修正幻覺響應收集了1.4k個樣本。
閉源LLM/MLLM:利用GPT-4系列模型生成的偏好數據,通過這種方法可以大規模構建數據集,同時減少成本。
像LRV-Instruction通過GPT-4生成了400k個視覺指令,涵蓋16個視覺語言任務。
開源LLM/MLLM:使用開源模型(如CLIP-DPO)來構建偏好數據,減少成本但可能犧牲數據質量。
例如,INTERACTIVECOT通過預定義分數構建了具身智能的偏好數據集。
自我标注的數據集
單一文本模态:
SQuBa使用微調後的模型生成負樣本,并将其與正樣本進行DPO對比。SymDPO通過将VQA/分類數據轉化為ICL格式,以增強視覺學習。
單一圖像模态:
Image DPO通過對影像進行擾動(如高斯模糊或像素化),而保持文本不變,構建DPO偏好對。
影像-文本混合模态:
AdPO通過構建原始/對抗影像及其模型響應的偏好對,在優化過程中,兩者的影像和文本内容在正負樣本中有所不同。
實驗發現
在實驗部分,研究發現:
數據集規模與質量的平衡:通過引入外部知識的數據集,能夠提高數據的質量,但這也增加了構建成本。而自我标注的方法雖然能夠大規模生成數據,但由于MLLM的性能限制,當前的自我标注數據集質量仍較低,且存在一定的分布偏移問題。
自動化增強的潛力:随着自動化數據增強技術的發展,未來的自我标注方法将可能解決當前數據質量低的問題,并提高數據的多樣性和可信度。
總的來説,數據集的構建方法和質量控制是影響MLLM對齊效果的關鍵因素,未來的研究應關注如何在保證數據質量的同時,降低成本并提高數據集的規模。
模型評估
現有的MLLM對齊評估基準被分為六個關鍵維度:
通用知識(評估基礎能力)、幻覺(衡量生成内容與事實的一致性)、安全性(評估響應中降低風險的能力)、對話(測試模型是否能輸出用户要求的内容)、獎勵模型(評估獎勵模型的表現)和與人類偏好的對齊。
通用知識
大多數基準優先考慮高質量、人工注釋的數據集,這些數據集專門為實際應用場景量身定制。
例如,MME-RealWorld包含來自13K張影像的29K個問答對,MMMU包含來自學術來源的11.5K個問題。MMStar通過減少數據泄漏和強調視覺依賴性來增強可靠性。
許多基準引入了創新方法,如MMBench的雙語評估與CircularEval,MMT-Bench的任務圖用于網域内外分析,以及BLINK專注于視覺感知任務。這些框架提升了評估精度,揭示了模型的局限性。
任務通常需要高級的多模态推理能力,例如MathVista的數學視覺整合、SQA3D的3D情境問答以及MMMU對圖表和地圖的覆蓋。
這些基準推動模型解決跨學科的挑戰,通過策劃具有挑戰性的、細粒度的任務(如MVBench中的時間理解、Mantis-Instruct中的多影像處理),旨在提升模型解決現實世界問題的能力,特别是在細致感知和推理方面。
幻覺
這些基準系統地識别并分類多模态模型中的幻覺問題,包括對象幻覺(Object HalBench)、内在和外在幻覺(VideoHallucer)以及關聯偏差(VALOR-Eval)。它們強調在視覺、文本和序列上下文中的細粒度評估。
許多基準提出了創新的框架,例如基于投票的查詢(POPE)、LLM驅動的評分(HaELM、RefoMB)、開放詞匯檢測(OpenCHAIR)、無注釋評估(GAVIE)、無LLM管道(AMBER)和GPT-4輔助的推理分析(Mementos)。
這些方法強調自動化、可擴展的評估,同時解決數據泄漏和語言先驗等問題。
數據集優先采用細粒度的人類注釋(M-HalDetect、HallusionBench)和合成數據生成(VHTest、MHaluBench),它們平衡了現實世界的復雜性(PhD的反常識影像、ActivityNet-QA的58K問答對)和受控挑戰(R-Bench的魯棒性分析)。
一些基準專注于特定任務,如多語言支持(MHumanEval),而另一些則處理更廣泛的問題,如偏見和幹擾(Bingo)。所有這些都旨在提高模型在實際場景中的魯棒性。
通過提出對齊策略(如RLAIF-V的開源反饋)并提出統一框架(HQH),這些基準為開發更可靠的多模态系統提供了指導。
安全性
一些研究引入了新穎的技術,例如基于擴散的對抗性攻擊(AdvDiffVLM)、紅隊框架(RTVLM)和後期微調策略(VLGuard)。
這些方法通過模拟現實世界威脅或提升模型的抗幹擾能力來增強評估的嚴謹性。
像MultiTrust和RTVLM這樣的基準通過多個維度統一了可信度評估(如真實性、公平性),而另一些基準則專注于特定挑戰,如超出分布(OOD)泛化(VLLM-safety-bench)或過度敏感性(MOSSBench)。這些基準為模型的限制提供了整體的見解。
MM-RLHF-SafetyBench從現有數據集中進行采樣,進一步涵蓋了如對抗性攻擊、隐私、紅隊攻擊和有害内容檢測等領網域。
對話
這些基準優先評估基礎的視覺技能,如低級感知能力(Q-Bench、LLVisionQA)、低級信息的描述能力(LLDescribe)和質量評估。
它們強調模型解釋和表達細粒度視覺信息的能力。
幾個基準測試了模型在具有挑戰性場景中的泛化能力,包括非常規影像(LLaVA Bench-Wilder)、跨領網域任務(LiveBench的數學/新聞整合)和對抗性提示(Vibe-Eval的高難度問題)。這些基準揭示了模型在标準數據集之外的适應能力。
獎勵模型
每個基準都針對特定的評估維度,例如多語言能力(M-RewardBench中的23種語言)、對齊/安全性/偏見(MJ-Bench)、通過人類注釋增強可解釋性和最終模型評分能力(MM-RLHF-RewardBench)以及MLLM在輔助評判者跨多種模态中的能力(MLLM-as-a-Judge的評分與成對比較)。
這些框架揭示了模型在結構化和OOD場景中的優缺點。
高質量的數據集通過人類與AI合作(如VL-RewardBench的注釋管道)或結構化三元組設計(RewardBench)策劃而成,任務從簡單的偏好排序到復雜的推理,推動模型處理如幻覺和倫理對齊等細致挑戰。
對齊
一些基準研究了模型與人類偏好的對齊能力。
Arena-Hard是一個全面的多維度基準,旨在評估中文LLM的對齊能力。AlpacaEval-V2提出了一種簡單的回歸分析方法,用于控制自評中的長度偏差。Arena-Hard通過增加模型性能的分離度三倍,達到了98.6%的與人類偏好排名的相關性。MM-AlignBench是一個專門設計的手工注釋基準,旨在評估與人類價值觀的對齊。
總體而言,許多當前的MLLM對齊算法側重于防止模型生成幻覺,同時探索如何利用對齊算法提升MLLM的通用知識和對話能力,這是未來的重要方向。
一些研究者将不安全的響應視為與人類偏好不對齊,因此應用MLLM對齊算法來解決安全問題。這些框架中獎勵模型的有效性,尤其是在引導對齊方面的表現,值得進一步研究。
此外,針對與人類偏好的對齊,基準也從LLM領網域發展到了MLLM領網域。
未來工作與挑戰
随着多模态大型語言模型(MLLM)的迅速發展,将它們與人類偏好對齊已經成為研究的重點。然而,仍然存在若幹挑戰。
首先,高質量和多樣化數據集的稀缺問題仍然未得到有效解決。其次,許多方法未能有效利用視覺信息,往往主要依賴文本來構建正負樣本,忽略了多模态數據的全部潛力。此外,缺乏全面的評估标準,當前的方法通常僅在幻覺或對話任務等特定類型的基準上進行驗證,這使得它們的普适性難以評估。
通過借鑑LLM後期訓練策略和智能體研究的進展,可以揭示現有MLLM對齊方法中的局限性。克服這些挑戰對于開發更強大和全面的對齊方法至關重要。
數據挑戰
MLLM對齊面臨兩個關鍵的數據相關挑戰:數據質量和覆蓋範圍。
首先,高質量的MLLM對齊數據的可用性有限。與LLM相比,獲取和注釋多模态數據要復雜得多,因為它涉及多個模态的處理。
其次,現有數據集在涵蓋多樣化多模态任務方面存在不足,例如光學字元識别、數學問題和圖表理解等任務。構建一個涵蓋廣泛任務的綜合數據集是一項極具挑戰的工作。
據作者所知,目前沒有一個公開的、完全人工注釋的多模态數據集樣本量超過200,000個。
這些在數據質量和覆蓋範圍方面的限制,成為有效對齊MLLM的重大障礙。
利用視覺信息進行對齊
目前的對齊數據可以表示為:偏好數據D=(x, I, yw, yl),其中x是問題,I是影像,yw、yl分别表示正确和錯誤的響應。
在當前的研究中,主要有三種方法用于利用視覺信息來增強對齊性能,但每種方法都有其局限性:
使用破損或無關影像作為對齊階段的負樣本。
研究人員創建新的影像Ineg,并使用(yw|X, Ineg)作為負樣本。此方法通過減少幻覺和提高MLLM對不同影像的魯棒性來改善對齊效果。然而,視覺負樣本通常依賴于擴散算法或影像修改,這些方法缺乏強有力的質量度量,并且計算成本較高。
基于破損影像生成新的問題和答案。
在這種方法中,研究人員創建一個新的影像Ineg,使用該影像生成額外的響應yneg,然後将(yneg|X, I)視為負樣本。此方法增加了文本比較的多樣性,但生成額外負樣本的過程增加了計算開銷。
使用像CLIP這樣的餘弦相似度度量來評估文本-影像匹配。
該方法通過計算文本與影像之間的相似度分數來篩選數據,或将其作為強化學習獎勵函數的一部分。雖然這種方法有助于減少數據噪聲,但評分的質量依賴于評估模型的質量,可能受到模型偏見的影響。
每種方法在利用視覺數據增強MLLM對齊方面都有一定的作用,但在效率、成本和潛在偏見方面存在權衡。
綜合評估
大多數MLLM對齊研究主要評估其算法在幻覺、對話能力或安全性等幾個關鍵領網域的表現。
然而,未來的研究應采用更全面的評估方法,跨更廣泛的任務評估對齊方法,以更好地展示其普适性和有效性。
全模态對齊
Align-anything開創了通過多模态數據集"align-anything-200k"實現全模态對齊的研究,涵蓋了文本、影像、音頻和視頻。這項研究展示了不同模态之間的互補效應。
然而,他們的工作仍處于初期階段,每種模态的數據集相對較小,限制了其任務覆蓋範圍。
此外,提出的算法僅是DPO方法的初步改進,未能充分利用每種模态固有的獨特結構信息。
未來,超越影像/文本領網域的對齊算法設計,尤其是針對其他模态的對齊,将是一個關鍵的趨勢。
MLLM推理
最近,由OpenAI(o1)和DeepSeek-R1代表的推理LLM已經證明,強化學習算法和偏好數據對于提高LLM在復雜問題求解、長時上下文理解和生成任務中的表現至關重要。
本文将探讨從LLM推理增強研究中獲得的洞察及其對對齊MLLM的影響,主要從數據和優化框架兩個維度進行分析。
(1) 數據。
規模與質量。對應的方法逐漸從小模型重采樣(如OpenMathInstruct)發展到高質量合成數據(如AceMath),并逐步采用尖端模型(如OpenAI o1)和通過領網域專用模型合成數據實現可擴展的知識遷移(如DeepSeek-V3)。
目前,用于推理增強的數據集普遍達到百萬樣本規模(如Qwen-2.5-MATH)。
效率。采用"少即是多"的對齊(如LIMA的1k樣本用于65B Llama)證明了最少的高質量數據能夠最優地激活預訓練能力,同時減少對數據規模的依賴。
(2) 優化框架。
采樣策略。最近的進展表明,在線強化學習(RL)逐漸成為主流方法,DeepSeek-V3和Qwen-2.5-MATH的在線采樣方法有效地緩解了分布偏移。
此外,Mini-Max采用了離線+在線采樣策略,進一步提升了模型性能。
訓練範式。多階段、協作優化已成為主流方法。
例如,Llama 3包含了六輪DPO迭代,而DeepSeek通過温度變化的采樣和反射/驗證提示來優化推理深度(長鏈式推理)和簡潔性。
算法。強化學習算法從早期的策略梯度方法發展到更復雜的PPO,最近基于PPO的改進主要有兩個方向:
一個是去除評估模型并用稀疏獎勵訓練策略,從而減少一半的參數量(如DPO和GRPO);另一個是精煉評估模型的設計,例如引入比率作為優勢函數的PRIME和通過重塑正負樣本獎勵的OREAL。
通過優先考慮高質量數據和創新的優化框架,MLLM領網域正朝着更有效、可擴展的模型發展,這些模型也能更好地解鎖MLLM的推理潛力。
LLM對齊的啓示
對LLM的對齊已經成為最近研究的一個關鍵焦點,提供了許多有價值的見解,可以為MLLM的開發提供指導。通過審視現有LLM對齊策略的經驗教訓,可以揭示出有助于提升MLLM研究的關鍵原則:
(1) 提高訓練效率。
當前MLLM的對齊方法依賴于DPO損失函數。然而,由于DPO需要同時加載策略模型和參考模型,訓練速度會顯著下降。是否可以利用類似SimPO的無參考方法進一步提升訓練效率?
這一方法可能加速訓練過程,同時減少對參考模型的依賴。進一步研究參考模型在MLLM對齊中的具體作用和影響,對于提高效率和優化模型設計至關重要。
(2) 減輕過度優化/獎勵黑客問題。
在使用DPO或RLHF進行LLM對齊時,過度優化仍然是一個關鍵挑戰,即通過學習到的代理獎勵模型來提高性能,但真正的質量可能停滞或退化。
為應對這一挑戰,解決策略包括:
使用平衡的訓練數據集确保多樣性和代表性,防止過于狹窄的優化;
在驗證性能平穩時實施早停;
引入正則化技術,減少對訓練數據的過度依賴,提高模型的泛化能力。
MLLM作為智能體
MLLM結合了LLM強大的推理能力和處理來自多種模态(如影像、文本和音頻)數據的能力。這使得它們能夠從多種信息源中提取知識并進行綜合分析,在處理復雜的現實任務中具有很大優勢。
然而,要将MLLM轉變為高效的智能體,仍然需要解決幾個待處理的問題。
多智能體協作。
目前,針對基于文本的智能體的多智能體協作框架已取得顯著進展,但基于MLLM的多智能體系統仍缺乏成熟的解決方案。
魯棒性。
MLLM智能體在開放環境中的魯棒性尚未得到系統驗證,需引入對抗性魯棒性測試和保障技術。
安全性。
MLLM智能體中引入更多復雜組件增加了安全風險,未來的研究應探索多種安全保護機制,以減輕這些風險。
論文鏈接:https://arxiv.org/pdf/2503.14504
GitHub鏈接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文/項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見
關于院士領銜萬字長文,全面系統梳理多模态LLM對齊算法就分享完了,您有什麼想法可以聯系小編(謝飛揚)。