今天小編(郟君昊)要和大家分享的是業界突破多模态泛化推理能力,OPPO研究院&港科廣提出OThink-MR1技術,歡迎閱讀~
用上動态強化學習,多模态大模型也能實現泛化推理了?!
來自 OPPO 研究院和港科廣的科研人員提出了一項新技術——OThink-MR1,将強化學習擴展到多模态語言模型,幫助其更好地應對各種復雜任務和新場景。
研究人員表示,這一技術使業界突破多模态泛化推理能力。
眾所周知,多模态大模型可以處理多種類型輸入數據并生成相關輸出,但一遇到復雜推理任務,其能力往往表現不佳。
目前大多數多模态模型在訓練時,主要采用監督微調(SFT)的方法。
SFT 就像是老師給學生劃重點,讓學生按照固定的模式學習。雖然這種方法在特定任務上确實能讓模型表現得不錯,但難以培養關鍵的通用推理能力。
與此同時,強化學習(RL)作為另一種訓練方法,開始進入人們的視野。
RL 就像是讓學生在不斷嘗試中學習,做得好就給獎勵,做得不好就 " 挨批評 "。這種方法理論上可以讓模型更靈活地應對各種任務,提升其推理能力,但卻存在多模态任務通用能力未充分探索、訓練約束易導致次優瓶頸等問題。
于是乎,OThink-MR1 技術應運而生。
那麼,它是如何讓多模态模型突破泛化推理能力的呢?
基于動态強化學習
OThink-MR1 是一個基于動态強化學習的框架和模型,支持微調多模态語言模型。
其核心 " 招式 " 有兩個:一個是動态 KL 散度策略(GRPO-D),另一個是精心設計的獎勵模型。二者相互配合,讓模型的學習效率和推理能力大幅提升。
先說動态 KL 散度策略。
在強化學習裡,探索新的策略和利用已有經驗是兩個很重要的方面,但以前的方法很難平衡這二者的關系,不是在探索階段浪費太多時間,就是過早地依賴已有經驗。
而動态 KL 散度策略就像是給模型裝了一個 " 智能導航儀 ",能根據訓練進度動态調整探索和利用的平衡。
打個比方,在訓練初期,它讓模型像個充滿好奇心的孩子,大膽地去探索各種可能的策略。而随着訓練的進行,它又會引導模型逐漸利用之前積累的經驗,沿着更靠譜的路線前進。
這樣一來,模型就能更有效地學習,避免陷入局部最優解。
再說獎勵模型。在 OThink-MR1 裡,獎勵模型就像是老師給學生打分的标準。
對于多模态任務,科研人員設計了兩種獎勵:一種是驗證準确性獎勵,另一種是格式獎勵。
比如在視覺計數任務中,模型要數出圖片裡物體的數量,如果數對了,就能得到驗證準确性獎勵;同時,如果模型的回答格式符合要求,像按照規定的格式寫下答案,還能獲得格式獎勵。
這兩種獎勵加起來,就像老師從多個方面給學生打分,讓模型知道自己在哪些地方做得好,哪些地方還需要改進,從而更有針對性地學習。
實驗環節
為了驗證 OThink-MR1 的實力,科研人員進行了一系列實驗。
第一個實驗是探究獎勵項和 KL 散度項對原始 GRPO(一種基于強化學習的方法)在同任務驗證中的影響。
在幾何推理任務中,科研人員調整格式獎勵的權重,發現當格式獎勵的權重不為零時,模型的表現明顯更好。這就好比學生寫作文,不僅内容要正确,格式規範也能加分,這樣能讓學生更全面地提升自己的能力。
同時,調整 KL 散度的權重時,他們發現權重适中時模型表現最佳,太大或太小都會讓模型成績下降。
第二個實驗是跨任務評估,這可是一場真正的 " 大考 "。
以往的研究大多只在同一個任務的不同數據分布上評估模型的泛化能力,而這次實驗直接讓模型挑戰完全不同類型的任務。
科研人員選擇了視覺計數任務和幾何推理任務,這兩個任務難度不同,對模型的能力要求也不一樣。
在跨任務驗證中,用監督微調訓練的模型表現得很差。就像一個只會做一種題型的學生,換了另一種題型就完全不會了。
而經過 GRPO-D 訓練的模型則表現出色,在從推理任務到理解任務的泛化實驗中,它的成績相比沒有經過訓練的模型提高了很多;在從理解任務到推理任務的泛化實驗中,雖然難度更大,但它也取得了不錯的進步。
這就好比一個學生不僅擅長數學,還能快速掌握語文知識,展現出了很強的學習能力。
第三個實驗是同任務評估。
實驗結果顯示,在同任務驗證中,采用固定 KL 散度的 GRPO 方法不如監督微調,但 OThink-MR1 中的 GRPO-D 卻能逆襲。
它在視覺計數和幾何推理任務上,成績都超過了監督微調,這就像一個原本成績一般的學生,找到了适合自己的學習方法後,成績突飛猛進,直接超過了那些只會死記硬背的同學。
總體而言,OThink-MR1 的出現,為多模态語言模型的發展開辟了新的道路。
它讓我們看到了動态強化學習在提升模型推理能力和泛化能力方面的巨大潛力。在未來,基于 OThink-MR1 這樣的技術,多模态語言模型有望在更多領網域發揮重要作用。
論文地址:https://arxiv.org/abs/2503.16081
• 标題:OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning
• 作者:劉志遠 1, 章玉婷 2, 劉豐 1, 張長旺 1, 孫瑩 2, 王俊 1
• 部門:1.OPPO 研究院 , 2. 香港科技大學(廣州)
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
ai@qbitai.com
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見
關于業界突破多模态泛化推理能力,OPPO研究院&港科廣提出OThink-MR1技術就分享完了,您有什麼想法可以聯系小編(郟君昊)。