高馬爾
一個信息發佈的網站

不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數學推理極限

今天小編(寸飛蘭)要和大家分享的是不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數學推理極限,歡迎閲讀~

僅通過強化學習,就能超越 DeepSeek!

上海 AI Lab 提出了基于結果獎勵的強化學習新範式——

從 Qwen2.5-32B-Base 模型出發,僅通過微調和基于結果反饋的強化學習,在不蒸餾超大模型如 DeepSeek-R1 的情況下,就能超越 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的超強數學推理性能。

團隊發現,當前大模型數學推理任務面臨 " 三重門 " 困局:

稀疏獎勵困境:最終答案對錯的二元反饋,使復雜推理的優化變得困難

局部正确陷阱:長思維鏈中部分正确步驟反而可能誤導模型學習

規模依賴魔咒:傳統蒸餾方法迫使研究者陷入 " 參數規模軍備競賽 "

因此,研究團隊重新審視了當前基于結果獎勵的強化學習算法,經過嚴格的理論推導與證明,重新設計了一個新的結果獎勵強化學習算法,并在這個過程中得出了三點重要結論:

對于正樣本:在二元反饋環境下,通過最佳軌迹采樣(BoN)的行為克隆即可學習最優策略

對于負樣本:需要使用獎勵重塑來維護策略優化目标的一致性

對于長序列:不同的序列部分對結果的貢獻不同,因此需要更細粒度的獎勵分配函數,這個函數可以通過結果獎勵習得

通俗來説,就是通過對正确樣本模仿學習,錯誤樣本偏好學習,關鍵步驟重點學習,無需依賴超大規模的模型(例如 DeepSeek-R1)進行蒸餾,僅通過強化學習即可達到驚人的效果。

除此之外,團隊也對不同起點模型進行了強化學習訓練對比和分析,發現強化學習的起點模型訓練數據分布對最終的模型效果也很重要。因此,研究團隊将 RL 訓練的數據、起點和最終模型一起完整開源,來推動社區的公平比較和進一步研究。項目鏈接已放文末。

從頭設計結果獎勵強化學習

針對數學推理任務中強化學習面臨的稀疏獎勵局部正确難題,團隊提出新的策略優化框架OREAL

通過理論創新實現針對性的算法改進,在用實驗説明 " 怎麼做更好 " 之前,首先論證 " 為什麼這麼做更好 "

正負樣本獎勵重塑,解決稀疏獎勵困境

在數學推理任務的采樣流程中,團隊經過理論分析推導,提出核心見解:在二元反饋機制下,采樣任意數量包含正确答案的 BoN(Best-of-N)設定,其正确軌迹的分布具有一致性特征。這一發現表明,通過直接行為克隆(behaviorcloning)采樣得到的正确軌迹,已經構成了正樣本訓練中的最優設定。

在對正樣本做模仿學習的基礎上,團隊提出直接懲罰負樣本會導致梯度偏差問題,對負樣本的訓練原則應當是維護優化梯度形式與學習 BoN 分布一致。通過深入分析正負樣本的訓練梯度,研究者們提出了基于平均準确率 p 的獎勵重塑因子來維護上述一致性,為 GRPO 等算法的改進提供了理論依據。這種設定使模型既能有效吸收成功經驗,又能精确識别關鍵錯誤邊界,對訓練性能有明顯幫助。

結果獎勵「因果溯源」,跳出局部正确陷阱

針對復雜的長推理鏈問題,OREAL 創新性地設計了 token 重要性估計器。通過構建序列累計形式的獎勵函數,我們将結果獎勵逆向分解到每個推理步驟(見下面的 token-level RM 熱力圖)。這種方法能夠精确定位核心錯誤步驟,在訓練時實現更精細的梯度更新,顯著提升了模型在長序列任務中的表現。

OREAL 框架

将幾項認知組合起來,團隊提出的最優強化學習策略可以概括為:在正确樣本上模仿學習,在錯誤樣本上偏好學習,對關鍵步驟做重點學習。

通過合理的分析和實踐,一步步将強化學習性能推到最佳水平。

強化學習超越蒸餾,擺脱規模依賴魔咒

團隊在 7B 和 32B 兩個規模的模型上僅使用 4 千條高質量訓練樣本進行了訓練和測試,

在 7B 量級上,Oreal-7B 在 MATH-500 上取得了 91.0 的 pass@1 準确率。這是首次通過強化學習而非蒸餾方法達到了如此高的精度。這一成績不僅為基于 RL 的方法樹立了新的裏程碑,還超越了更大參數量的模型,包括 QWQ-32B-Preview 和 OpenAI-O1-Mini。

此外,将 Oreal 應用于此前最佳的 7B 模型(DeepSeek-r1-Distill-Qwen-7B)後,得到的新模型 OREAL-DSR1-Distill-Qwen-7B 在 MATH-500 上取得了 94.0 的 pass@1 精度,創下了 7B 模型的記錄。千問的基座,經過 DeepSeek 的蒸餾訓練,再經過上海 AI Lab 的強化學習訓練,達到了中國原創新高度。

對于 32B 模型,Oreal-32B 在 MATH-500 上也達到了 95.0 的分數,超越了同級别的 DeepSeek-r1-Distill-Qwen-32B,實現 32B 模型的新 SOTA。

One More Thing

最後,研究團隊還對比了不同基座模型下的性能表現,發現不同性能起點的策略模型 RL 後性能上限是不同的,起點模型越強,RL 後的性能越好。

并且,盡管在多個基座模型上,大部分 benchmark 性能都會在 RL 後有所提升,偶爾也會出現持平(OREAL-32B 在 AIME2025-I)或者性能下降(相比于 DSR1-Distill-Qwen-7B 在 AIME2024)。

研究認為,這些情況的出現可能與訓練語料的質量、難度和數量等方面準備的不夠充分有關,這也給未來的研究留下了空間。

因此,除了強大的 RL 算法,團隊還提出兩個關鍵因素對于 RL 在數學推理任務中的成功至關重要:

強大的起點模型是 RL 可以有效激發模型潛在能力的前提。

在 RL 階段使用的數據也必須在質量、難度、數量和多樣性方面都得到充分保證。高質量的數據集能夠讓模型通過面對廣泛的挑戰和學習機會,充分發揮其潛力。

模型數據全面開源,助力強化學習研究

研究團隊同時也注意到,盡管 DeepSeek-R1 的出現引發了社區對于大語言模型強化學習的學習和研究熱情,大家使用的訓練起點模型、訓練數據、訓練算法和超參細節都不盡相同,影響了算法和模型性能的清晰比較。

因此,研究團隊将整個 RL 訓練過程中用到的訓練數據、起點模型和 RL 後模型都進行了全面開源,訓練代碼也将開源到 XTuner。

歡迎下載體驗:

項目鏈接:

https://github.com/InternLM/OREAL

論文地址:

https://arxiv.org/abs/2502.06781

RL 訓練數據鏈接:

https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

系列模型地址:

https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

—    —

投稿請工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

關于不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數學推理極限就分享完了,您有什麼想法可以聯系小編(寸飛蘭)。