今天小編(賁芳蕤)要和大家分享的是1/30訓練步驟復刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓練方法,歡迎閱讀~
DeepSeek 啥都開源了,就是沒有開源訓練代碼和數據。
現在,開源 RL 訓練方法只需要用 1/30 的訓練步驟就能趕上相同尺寸的 DeepSeek-R1-Zero 蒸餾 Qwen。
國内大模型六小強之一的階躍星辰聯與清華聯合發布 Open Reasoner Zero(ORZ),由 AI 大拿沈向洋、階躍星辰創始人 /CEO姜大昕、ResNet 作者張祥雨等一眾大佬親自署名。
在響應長度上,用約 17% 的訓練步驟就能趕上 DeepSeek-R1-Zero 671B。
值得關注的是,團隊還發現了一個重要的轉捩點——
在訓練步驟約 680 步時,模型的訓練獎勵值、反思能力和回答長度同時出現顯著提升,疑似出現了 DeepSeek-R1-Zero 論文中類似的 " 頓悟時刻 "(aha moment)。
目前,研究訓練數據、訓練代碼、論文、模型全都 100%開源,開源許可證用的也是寬松的 MIT Lisence。
開源 48 小時,就已速攬 700+ 星星。
以下是更多細節。
復雜的獎勵函數不必要?!
通過廣泛的實驗,團隊證明了一種極簡主義的方法,帶有 GAE 的原版 PPO 就可以有效地擴展 RL 訓練(關鍵的參數設定是 GAE λ = 1,折扣因子 γ =1)。
再加上基于規則的獎勵函數,足以在推理任務上同時擴大響應長度和基準性能,類似于 DeepSeek-R1-Zero 中觀察到的現象。
這一結果表明復雜的獎勵函數是不必要的。
另外,團隊在不依賴任何基于 KL 的正則化技術的情況下實現了穩定的訓練,這與 RLHF 和推理模型領網域目前的認知不同,這也為進一步擴大強化學習規模提供了希望。
同時擴大數據數量和多樣性對于 Open Reasoner Zero 的訓練至關重要。雖然在像 MATH 這樣有限的學術數據集上訓練會導致性能快速達到平台期,但精心策劃的大規模多樣化數據集能夠實現持續擴展,在訓練集和測試集上都沒有飽和的迹象。
在以 Qwen2.5-Base-7B 為基礎模型的實驗中,所有基準測試在某個時間點都會經歷獎勵和響應長度的突然增加,這種現象類似于湧現行為。
在整個訓練過程中,Average Correct Reflection Length 始終高于 Average Response Length。一個特别值得注意的現象出現在第 680 步附近,可以觀察到三個指标同時加速。
最終,Open-Reasoner-Zero 模型在 MMLU 和 MMLU_PRO 基準測試中,無需任何額外的指令調整即可超越 Qwen2.5 Instruct。
One More Thing
昨天,
只提了一嘴,是因為研究還未完全完成(Working in Progress ) ,随時可能有新進展,感興趣的盆友可以關注一哈。
項目地址:
https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/
關于1/30訓練步驟復刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓練方法就分享完了,您有什麼想法可以聯系小編(賁芳蕤)。