高馬爾
一個信息發佈的網站

01年實習生被曝負責字節RL核心算法!系字節LLM攻堅小組成員

今天小編(習又夏)要和大家分享的是01年實習生被曝負責字節RL核心算法!系字節LLM攻堅小組成員,歡迎閲讀~

一個超越 DeepSeek GRPO 的關鍵 RL 算法出現了!

用上該算法後,Qwen2.5-32B 模型只經過 RL 訓練,不引入蒸餾等其他技術,在 AIME 2024 基準上拿下 50 分,優于相同 setting 下使用 GRPO 算法的 DeepSeek-R1-Zero-Qwen,且 DAPO 使用的訓練步數還減少了 50%。

這個算法名為 DAPO,字節、清華 AIR 聯合實驗室 SIA Lab 出品,現已開源

論文通訊作者和開源項目負責人都是一個叫 Qiying Yu 的人

Qiying Yu,何許人也?

量子位搜羅網絡公開資料,整理出以下信息:

禹棋赢,01 年生,本科畢業于哈工大,直博進入清華 AIR,目前博士三年級在讀。去年年中,他以研究實習生的身份加入字節首次推出的「Top Seed 人才計劃」。

我們還從知情人士處得知了禹棋赢的另一重身份——

在字節大模型團隊内部負責打造 " 能力顯著提升的下一代語言模型 " 的攻堅小組中,禹棋赢是唯一的實習生。

雖然是實習生,但在這個大神雲集的小組裏,禹棋赢被委以重任,直接負責 RL 方向的研究

憑什麼?

事情要從去年夏天説起。

去年 10 月,他在字節第一個跑出 aha moment

去年 5 月,字節啓動「Top Seed 人才計劃」,最終錄取多名應屆和在讀博士組成史無前例的 AI 研究團隊,禹棋赢就在其中。

為期 2 個月的 warm up landing(類似可自由探索的适應期)後,禹棋赢錨定了自己的方向——大語言模型推理。

幾乎定下方向的同時,禹棋赢就和 mentor 王明軒确定,要做一個聰明的強推理能力模型。

這事兒和豆包大模型主團隊的項目并行推進,主要是禹棋赢一個人在探索。

更為關鍵的是,看到 " 采樣更多,弱模型準确率也可以很高 " 的現象後,他堅定以及肯定要用 RL 來做

不久之後的 9 月,RL 與 CoT 結合使邏輯準确性和泛化能力大幅提升的 OpenAI-o1 就出現了。

方向沒錯!那就 " 沿這條路一直往後做 "。

知己知彼,百戰不殆。禹棋赢開始花式拿 o1 跑 case,比如挨個做 IMO 題(其中部分題目得到答案不難,嚴謹的證明過程才是得分點)。

不跑不要緊,一跑起來問題就暴露了。

o1 能給出正确答案,但是證明過程缺乏。

基于此,禹棋赢和團隊當時就賭了一把,判斷 o1 是純基于 outcome supervision train 出來的。

于是乎,禹棋赢 get 了一個與當時主流思路不同的強烈技術信号:

用 outcome based reward 去做 RL

就這麼幹吧!接着就是基于字節内部小模型和内部代碼庫,用很少的 GPU、學術界開源數據集,瘋狂迭代、瘋狂跑。

這一幹還真給他幹出東西來了——

一開始,能把小模型的數學能力提升幾十分,超過内部最大、最強的模型。

後來,禹棋赢幾乎每天都會發現模型湧現出一些新能力,一些此前大夥兒一直想讓它有、但又可望不可即的能力。

現在,不需要構造任何東西,只需要通過 RL,模型自己就能把這些能力湧現出來,甚至湧現復雜的類 o1 的推理能力

以至于那段時間禹棋赢非常興奮,每天拽着王明軒瘋狂讨論到深夜。

他自己更是直接在會議室擺了張床住在公司。

雖然他和床的關系,在那 1 個多月裏其實是這樣的:半夜 12 點能躺下,但興奮得根本睡不踏實,凌晨 2 點又爬起來寫代碼,可能 5 點多一個 idea 靈感乍現就又爬起來。

基本上每一夜都非常興奮地起來好幾次,就這麼醒醒睡睡,也不覺得累。

此處出現了一個關鍵的時間節點。

" 大概十月十幾号,我們發現要模型輸出非常復雜的數學公式時,它會説 This is very difficult and seems to lead a very complicated equation. Let ’ s try another approach。" 禹棋赢覺得大模型這個反思過後換思維的行為很有靈性。

屏息凝神,他和王明軒盯着螢幕反復确認,最終認定——這就是他們所追求的能力的雛形!

根據截圖,當時他們在文檔裏敲下這麼一段話:

非常有意思。更加堅定地相信 Outcome-based RL 一定能激發出非常厲害的行為!!!

沒錯,DeepSeek-R1 引人注目的 Aha Moment(頓悟時刻),禹棋赢在去年 10 月在字節内部跑通了。

據説,此後,禹棋赢被邀請進入 LLM 攻堅小組,并委以「負責 RL 方向」的重任

下一戰," 研究清楚 RL 的 scaling 規律 "

以上細節,來自最近互聯網衝浪時在一個知乎話題下的意外發現。答主匿名,分享了在字節大模型團隊 Top Seed 實習的經歷,從事 RL 方向。

經量子位求證确認,該答主就是禹棋赢。

沿着這條脈絡,我們在互聯網上搜集整理了禹棋赢的更多 " 戰績 "

據 HIT 計算學部團委公眾号資料,禹棋赢是哈爾濱工業大學 2018 級大學生。

他以材料專業入學,中途轉到計算機科學與技術專業,主要研究方向為自然語言處理。

按照目前資料來看,這應該是名天賦型選手——大二才開始學編程,但同年就加入了博導車萬翔的科研團隊。

大四時,禹棋赢在左旺孟教授團隊以一作身份在 ECCV 上發表了一篇論文。

本科畢業後,禹棋赢直博清華,現在清華 AIR 博三在讀。

此前,他曾先在智源實習,作為核心作者產出了 Emu、EVA-CLIP 系列工作,跟随的 mentor 是曹越(前光年之外聯創)和王鑫龍(智源研究院視覺模型研究中心負責人)。

去年 5 月字節開啓 Top Seed 計劃後,他在 6 月通過校企合作項目入選,成為首批 Top Seed 成員。

量子位獲悉,和禹棋赢同期的 Top Seed 實習生還有兩屆 IMO 滿分選手、LLaDA 一作、 Buffer of Thoughts 一作等人

這裏補充一句,前面我們提到過禹棋赢的 mentor 王明軒,就是去年量子位率先曝光的字節大模型關鍵 8 人之一。

王明軒,圖源豆包大模型團隊公眾号

禹棋赢加入 Top Seed 後,就有了和王明軒一起發現 aha moment,每晚讨論到 11 點、誰也不想離開公司的難忘經歷。

後面在 LLM 攻堅小組,有一個好消息,和一個壞消息。

好消息是,加入攻堅小組後,無論是工程上還是數據上得到的各方支持都更多了。

加上組織扁平,鼓勵 end to end 把模型、預訓練、後訓練打通,結合上下遊去思考問題,整體交流非常高效。

" 壞 " 消息是,1 月底,DeepSeek-R1 從天而降。

禹棋赢在知乎帖中慨嘆,本來 " 那時每天都在認知突破與興奮中度過,但有點遺憾的是,到 1 月就被 Deepseek 打爆了 hhh。"

倒不是心灰意冷,至少 R1 的出現表示一直堅定推進的路線沒有錯,DeepSeek 團隊還把它做得很優雅,且實測效果非常優秀。

後來的測試結果顯示,如果選擇蒸餾可以立即提升推理效果,但當時為了真正弄清楚機理,禹棋赢和同事們還是選擇慢慢來,做長期的事情,step by step 提升數據質量。

回看那段日子,禹棋赢覺得 " 記憶裏完全沒有疲憊 ",興奮得睡不着覺的感受還歷歷在目。

" 怕什麼真理無窮,進一寸有進一寸的歡喜。" 他在知乎帖中寫道,團隊裏無論是工程還是算法,都會把追求真理、追求技術本質的突破作為非常大的 reward,大家會覺得這個很開心。

現在的禹棋赢又有了新的追求:他 bet LLM RL 技術 towards AGI,接下來的目标是研究清楚 RL 的 scaling

大模型行業,經驗不再是唯一籌碼

禹棋赢身上集合了太多 tag,是現如今大模型一線極具代表性的縮影。

還有個更戲劇性的 tag,必須要提的那種——

進字節前,禹棋赢還在智源做多模态方向實習的時候,據説非常多一線大模型團隊的 HR 都給他和同事抛過橄榄枝。

那時候,禹棋赢是在 DeepSeek 和字節中做的最終選擇

答案嘛,大家讀到這肯定都知道了。

之所以這樣選,禹棋赢自己説得很清楚," 字節場景和資源豐富,探索空間足夠,上限夠高。"

而且和外界印象不一樣,新人在這裏也可以得到很好的 nurture," 明軒、永輝經常來找我交流,我也可以説是在字節讀的博 "。

如果再來一次,面對 DeepSeek,我還是會選 ByteDance。

我覺得 DeepSeek 戰鬥力真的很強,但我會努力讓 ByteDance 勝算更大一點!

有點中二?有點燃?

這倒不是關鍵,關鍵是真的有地方能承接禹棋赢的高燃。

字節對禹棋赢的重用,本質上是當下頂尖大模型團隊對 " 解決前沿問題能力 " 的極致追求——一個能在 RL 方向從 0 到 1 跑通關鍵技術的年輕人,即使身份只是實習生,也能成為攻堅戰中不可替代的突擊手。

這種情況在 AI、在大模型這行并不是新鮮事了。

以實際解決問題的能力而非資歷定義價值的邏輯,早已經在重塑 AI 產業的人才坐标系。

OpenAI 從 GPT-1 開始就這樣,一作 Alec Radford 剛從非頂尖高校本科畢業,後來幾乎參與了 OpenAI 所有的重大突破;到 GPT-4o、Sora,團隊半壁江山都是新人、年輕人。

DeepSeek 也這樣,是清北應屆生撐起一片天。創業團隊更不用多説,大部分都是年輕畢業生組局。

現在又有了字節 TopSeed 實習生禹棋赢這個例子。

他們的故事折射出 AI 大模型時代的全新圖景——經驗不再是唯一籌碼,好奇心與執行力才是通行證。

AGI 領網域,大片的未知領網域等待探索。當一個新的模型架構或訓練方法被提出,無論是老法師還是新手村村民,都需要重新學習和适應。

另一邊,過往的權威方法論可能成為通往 AGI 的思維枷鎖。

年輕人雖然經驗相對缺乏,但不落窠臼,還擁有一些獨屬于初出茅廬者的特質:他們對技術直覺的信任高于既有範式,有攔都攔不住的熱情與好奇心,對試錯成本懷抱極高的耐受度。

這一切對探索 AGI 來説,珍貴非常。

非常 nice 的事情就是,學界和工業界都很認這張通行證。

學界培養和重用年輕人。每個 AI 頂會上都誕生閃耀的新星;各大高校大模型相關專業,每年都有更年輕的人擔任教職,為後來者引路。

工業界歡迎和托舉年輕人。就拿字節 Top Seed 這個大模型人才項目标杆為例,為包括實習生在内的年輕人提供充分算力資源、業界頂級待遇,不僅給予探索空間,還可以将研究轉為實際應用。

一條嶄新的、清晰的邏輯鏈擺在我們眼前:

當 AGI 探索進入無人區,誰離前沿和新的邊界更近,誰就能引領和定義規則,絕不論資歷和出身。

One More Thing

At last,看到這兒的朋友們有福了,來吃最後一口瓜

量子位獨家獲悉,今年字節還會繼續 Top Seed 項目。

将由原谷歌 DeepMind 副總裁、現字節跳動豆包大模型團隊負責 AI 基礎研究探索工作的吳永輝親自帶隊

參考資料:

[ 1 ] https://www.zhihu.com/people/wabjpz

[ 2 ] https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTEyNQ==&mid=2247488385&idx=1&sn=56b0aefdc366c35535094062318be078&chksm=cebb3c1bf9ccb50d0061a76305f3710d7baba55d8a8400c55b84ca1aaa287f5af535acc649b2#rd

[ 3 ] https://mp.weixin.qq.com/s/2oo0LLsOLdKomNZs2UONnw

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

關于01年實習生被曝負責字節RL核心算法!系字節LLM攻堅小組成員就分享完了,您有什麼想法可以聯系小編(習又夏)。