今天小编(習又夏)要和大家分享的是01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员,欢迎阅读~
一个超越 DeepSeek GRPO 的关键 RL 算法出现了!
用上该算法后,Qwen2.5-32B 模型只经过 RL 训练,不引入蒸馏等其他技术,在 AIME 2024 基准上拿下 50 分,优于相同 setting 下使用 GRPO 算法的 DeepSeek-R1-Zero-Qwen,且 DAPO 使用的训练步数还减少了 50%。
这个算法名为 DAPO,字节、清华 AIR 联合实验室 SIA Lab 出品,现已开源。
论文通讯作者和开源项目负责人都是一个叫 Qiying Yu 的人。
Qiying Yu,何许人也?
量子位搜罗网络公开资料,整理出以下信息:
禹棋赢,01 年生,本科毕业于哈工大,直博进入清华 AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed 人才计划」。
我们还从知情人士处得知了禹棋赢的另一重身份——
在字节大模型团队内部负责打造 " 能力显著提升的下一代语言模型 " 的攻坚小组中,禹棋赢是唯一的实习生。
虽然是实习生,但在这个大神云集的小组里,禹棋赢被委以重任,直接负责 RL 方向的研究。
凭什么?
事情要从去年夏天说起。
去年 10 月,他在字节第一个跑出 aha moment
去年 5 月,字节启动「Top Seed 人才计划」,最终录取多名应届和在读博士组成史无前例的 AI 研究团队,禹棋赢就在其中。
为期 2 个月的 warm up landing(类似可自由探索的适应期)后,禹棋赢锚定了自己的方向——大语言模型推理。
几乎定下方向的同时,禹棋赢就和 mentor 王明轩确定,要做一个聪明的强推理能力模型。
这事儿和豆包大模型主团队的项目并行推进,主要是禹棋赢一个人在探索。
更为关键的是,看到 " 采样更多,弱模型准确率也可以很高 " 的现象后,他坚定以及肯定要用 RL 来做。
不久之后的 9 月,RL 与 CoT 结合使逻辑准确性和泛化能力大幅提升的 OpenAI-o1 就出现了。
方向没错!那就 " 沿这条路一直往后做 "。
知己知彼,百战不殆。禹棋赢开始花式拿 o1 跑 case,比如挨个做 IMO 题(其中部分题目得到答案不难,严谨的证明过程才是得分点)。
不跑不要紧,一跑起来问题就暴露了。
o1 能给出正确答案,但是证明过程缺乏。
基于此,禹棋赢和团队当时就赌了一把,判断 o1 是纯基于 outcome supervision train 出来的。
于是乎,禹棋赢 get 了一个与当时主流思路不同的强烈技术信号:
用 outcome based reward 去做 RL。
就这么干吧!接着就是基于字节内部小模型和内部代码库,用很少的 GPU、学术界开源数据集,疯狂迭代、疯狂跑。
这一干还真给他干出东西来了——
一开始,能把小模型的数学能力提升几十分,超过内部最大、最强的模型。
后来,禹棋赢几乎每天都会发现模型涌现出一些新能力,一些此前大伙儿一直想让它有、但又可望不可即的能力。
现在,不需要构造任何东西,只需要通过 RL,模型自己就能把这些能力涌现出来,甚至涌现复杂的类 o1 的推理能力。
以至于那段时间禹棋赢非常兴奋,每天拽着王明轩疯狂讨论到深夜。
他自己更是直接在会议室摆了张床住在公司。
虽然他和床的关系,在那 1 个多月里其实是这样的:半夜 12 点能躺下,但兴奋得根本睡不踏实,凌晨 2 点又爬起来写代码,可能 5 点多一个 idea 灵感乍现就又爬起来。
基本上每一夜都非常兴奋地起来好几次,就这么醒醒睡睡,也不觉得累。
此处出现了一个关键的时间节点。
" 大概十月十几号,我们发现要模型输出非常复杂的数学公式时,它会说 This is very difficult and seems to lead a very complicated equation. Let ’ s try another approach。" 禹棋赢觉得大模型这个反思过后换思维的行为很有灵性。
屏息凝神,他和王明轩盯着螢幕反复确认,最终认定——这就是他们所追求的能力的雏形!
根据截图,当时他们在文档里敲下这么一段话:
非常有意思。更加坚定地相信 Outcome-based RL 一定能激发出非常厉害的行为!!!
没错,DeepSeek-R1 引人注目的 Aha Moment(顿悟时刻),禹棋赢在去年 10 月在字节内部跑通了。
据说,此后,禹棋赢被邀请进入 LLM 攻坚小组,并委以「负责 RL 方向」的重任。
下一战," 研究清楚 RL 的 scaling 规律 "
以上细节,来自最近互联网冲浪时在一个知乎话题下的意外发现。答主匿名,分享了在字节大模型团队 Top Seed 实习的经历,从事 RL 方向。
经量子位求证确认,该答主就是禹棋赢。
沿着这条脉络,我们在互联网上搜集整理了禹棋赢的更多 " 战绩 "。
据 HIT 计算学部团委公众号资料,禹棋赢是哈尔滨工业大学 2018 级大學生。
他以材料专业入学,中途转到计算机科学与技术专业,主要研究方向为自然语言处理。
按照目前资料来看,这应该是名天赋型选手——大二才开始学编程,但同年就加入了博导车万翔的科研团队。
大四时,禹棋赢在左旺孟教授团队以一作身份在 ECCV 上发表了一篇论文。
本科毕业后,禹棋赢直博清华,现在清华 AIR 博三在读。
此前,他曾先在智源实习,作为核心作者产出了 Emu、EVA-CLIP 系列工作,跟随的 mentor 是曹越(前光年之外联创)和王鑫龙(智源研究院视觉模型研究中心负责人)。
去年 5 月字节开启 Top Seed 计划后,他在 6 月通过校企合作项目入选,成为首批 Top Seed 成员。
量子位获悉,和禹棋赢同期的 Top Seed 实习生还有两届 IMO 满分选手、LLaDA 一作、 Buffer of Thoughts 一作等人。
这里补充一句,前面我们提到过禹棋赢的 mentor 王明轩,就是去年量子位率先曝光的字节大模型关键 8 人之一。
△王明轩,图源豆包大模型团队公众号
禹棋赢加入 Top Seed 后,就有了和王明轩一起发现 aha moment,每晚讨论到 11 点、谁也不想离开公司的难忘经历。
后面在 LLM 攻坚小组,有一个好消息,和一个坏消息。
好消息是,加入攻坚小组后,无论是工程上还是数据上得到的各方支持都更多了。
加上组织扁平,鼓励 end to end 把模型、预训练、后训练打通,结合上下游去思考问题,整体交流非常高效。
" 坏 " 消息是,1 月底,DeepSeek-R1 从天而降。
禹棋赢在知乎帖中慨叹,本来 " 那时每天都在认知突破与兴奋中度过,但有点遗憾的是,到 1 月就被 Deepseek 打爆了 hhh。"
倒不是心灰意冷,至少 R1 的出现表示一直坚定推进的路线没有错,DeepSeek 团队还把它做得很优雅,且实测效果非常优秀。
后来的测试结果显示,如果选择蒸馏可以立即提升推理效果,但当时为了真正弄清楚机理,禹棋赢和同事们还是选择慢慢来,做长期的事情,step by step 提升数据质量。
回看那段日子,禹棋赢觉得 " 记忆里完全没有疲惫 ",兴奋得睡不着觉的感受还历历在目。
" 怕什么真理无穷,进一寸有进一寸的欢喜。" 他在知乎帖中写道,团队里无论是工程还是算法,都会把追求真理、追求技术本质的突破作为非常大的 reward,大家会觉得这个很开心。
现在的禹棋赢又有了新的追求:他 bet LLM RL 技术 towards AGI,接下来的目标是研究清楚 RL 的 scaling。
大模型行业,经验不再是唯一筹码
禹棋赢身上集合了太多 tag,是现如今大模型一线极具代表性的缩影。
还有个更戏剧性的 tag,必须要提的那种——
进字节前,禹棋赢还在智源做多模态方向实习的时候,据说非常多一线大模型团队的 HR 都给他和同事抛过橄榄枝。
那时候,禹棋赢是在 DeepSeek 和字节中做的最终选择。
答案嘛,大家读到这肯定都知道了。
之所以这样选,禹棋赢自己说得很清楚," 字节场景和资源丰富,探索空间足够,上限够高。"
而且和外界印象不一样,新人在这里也可以得到很好的 nurture," 明轩、永辉经常来找我交流,我也可以说是在字节读的博 "。
如果再来一次,面对 DeepSeek,我还是会选 ByteDance。
我觉得 DeepSeek 战斗力真的很强,但我会努力让 ByteDance 胜算更大一点!
有点中二?有点燃?
这倒不是关键,关键是真的有地方能承接禹棋赢的高燃。
字节对禹棋赢的重用,本质上是当下顶尖大模型团队对 " 解决前沿问题能力 " 的极致追求——一个能在 RL 方向从 0 到 1 跑通关键技术的年轻人,即使身份只是实习生,也能成为攻坚战中不可替代的突击手。
这种情况在 AI、在大模型这行并不是新鲜事了。
以实际解决问题的能力而非资历定义价值的逻辑,早已经在重塑 AI 产业的人才坐标系。
OpenAI 从 GPT-1 开始就这样,一作 Alec Radford 刚从非顶尖高校本科毕业,后来几乎参与了 OpenAI 所有的重大突破;到 GPT-4o、Sora,团队半壁江山都是新人、年轻人。
DeepSeek 也这样,是清北应届生撑起一片天。创业团队更不用多说,大部分都是年轻毕业生组局。
现在又有了字节 TopSeed 实习生禹棋赢这个例子。
他们的故事折射出 AI 大模型时代的全新图景——经验不再是唯一筹码,好奇心与执行力才是通行证。
AGI 领網域,大片的未知领網域等待探索。当一个新的模型架构或训练方法被提出,无论是老法师还是新手村村民,都需要重新学习和适应。
另一边,过往的权威方法论可能成为通往 AGI 的思维枷锁。
年轻人虽然经验相对缺乏,但不落窠臼,还拥有一些独属于初出茅庐者的特质:他们对技术直觉的信任高于既有范式,有拦都拦不住的热情与好奇心,对试错成本怀抱极高的耐受度。
这一切对探索 AGI 来说,珍贵非常。
非常 nice 的事情就是,学界和工业界都很认这张通行证。
学界培养和重用年轻人。每个 AI 顶会上都诞生闪耀的新星;各大高校大模型相关专业,每年都有更年轻的人担任教职,为后来者引路。
工业界欢迎和托举年轻人。就拿字节 Top Seed 这个大模型人才项目标杆为例,为包括实习生在内的年轻人提供充分算力资源、业界顶级待遇,不仅给予探索空间,还可以将研究转为实际应用。
一条崭新的、清晰的逻辑链摆在我们眼前:
当 AGI 探索进入无人区,谁离前沿和新的边界更近,谁就能引领和定义规则,绝不论资历和出身。
One More Thing
At last,看到这儿的朋友们有福了,来吃最后一口瓜:
量子位独家获悉,今年字节还会继续 Top Seed 项目。
将由原谷歌 DeepMind 副总裁、现字节跳动豆包大模型团队负责 AI 基础研究探索工作的吴永辉亲自带队。
参考资料:
[ 1 ] https://www.zhihu.com/people/wabjpz
[ 3 ] https://mp.weixin.qq.com/s/2oo0LLsOLdKomNZs2UONnw
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
关于01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员就分享完了,您有什么想法可以联系小编(習又夏)。