今天小编(郜萌運)要和大家分享的是ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~,欢迎阅读~
离开 OpenAI 后,他们俩把 ChatGPT 后训练方法做成了 PPT,还公开了~
正如网友所言,可能没有人比他俩更了解 ChatGPT 后训练的事儿。
毕竟,一位是 OpenAI 联合创始人,曾经也是 OpenAI 后训练共同负责人的John Schulman,另一位是曾经在 OpenAI 当后训练研究 VP 的Barret Zoph。
John Schulman 发推文称:
啊,我和 Barret Zoph 最近在斯坦福做了一场关于后训练以及分享开发 ChatGPT 经验的演讲,可惜没被录下来,但我们有 PPT。
网友不语,只是一味点赞收藏。
有曾在现场的网友亲证,演讲质量真不戳。
还有网友在感谢完俩人后想要更多:
如果能分享更多关于训练后阶段的最新进展,比如推理模型、DeepSeek RL 等,那就太好了。
以下是这次的 PPT~
ChatGPT 后训练方法 PPT 版
先是自我介绍。
Barret Zoph 和 John Schulman 曾在 OpenAI 共同担任后训练联合负责人,从 2022 年 9 月开始合作,主要目标是开发一个对齐的聊天机器人,最初的团队被称为 "RL",只有少数几个人。
接着介绍了后训练(Post-Training)阶段是什么:
后训练阶段是模型开发的最后一步,目的是让模型更像一个助手,遵循特定格式,并确保其适合实际生产环境,这一阶段通常与产品团队紧密合作。
用几个具体例子,对比基础模型和后训练模型的区别:
后训练 VS 预训练总的来说:
计算资源需求更低,迭代周期更快;使用基于人类反馈的强化学习(RLHF);教模型使用工具;塑造模型个性;引入拒绝 / 安全行为;行为严重依赖预训练阶段的泛化能力。
后训练包含三个主要组成部分:监督微调(SFT)、奖励模型(RM)训练、强化学习(RL)。
以下是三个组成部分的具体介绍:
随后回顾了 ChatGPT 和 OpenAI 后训练的早期发展历程。
包括 GPT-3、GPT-3.5 的发布、RL 团队的工作、GPT-4 的准备过程、决定发布 ChatGPT 的细节以及发布后意外成功,实现病毒式传播。
ChatGPT 曾一度被大批涌来的用户挤崩:
随时间推移,ChatGPT 模型和功能逐渐更加复杂和多样化:
2022 年 12 月最初版本和 2025 年 1 月版本的对比:
添加了许多功能:
然后讲了在功能扩展和公司规模增长的背景下,如何通过主线模型(mainline model)設定来整合变化并降低风险,包括在较小规模上测试;在频繁的更新中逐步整合更改,如果发现问题能够迅速回滚到之前的版本。
在这当中也出现了一些失误和挑战……
比如模型在生成文本时出现了很多拼写错误。
强化学习(RL)后发现拼写错误率有所上升,在监督微调(SFT)数据集中发现了拼写错误的提示。
最终通过对比过程改进,将两个生成的文本(completion 1 和 completion 2)进行比较,选择改进后的版本,专家会对比这两个文本,有时会写出改进后的版本。
此外还有过度拒绝的情况。
早期的拒绝行为过于冗长:
有一些方法比如通过改变时态,可以绕过模型的拒绝机制。
俩人随后讲解了为何拒绝行为难以处理,有边界问题和人类数据问题。
解决方案包括配对数据、有针对性的边界示例、对标注数据进行分层处理。
另外,模型还会出现偏见。
还可能会生成虚假或误导性的内容。
在涉及品味、主观性和高投入的任务中,如何获取高质量人类反馈也是一大挑战。
通过人类与 AI 团队协作进行标注是解决方案之一。
他们还探讨了不同来源的人类反馈在提示多样性、标签质量、领網域、正确性、意图和合规性等方面的优缺点,并提出了如何利用它们各自优势问题。
而要让模型按照我们的意愿行事,第一步是弄清楚我们想要什么。
俩人表示这一步出乎意料的难,要明确规范。
OpenAI2024 年 5 月发布了模型规范。
还有一个开放性问题,如何保持模型多样性和趣味性。
两人提到通过后训练迭代和模型蒸馏来保持或强化这些特性。
总结了以 InstructGPT、Llama 3.1 等为代表的 " 两个时代 " 的模型训练流程,包括从基础模型到对齐模型的训练步骤,最终目标是生成一个经过多次优化的对齐模型。
提出了一个开放性问题,探讨如何在模型训练和优化过程中恢复并保持基础模型中的多样性和趣味性,包括不同的风格和世界观。
最后他们推荐了一些关于后训练的论文和 blog:
俩人都被 OpenAI 前 CTO 挖走了
John Schulman 和 Barret Zoph 离开 OpenAI 后,现在都在干什么——
被曝双双加入了 OpenAI 前 CTO Mira Murati 的新创业团队 Thinking Machines Lab。
Mira Murati 去年 9 月官宣离职 OpenAI,离职后不久,就在 10 月份,她被曝筹备新公司 /AI 实验室,吸金超 1 亿美元。
Mira Murati 已经挖到了 20 多位顶尖研究员和工程师投奔,都是来自 OpenAI、谷歌、Anthropic 等巨头。
这其中就包括 Jonathan Lachman 和 Barret Zoph。
John Schulman 去年 8 月离开的 OpenAI,先是加入了 OpenAI 竞争对手 Anthropic,致力于 LLM 的对齐工作,短短六个月后再次离职,加入了 Murati 的创业项目,担任首席科学家。
至于 Barret Zoph,去年 9 月份和 Mira Murati 几乎同时离职,随后就加入了 Mira Murati 的团队,担任 CTO。
参考链接:
[ 1 ] https://x.com/johnschulman2/status/1891539960743743756
[ 2 ] https://www.businessinsider.com/openai-employees-joining-mira-murati-new-startup-2025-2#john-schulman-1
关于ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~就分享完了,您有什么想法可以联系小编(郜萌運)。