高馬爾
一個信息發佈的網站

ChatGPT後訓練方法被OpenAI離職聯創公開,PPT全網轉~

今天小編(郜萌運)要和大家分享的是ChatGPT後訓練方法被OpenAI離職聯創公開,PPT全網轉~,歡迎閱讀~

離開 OpenAI 後,他們倆把 ChatGPT 後訓練方法做成了 PPT,還公開了~

正如網友所言,可能沒有人比他倆更了解 ChatGPT 後訓練的事兒。

畢竟,一位是 OpenAI 聯合創始人,曾經也是 OpenAI 後訓練共同負責人的John Schulman,另一位是曾經在 OpenAI 當後訓練研究 VP 的Barret Zoph

John Schulman 發推文稱:

啊,我和 Barret Zoph 最近在斯坦福做了一場關于後訓練以及分享開發 ChatGPT 經驗的演講,可惜沒被錄下來,但我們有 PPT。

網友不語,只是一味點贊收藏。

有曾在現場的網友親證,演講質量真不戳。

還有網友在感謝完倆人後想要更多:

如果能分享更多關于訓練後階段的最新進展,比如推理模型、DeepSeek RL 等,那就太好了。

以下是這次的 PPT~

ChatGPT 後訓練方法 PPT 版

先是自我介紹。

Barret Zoph 和 John Schulman 曾在 OpenAI 共同擔任後訓練聯合負責人,從 2022 年 9 月開始合作,主要目标是開發一個對齊的聊天機器人,最初的團隊被稱為 "RL",只有少數幾個人。

接着介紹了後訓練(Post-Training)階段是什麼:

後訓練階段是模型開發的最後一步,目的是讓模型更像一個助手,遵循特定格式,并确保其适合實際生產環境,這一階段通常與產品團隊緊密合作。

用幾個具體例子,對比基礎模型和後訓練模型的區别:

後訓練 VS 預訓練總的來說:

計算資源需求更低,迭代周期更快;使用基于人類反饋的強化學習(RLHF);教模型使用工具;塑造模型個性;引入拒絕 / 安全行為;行為嚴重依賴預訓練階段的泛化能力。

後訓練包含三個主要組成部分:監督微調(SFT)、獎勵模型(RM)訓練、強化學習(RL)。

以下是三個組成部分的具體介紹:

随後回顧了 ChatGPT 和 OpenAI 後訓練的早期發展歷程。

包括 GPT-3、GPT-3.5 的發布、RL 團隊的工作、GPT-4 的準備過程、決定發布 ChatGPT 的細節以及發布後意外成功,實現病毒式傳播。

ChatGPT 曾一度被大批湧來的用戶擠崩:

随時間推移,ChatGPT 模型和功能逐漸更加復雜和多樣化:

2022 年 12 月最初版本和 2025 年 1 月版本的對比:

添加了許多功能:

然後講了在功能擴展和公司規模增長的背景下,如何通過主線模型(mainline model)設定來整合變化并降低風險,包括在較小規模上測試;在頻繁的更新中逐步整合更改,如果發現問題能夠迅速回滾到之前的版本。

在這當中也出現了一些失誤和挑戰……

比如模型在生成文本時出現了很多拼寫錯誤。

強化學習(RL)後發現拼寫錯誤率有所上升,在監督微調(SFT)數據集中發現了拼寫錯誤的提示。

最終通過對比過程改進,将兩個生成的文本(completion 1 和 completion 2)進行比較,選擇改進後的版本,專家會對比這兩個文本,有時會寫出改進後的版本。

此外還有過度拒絕的情況。

早期的拒絕行為過于冗長:

有一些方法比如通過改變時态,可以繞過模型的拒絕機制。

倆人随後講解了為何拒絕行為難以處理,有邊界問題和人類數據問題。

解決方案包括配對數據、有針對性的邊界示例、對标注數據進行分層處理。

另外,模型還會出現偏見。

還可能會生成虛假或誤導性的内容。

在涉及品味、主觀性和高投入的任務中,如何獲取高質量人類反饋也是一大挑戰。

通過人類與 AI 團隊協作進行标注是解決方案之一。

他們還探讨了不同來源的人類反饋在提示多樣性、标籤質量、領網域、正确性、意圖和合規性等方面的優缺點,并提出了如何利用它們各自優勢問題。

而要讓模型按照我們的意願行事,第一步是弄清楚我們想要什麼。

倆人表示這一步出乎意料的難,要明确規範。

OpenAI2024 年 5 月發布了模型規範。

還有一個開放性問題,如何保持模型多樣性和趣味性。

兩人提到通過後訓練迭代和模型蒸餾來保持或強化這些特性。

總結了以 InstructGPT、Llama 3.1 等為代表的 " 兩個時代 " 的模型訓練流程,包括從基礎模型到對齊模型的訓練步驟,最終目标是生成一個經過多次優化的對齊模型。

提出了一個開放性問題,探讨如何在模型訓練和優化過程中恢復并保持基礎模型中的多樣性和趣味性,包括不同的風格和世界觀。

最後他們推薦了一些關于後訓練的論文和 blog:

倆人都被 OpenAI 前 CTO 挖走了

John Schulman 和 Barret Zoph 離開 OpenAI 後,現在都在幹什麼——

被曝雙雙加入了 OpenAI 前 CTO Mira Murati 的新創業團隊 Thinking Machines Lab。

Mira Murati 去年 9 月官宣離職 OpenAI,離職後不久,就在 10 月份,她被曝籌備新公司 /AI 實驗室,吸金超 1 億美元。

Mira Murati 已經挖到了 20 多位頂尖研究員和工程師投奔,都是來自 OpenAI、谷歌、Anthropic 等巨頭。

這其中就包括 Jonathan Lachman 和 Barret Zoph。

John Schulman 去年 8 月離開的 OpenAI,先是加入了 OpenAI 競争對手 Anthropic,致力于 LLM 的對齊工作,短短六個月後再次離職,加入了 Murati 的創業項目,擔任首席科學家。‍

至于 Barret Zoph,去年 9 月份和 Mira Murati 幾乎同時離職,随後就加入了 Mira Murati 的團隊,擔任 CTO。‍

參考鏈接:

[ 1 ] https://x.com/johnschulman2/status/1891539960743743756

[ 2 ] https://www.businessinsider.com/openai-employees-joining-mira-murati-new-startup-2025-2#john-schulman-1

關于ChatGPT後訓練方法被OpenAI離職聯創公開,PPT全網轉~就分享完了,您有什麼想法可以聯系小編(郜萌運)。