《ChatGPT and The Art of Post-Tra-20250430182622

2025-04-30 18:26
本条微博链接

《ChatGPT and The Art of Post-Training》

前 OpenAI 后训练负责人 Barret Zoph 和 John Schulman 的 PPT：《ChatGPT and The Art of Post-Training》。

链接：docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE

里面有一些信息：

- John Schulman、Barret Zoph 是后训练的负责人，两人从 2022 年 9 月份开始合作。
- OpenAI 的后训练团队最早是「RL团队」，只有 5 个人，在 2 年时间发展到 100 人以上。
- RL 团队 2021 年做 WebGPT（浏览 + 问答），2021 年初开始为 WebGPT 的继任者研究聊天形式。
- 后训练让模型像助手一样工作，并遵循相应的格式，现在流行的这些检索、浏览网页、tool use 等能力来自于后训练。
- 后训练团队通常与产品团队之间配合更密切，因为后训练是模型投入生产的最后阶段。
- 后训练三大组件：
监督微调 (SFT)：克隆人类/专家行为；
奖励模型 (RM)：建模人类偏好；
强化学习 (RL)：用 RL 针对 RM 优化，并在训练中混入非 RM 目标。
- 一些开放问题：
🌟 高质量人类反馈
趣味、创意写作、商业点子等主观领域难标注
高难度任务（编码、数学证明、长文分析）标注成本高

🌟 行为规范化 (Specification)
“先弄清要什么” 本身极难
复杂政策如何融入模型仍待研究

🌟保持多样性与趣味性
生产模型风格趋同
小型公司常蒸馏顶级模型输出 → 风格进一步单一
如何恢复、保持多样世界观仍是挑战