Py学习  »  chatgpt

《ChatGPT and The Art of Post-Tra-20250430182622

黄建同学 • 15 小时前 • 4 次点击  

2025-04-30 18:26

《ChatGPT and The Art of Post-Training》
前 OpenAI 后训练负责人 Barret Zoph 和 John Schulman 的 PPT:《ChatGPT and The Art of Post-Training》。

链接:docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE

里面有一些信息:

- John Schulman、Barret Zoph 是后训练的负责人,两人从 2022 年 9 月份开始合作。
- OpenAI 的后训练团队最早是「RL团队」,只有 5 个人,在 2 年时间发展到 100 人以上。
- RL 团队 2021 年做 WebGPT(浏览 + 问答),2021 年初开始为 WebGPT 的继任者研究聊天形式。
- 后训练让模型像助手一样工作,并遵循相应的格式,现在流行的这些检索、浏览网页、tool use 等能力来自于后训练。
- 后训练团队通常与产品团队之间配合更密切,因为后训练是模型投入生产的最后阶段。
- 后训练三大组件:
监督微调 (SFT):克隆人类/专家行为;
奖励模型 (RM):建模人类偏好;
强化学习 (RL):用 RL 针对 RM 优化,并在训练中混入非 RM 目标。
- 一些开放问题:
🌟 高质量人类反馈
趣味、创意写作、商业点子等主观领域难标注
高难度任务(编码、数学证明、长文分析)标注成本高

🌟 行为规范化 (Specification)
“先弄清要什么” 本身极难
复杂政策如何融入模型仍待研究

🌟保持多样性与趣味性
生产模型风格趋同
小型公司常蒸馏顶级模型输出 → 风格进一步单一
如何恢复、保持多样世界观仍是挑战
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/181683
 
4 次点击