社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

《ChatGPT and The Art of Post-Tra-20250430182622

黄建同学 • 1 月前 • 43 次点击  

2025-04-30 18:26

《ChatGPT and The Art of Post-Training》
前 OpenAI 后训练负责人 Barret Zoph 和 John Schulman 的 PPT:《ChatGPT and The Art of Post-Training》。

链接:docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE

里面有一些信息:

- John Schulman、Barret Zoph 是后训练的负责人,两人从 2022 年 9 月份开始合作。
- OpenAI 的后训练团队最早是「RL团队」,只有 5 个人,在 2 年时间发展到 100 人以上。
- RL 团队 2021 年做 WebGPT(浏览 + 问答),2021 年初开始为 WebGPT 的继任者研究聊天形式。
- 后训练让模型像助手一样工作,并遵循相应的格式,现在流行的这些检索、浏览网页、tool use 等能力来自于后训练。
- 后训练团队通常与产品团队之间配合更密切,因为后训练是模型投入生产的最后阶段。
- 后训练三大组件:
监督微调 (SFT):克隆人类/专家行为;
奖励模型 (RM):建模人类偏好;
强化学习 (RL):用 RL 针对 RM 优化,并在训练中混入非 RM 目标。
- 一些开放问题:
🌟 高质量人类反馈
趣味、创意写作、商业点子等主观领域难标注
高难度任务(编码、数学证明、长文分析)标注成本高

🌟 行为规范化 (Specification)
“先弄清要什么” 本身极难
复杂政策如何融入模型仍待研究

🌟保持多样性与趣味性
生产模型风格趋同
小型公司常蒸馏顶级模型输出 → 风格进一步单一
如何恢复、保持多样世界观仍是挑战
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/181683
 
43 次点击