社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

分享

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

印度

一周十大热门主题

机器学习学术速递[12.3]

机器学习学术速递[12.4]

创作降门槛！京东云推“灵境”一站式AIGC平台上线

一键生成化学结构图！Python新工具让科研效率翻倍，LaTeX党狂喜

让我眼前一亮的 6 个 Python 库

《AIGC面试宝典》「阶梯地图」

30年数学难题，AI仅6小时告破！陶哲轩：ChatGPT们都失败了......

30天入门Python（基础篇）——第8天：函数式编程

精练日报｜耐克总部宣布架构调整，强化大中华区等区域市场沟通；苹果健康将融合ChatGPT；ZARA母...

ChatGPT、Grok、Gemini免费使用次数介绍

关注

Py学习 » 机器学习算法

这里的“强化机制（reinforcement）”不是指机器学习里-20251128090706

黄建同学 • 1 周前 • 33 次点击

2025-11-28 09:07
本条微博链接

这里的“强化机制（reinforcement）”不是指机器学习里的强化学习（reinforcement learning），而是在 agent 循环里人为注入的“额外提示消息”，用来引导、修正、稳定 agent 的行为。它是一种工程技巧，不是算法。比如，在 agent 执行工具后，把工具结果 + 必要的、人为补充的信息一起塞回 agen...

这篇文章《Agent Design Is Still Hard》写的太好了，值得逐行细读！
看完的6个感受：
1. 如果你自己写 agent，建议尽量直接用底层 SDK（而不是高层抽象）；
2. 明确缓存策略 — 尤其是对大模型 + 多步骤任务，非常关键；
3. 引入强化机制（reinforcement）和 sub-agent / sub-inference，以提高 agen ...全文

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/189767

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)

沪ICP备11025650号