(注:本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费)

兴奋
自从 ChatGPT 推出 OpenAI Deep Research 模式,我就很兴奋。我跟你提过,那一天早上,我直接放弃了洱海荡舟,而是坐下来写完了一篇《对科研工作者来说,OpenAI Deep Research 功能意味着什么?》

但是后来,我发现自己实际使用 OpenAI Deep Research 的次数并不多。甚至还曾经把 ChatGPT Pro 订阅降回了 Plus。
为什么?因为每次深度调研,等太久了啊。人的好奇心,是个非常宝贵的东西。如果不能得到及时满足,有时你甚至都会忘了自己的问题。
我前两天翻看 ChatGPT 对话记录,发现好几个当时跑出来的 OpenAI Deep Research 结果,压根儿都没看过。因为等候时间太长,我给忘了。
特别是,你每一次输入问题,OpenAI Deep Research 都会跟你敲定一个研究计划。

这个敲定方法,可不像 Gemini Deep Research 那样,直接点继续即可。而是非常具体的问题,让你忍不住去回答。可是我觉得有时问题水平并不高。
因为在核对研究计划的时候,它的调研还没有开始,对很多新事物,它压根儿就没听说过,所以经常是你说「前门楼子」,它问「胯骨轴子」。有没有意义?有,因为按照它这个原始理解直接做,则回答出来的东西肯定是驴唇不对马嘴。但是我每次提问,都得被拷问一番,这让我这个懒人非常不开心。所以,我干脆懒得问了。
后来驱动 OpenAI Deep Research 的 o3 模型被单独作为一个产品拿了出来,放在 ChatGPT 里面供我调用。我用了几天,立即就把 Plus 升级到了 Pro 。因为我发现,Plus 给的 o3 额度(每周 100 次)根本不够用。
于是当时我又写下了一篇文章《用 AI 改变工作流:为什么我坚持订阅最贵的 ChatGPT Pro》,解释自己为什么喜爱 o3 。它就是可以帮到我,提供真正的价值。简单总结一下,大概是下面这三条:
首先,它可以调用工具,本身就是 Agent 。因此它也能搜集信息、分析、甚至运行代码,帮我解决问题。
其次,它根本不会回嘴问我研究计划,直接做就行。
第三,它运行起来,比 OpenAI Deep Research 快多了,虽然有的时候也得思考上几分钟,但这差出来的几分钟、十几分钟,对我满足好奇心的要求来说,差别巨大。
所以,那时候 Plus 用户每周 100 次的调用次数,我是不够用的。还得交钱。
不过, o3 后来降价了,Plus 用户每周调用次数也到了 200 次。刚好那时我高频使用 Claude Code ,花在 Claude Max 订阅上的钱也相当可观,钱包有些撑不住了。于是又把 ChatGPT Pro 降到了 Plus 。
刚降级到 Plus 没两天,ChatGPT Agent 又出来了。
我……@#¥:“!@#¥
得嘞,只好又一次,掏钱。
那这次掏钱,值吗?
介绍
咱们先得说说,这 ChatGPT Agent 究竟是个啥。
实际上,它是 OpenAI Deep Research 和 ChatGPT 之前的 Operator 模式的集成。前者可以调研资料,后者可以操作浏览器填表下单。这俩一集成,那可就成了双剑合璧了。
ChatGPT Agent 能在虚拟电脑中浏览网页、运行代码、访问 API、生成演示文稿和电子表格,并通过连接 Gmail、Google Drive、GitHub 等应用检索信息。
你可能会纳闷儿,这些功能既然原先 ChatGPT 不同模式里都有,那合并起来有啥了不起呢?没有增量啊。
那可不是。如果没有网页交互能力,AI agent 能力会大大受限。Prompt Engineering Guide 就指出 Deep Research 不能导出结果至 Excel 等应用,也无法搜索付费墙后内容。
而相对地,ChatGPT Agent 集成文字浏览器和视觉浏览器,既能扫描文本也能点击、滚动和填写表单。这样一来,它获取、研读资料的能力便有了提升。
你甚至可以把内容展现形式也一股脑交给它执行。例如让它在行文中做个图表,或者干脆,把结果用 PPT 形式呈现。

在执行展现上,它也要比 OpenAI Deep Research 有趣很多。你看这个动图,它展示的,是 ChatGPT Agent 在查找和读取资料。

ChatGPT Agent 把网页访问、读取、写代码、虚拟终端执行等操作,全都用动画方式展现,非常有趣。尽管你可以让它开始执行就跑到一边喝咖啡,不过我有的时候就是喜欢坐在跟前看着它执行,感觉很解压。
因为我知道,原本这些苦活儿累活儿,都是需要我自己来做的。真有一种「碳基生物」熬出头儿了的爽感,哈哈。
测试
我做了一些测试,选题来自于我的老同学。但是我给他反馈了报告和 PPT 之后,他并没有惊艳的感觉。

我突然明白过来一个事儿 —— 尽管咱们在用一个能力很强的智能体,但是提示词的作用也不能忽略。
这个理由,我在《从平庸到惊艳:让 AI 输出质量飙升的提示词构造方法》这篇文章给你介绍过,此处咱们不再赘述。你只要记住一点,用强化学习训练出来的模型,一样也得用合适它的提示词,才能最大发挥效力。这合适,未必是指引,更可能是约束。
想到了那篇文章,咱们的解决方案也就有了。咱们干脆用给你介绍过的这段「化腐朽为神奇」提示词,把非常笼统的要求,变成具体的提示词,再交给 ChatGPT Agent 好了。
很快,提示词做好。不过这回我想还是换个问题吧。毕竟老同学的问题,不好泄漏出去。于是题目换成了:
给我讲讲稳定币是怎么回事儿
这是 ChatGPT Agent 调研后,生成的 PDF 结果。

嗯,非常有场景感的开头。
咱们往下看,我很喜欢其中使用的画面。这都是 ChatGPT Agent 调用多模态能力自动生成的图像。

后文这个描摹算法稳定币的「数字蜂鸟」也挺好,它比喻了算法稳定币的精巧与脆弱性。

更重要的,是结果里面援引的资料,都有引用来源,便于你对于重要信息手工核验。

我觉得,这篇调研结果写得甚是满意,于是上传到了星球。吸引了不少星友下载。

然而,有的星友觉得, ChatGPT Agent 并不如 OpenAI Deep Research 好使。他们指出 ChatGPT Agent 幻觉严重,还划水。

幻觉?指什么?
因为我对稳定币最新动态不是很了解,所以初看起来没有找出明显问题。
好在,星球里有行家,嘉宾方军老师给出了详细的评语。谈及加密货币,方军老师绝对是专业权威。

方军老师一针见血指出文稿的两个重要问题:
首先是新闻来源的权威性。目前不加区分,导致不权威新闻源混入。我希望最终结果足够通俗易懂,但是调研的来源最好是一手信息。这确实是个重要问题。
其次,是信息的过时。站在过去某个时刻,某一种类别(算法稳定币)或许可以和其他类别相提并论。但是 2022 年 Terra 事件之后算法稳定币名声基本上毁了。所以拿着不同时期的资料,混在一起来说,就会带来问题。
这后一个问题很重要。其实,我自己也早就吃过亏。曾经我做报告的时候,顺手展现了实现录制好的用秘塔 AI 搜索对邀请方单位的调研。看到前面那些内容,大家都惊喜不已。直到机构简介部分,一把手介绍这一栏。因为秘塔调研的信息是过时的,所以把前任一把手的名字赫然填写在那里。一时间,所有人表情都凝固了……
我非常感谢方军老师和星友们的提醒,但是我总觉得不能在这里停下来浅尝辄止,认定 ChatGPT Agent 不靠谱。
我觉得,修改增强提示词,还是有必要的。
提示
我直接给你看修改过后的提示词: