Py学习  »  Git

普通人自建AI投研工作流的诀窍:用好Harness、Skill、GitHub三板斧

华尔街见闻-资讯-最新 • 1 周前 • 58 次点击  

大模型早已从新鲜事物变成了越来越多投资者、研究员和知识工作者每天都在使用的工具。

但同样使用豆包、GPT、Claude,有的人已经让AI深度参与研究、分析和决策流程;有的人却仍停留在“帮我总结一下这篇文章”。

差距究竟来自模型本身,还是来自使用方式?

6月2日,公众号「Thea的AI折腾日记」作者、前微软搜索算法工程师Thea Xue做客大咖会客厅,分享了她对于AI工作流的思考。直播回放→AI投研还能这么玩?

在她看来,大模型只是起点,真正决定效率差异的并非模型本身,而是使用者是否能够驾驭模型(Harness)、沉淀工作流(Skill),并借助开源生态(Github)不断扩展自己的能力边界。

她将其总结为 AI 赋能的“三板斧”——Harness、Skill 和 Github。

以下为直播内容整理。

一、Harness:很多人用不好AI,不是模型不够强,而是不知道如何驾驭它

首先讲Harness。

Harness原本是骑马时使用的缰具。很多人会觉得大模型非常强大,它几乎什么都能做,但它有点像一匹脱缰的野马,能力很强,却不一定能跑到你想去的方向。所以如果想让大模型更好地服务于我们,首先要学会给它戴上缰具。

前段时间梁文峰有一句比较出圈的话:

Model+Harness=Agent

也就是说,想把大模型真正用好,本质上只需要解决两个问题:Model和Harness。

Model其实相对简单。在大部分通用任务场景下,直接选能力最强的模型就可以了。但有一种情况比较特殊,就是模型接入了不同的数据渠道。

举个例子,我曾让几个模型搜索北京最近举办的AI分享会。元宝找到的大多是适合个人开发者、创业者参加的小型活动,而Claude和GPT找到的往往是大型行业会议。

原因很简单。元宝能够获取微信公众号里的内容,而公众号的反爬机制比较严格,Claude和GPT很难直接拿到这些数据。所以如果你想搜索公众号生态里的信息,元宝往往会更有优势。

不同模型其实都有自己的特长。

元宝更适合微信生态内容;Gemini在YouTube、Google Scholar等渠道表现更好;豆包能够获取更多抖音相关内容;GPT对Twitter、Reddit等海外社区信息覆盖较好;Claude则非常擅长写代码和长文本输出。

尤其是写文章时,我会比较倾向于使用Claude。GPT同样很强,但现在有点过于话痨,在结构化文本输出方面,我个人会更偏向Claude。

模型怎么选讲完之后,我们再来说Harness。

Harness涉及的内容很多,今天主要分享三个部分:

第一,如何给AI信息;

第二,如何控制AI的方向;

第三,拿到结果之后,如何给AI反馈,让结果变得更加可靠。

首先是给AI信息。

大家都知道,大模型会产生幻觉。涉及数字、引用或者专业内容时,它可能会编造数据、编造出处。另外,由于训练数据存在时间边界,最新的信息很多时候只能依赖联网搜索获取。

还有一个问题是,大模型默认会给出一个“平均答案”。

为了修正这些问题,我们必须主动给AI提供信息。

这里的信息主要分为两类。

第一类是真实世界的信息。

例如最新财报、公告PDF、卖方研报全文等。

如果涉及专业分析,我非常建议大家先把这些客观资料喂给模型,而不是直接裸问。

很多时候你觉得AI分析得头头是道,是因为相关信息本身比较公开,它能够在公开语料里找到答案。但对于一些不那么公开的数据,它很可能只能靠猜。

所以在处理专业问题时,一定要先把客观信息提供给模型。

第二类是你自己的信息。

包括你的能力圈、风险偏好、投资边界、表达习惯等等。

比如你问:

宁德时代该不该买?

模型大概率会给你一个“长期看好、短期谨慎”的标准答案。

但如果你提前告诉它:

我已经有40%的仓位在新能源。

那么它给出的建议就会完全不同。

因为这时候它考虑的是你的投资边界,而不是一个平均意义上的投资者。

当然,并不是所有任务都需要个人信息。

像读财报、拆三表这类偏数据分析的工作,对个人画像要求并不高;但如果你希望AI帮你写符合自己风格的研报,或者给出符合自己投资习惯的建议,那么你的语言风格、分析框架、风险偏好就非常重要。

很多人会说:

“我也不太清楚自己的投资风格是什么。”

没关系。

你完全可以让AI来采访你。

让它通过提问的方式了解你的投资习惯、风险偏好和决策逻辑,最后帮你整理出一份投资者画像。保存下来以后,可以反复使用。

这里还有一个小建议:

描述自己时尽量写事实,少写形容词。

与其说:

我擅长能源研究。

不如告诉它:

我过去几年具体研究过哪些公司、做过哪些判断。

让AI根据这些事实反向分析你的能力圈,往往会更准确。

接下来是第二部分:控制方向。

如果不给方向,AI最终给出的仍然会是一个平均答案。

比如:

帮我分析一下宁德时代。

和一份明确规定分析范围、分析结构和输出要求的提示词相比,最终结果一定有很大差异。

所以使用AI时,一定要学会给约束。

我通常会把约束分成四类:

第一类是边界。

比如只讨论动力电池业务,只分析2026年,不讨论海外业务等等。

边界越明确,AI越不会发散。

第二类是结构。

告诉它希望按照什么框架来回答。

否则它很容易想到什么说什么。

第三类是要素。

例如必须引用页码、必须给出表格、必须包含风险提示等等。

第四类是长度。

很多人会忽略这一点,但长度往往直接影响结果质量。

同样一个问题,300字和3000字的回答,深度可能完全不同。

约束还有一些更高级的玩法。

比如角色设定。

我以前写过一篇文章,让AI扮演高盛研究员、文艺复兴量化分析师等角色。

它当然不可能知道这些机构内部真实的研究流程,但它能够调用训练语料中的相关风格和表达方式,让结果更接近这些机构的思考框架。

还有一种约束方式是主动放宽边界。

比如我之前写过一篇让Claude开启“上帝模式”的文章,本质上就是明确允许它突破常规框架,尝试从一些不那么主流的角度思考问题,帮助我们获得更多脑暴式的灵感。

所以约束不一定只是收窄边界,它也可以是有意识地放开边界。

大家写得多了之后就会发现,约束的方法远远不止边界、结构、要素和长度这四种,形式其实非常灵活。

 

写完约束之后,如果想进一步控制方向,还需要管理AI的注意力。

我自己的习惯是:一事一窗。

也就是说,一件事情尽量只在一个窗口里讨论。比如你正在做公司分析,就不要突然在同一个对话里问它今晚吃什么。短期看好像没什么影响,但时间长了,AI可能会把两件事的上下文混在一起。在做公司决策时,它可能会错误地认为你非常关心食品消费相关内容,从而影响后续回答。

所以平时最好养成习惯:不同任务分开窗口。

但反过来,如果是一个很大的长期项目,也不要过度拆散。很多时候,开8个窗口不如维护一个长窗口。因为一个长期会话可以保留整体记忆,让AI持续理解你们之前讨论过什么。

需要注意的是,大模型有上下文长度限制。如果聊得太多,它可能会丢失前面的记忆。我的方法是:定期写一份交接文档。

让AI把当前项目的核心内容、已经形成的结论、后续要做的事情整理成一份交接文档。过一段时间,再让它重新阅读这份文档,继续往下聊。这样就可以尽量保住之前的聊天成果,不至于让它突然失忆。

另外,在对话过程中也要多重申规则。

比如你希望每次回答控制在几百字,就每次都提醒它;你希望所有结论必须标注页码,也要反复强调。很多时候聊着聊着会跑偏,当你发现偏离主题时,就重新声明问题。

你甚至可以在一开始就告诉AI:

如果你发现我跑偏了,请记得把我拉回来。

这样可以让它的注意力更集中在当前任务上。

当AI的回答不满意时,可以用对抗式追问,让回答不要浮于表面。

第一种追问,是问它“为什么”。

比如:

这个结论到底有没有依据? 这个结论是从哪里来的? 这条逻辑链上最薄弱的一环是什么?

这样可以让AI自己攻击自己,重新检查刚才的回答是不是足够深入。如果不够,它往往会自己补充和完善。

第二种追问,是加入假设条件。

比如:

如果出现相反情况,会怎么样? 如果这个变量发生极端变化,结论还成立吗?

越极端的假设,越容易迫使AI重新思考,从而给出更深入的回答。

第三种追问,是要求它给出可验证的内容。

只有当它给出具体信息、具体数据、具体来源时,我们才更容易判断它是不是在敷衍,回答是不是浮于表面。

但这里有一点需要注意:追问不要太情绪化。

如果你只是问:

你确定吗?

它很可能会顺着你说“确定”。

更好的方式是给它条件、例子和约束,让它有机会推翻之前的结论,重新给出更真实的结果。

关于和大模型对话,我想讲的第三点是反馈。

AI的回答天然有两个偏差:幻觉和讨好。

幻觉可以通过提供信息来减少;讨好则需要我们用反馈和交叉验证来纠正。

比如可以把一个模型的结论放到另一个模型里,让另一个模型检查它是否成立。我平时做比较复杂的任务时,经常会同时打开三个大模型,直到它们的观点基本趋于一致,再真正动手执行。

写代码时也类似。Claude里可以调用Codex,我有时会直接让Claude调用Codex,让它们两个讨论,直到结果一致后再实施。这样写出来的代码稳健性会更高。

如果涉及决策类问题,我更建议用不同“血统”的模型交叉验证;如果是写代码,可以重点使用Claude和Codex这两个能力比较强的模型。

反馈的另一种方式,是把真实世界的结果回传给AI。

因为AI的知识主要来自互联网上的数据,或者历史文本数据,它没有真正接触你的现实世界。所以当它给出某个判断或建议之后,你最好把自己的实际操作结果再反馈给它。

这样它会逐渐学习你的真实情况,之后给出的结果也会越来越贴合你。

所以,每次和大模型对话前,可以做四个自检:

第一,我选对模型了吗?

第二,我有没有给够信息?

第三,我有没有持续指挥AI的注意力?

第四,讨论有结果之后,我有没有把结果回传给它?

如果每次都这样做,大家可能会觉得太麻烦。那有没有更简单的办法?这就进入第二板斧:做一个Skill来解决重复工作。

二、Skill:把重复工作沉淀成自己的能力资产

Skill的含义很简单,就是一份可复用的提示词包。

也就是说,你把每次要和AI说的话、要让AI执行的流程,打包成一个固定东西。以后只要调用这个Skill的名字,它就会按照你的需求和流程,自动帮你跑一遍,最后得到结果。

如果不用Skill,每次都要重新写结构,重新告诉它要怎么分析。用了Skill之后,就可以按照固定方式直接进入分析。

为什么金融人特别适合用Skill?

因为投研流程本身高度标准化,天然适合封装。金融分析的数据源相对固定,输出格式也相对固定,重复频率又很高,所以复利效应会很明显。

比如读一家公司的财报。如果每次都重新打一遍流程,会非常累。更好的方式是把它做成一个读财报的Skill。

很多人可能会觉得做Skill很麻烦,但其实从0到1做一个读财报的Skill,只需要和AI进行几轮对话。

第一步,是和AI一起探讨流程。

你可以直接问它:

我想做一个读公司财报的Skill,不知道应该怎么设计流程,你能不能先通过反问的方式帮我梳理?

它会开始问你很多问题,比如读什么内容、PDF从哪里来、需要重点关注什么指标、输出成什么格式。

第二步,是注入你自己的风格。

如果你知道自己平时怎么读财报,就直接告诉它你的流程;如果你不知道,也可以让它继续提问,通过选择题或表格帮你梳理。

第三步,是加入偏好。

比如你希望它参考某位老师的财务分析方法,或者按照你们公司的固定模板输出,都可以告诉它。

我自己做过一个很基础的读财报Skill。它会先生成一个整体分析,然后包括公司业务画像、具体业务拆分、财务分析、评级等内容。它完全可以按照你想要的方式呈现。如果你们公司有特定风格,也可以把模板丢给它,让它模仿那个风格输出。

做Skill的方法并不复杂,而且当你开始做之后,很容易发现“万物皆可Skill”。

读财报可以做Skill,读研报可以做Skill,行业对比可以做Skill,公告速读也可以做Skill。任何重复出现、流程相对固定的工作,都可以封装成Skill。

这里也不用追求一开始就做得很好。

Skill不需要在第一时间做成完美版本。先做出来,用一次之后发现问题,再让AI继续优化。不断迭代到你觉得足够好,再把它保留下来。

做Skill的意义,就是把重复工作沉淀下来,之后每一次都能节省大量时间。

三、Github:把全世界的能力接入自己的工作流

最后一部分,和大家介绍一下Github开源项目。

Github可以理解为全球最大的工具菜市场。你能想到的很多需求,大概率已经有人做过,而且做得很好。这个世界上有很多很厉害的人愿意把自己做出来的工具开源发布,我们就可以直接从这个菜市场里挑选自己想要的东西。

金融人可以用Github上的项目做很多事情,比如读财报、读行情、搭建Agent等。

打开Github之后,可以通过搜索找到相关项目。选项目时,我一般会看几个指标。

第一个是Star数。

它代表有多少人收藏了这个项目。通常收藏越多,说明受欢迎程度越高。

第二个是Fork数。

Fork表示有多少人把这个项目拉下来使用,也能反映真实使用情况。

第三个是更新时间。

如果一个项目一直在持续更新,说明还有人在维护。我们尽量选择这种项目。否则可能用着用着,电脑系统升级了,项目却没人维护,就无法继续使用。

有些项目还有讨论区。如果讨论很多,也说明项目有一定活跃度,这类项目也可以优先考虑。

那完全不会写代码的人怎么办?

其实也没有关系。你找到一个项目之后,可以直接把项目名字告诉你的编程工具:

我现在需要用这个项目,你帮我运行一下。

现在的自然语言编程工具,可以自己读取项目代码,帮助你部署和运行。

当然,Github上项目非常多,不是每一个都能直接使用。大致可以分为几类:有些项目可以真实使用,有些更偏思想启发,还有一些需要深度定制化之后才能用。

所以看到一个新项目时,可以先把它交给大模型分析,让模型帮你判断它到底适不适合自己。

如果适合,就拿来用;如果不适合,也可以学习它的思路,看看它能不能给自己的工作流带来启发。

最后总结一下,大家今天可以先做三件事:

第一,写一份自己的投研背景文档;

第二,尝试做一个属于自己的Skill;

第三,去Github找一个开源项目,让大模型帮你判断它是否能接入自己的工作流。

四、关于AI投研,Thea还回答了几个大家最关心的问题

Q:完全不会写代码,如何开始搭建自己的AI投研助手?

Thea:我的建议是先不要想着直接做Agent,而是从做一个Skill开始。

Skill本质上就是一套可复用的提示词和工作流。你可以直接告诉AI:

我想做一个读财报的Skill,帮我设计流程。

接下来它会一步步带着你梳理,比如怎么读取PDF、怎么提取数据、怎么分析内容,以及最终如何输出结果。

对于不会写代码的人来说,这是一个非常好的起点。因为当你把一套固定流程沉淀下来,并且能够反复调用时,其实已经拥有了一个简单版本的Agent。

Q:如何利用黄仁勋、马斯克等科技领袖的发言辅助投研?

Thea:我一般会把整个流程拆成四步。

第一步是获取数据,包括公司官网、个人社交媒体账号以及Reddit等社区讨论。

第二步是提取核心内容。我会重点关注近期高频出现的新词、反复提及的关键词,以及已经开始出现实际反馈的内容。

第三步是建立逻辑链条。比如这些关键词背后对应哪些产业链、哪些技术方向,以及未来可能落地的应用场景。

最后一步是映射到具体公司,寻找哪些企业可能真正受益于这些变化。

黄仁勋可以这么做,马斯克也可以这么做。实际上,任何持续输出观点的人,包括上市公司高管、OpenAI管理层,甚至一些行业专家,都可以用类似的方法进行长期跟踪。

Q:AI会替代研究员吗?哪些能力更难被替代?

Thea:我觉得最容易被替代的,是重复性的工作,以及没有个性的工作。

如果所有人都用同样的模型、同样的提示词、同样的工作流,最后得到的结果其实会越来越趋同。

真正不容易被替代的,反而是那些带有个人特色的东西。

进入AI时代之后,我反而开始刻意保留一些能力。

一个是阅读长文本的能力。现在AI可以帮我们总结一切,但如果长期只看摘要,人会慢慢失去阅读和理解复杂内容的能力。

另一个是做决策的能力。很多事情我会交给AI去分析,但最终承担责任的人还是自己。所以我会刻意保留自己独立做判断、做决策的能力。

Q:面对AI给出的建议,你更相信AI还是自己?

Thea:我会参考很多AI的建议,但不会完全依赖AI做决定。

有时候我会记录下AI给出的判断,以及我最后实际做出的选择,过段时间再回头验证,看看究竟是自己的思路出了问题,还是AI的分析存在偏差。

平时我也会使用一些专门用于头脑风暴和决策辅助的Skill。它们不会直接告诉我答案,而是通过不断提问的方式,帮助我梳理自己真正想要什么。

我一直觉得,AI更适合成为一个决策辅助者,而不是决策替代者。

与其直接问:

我应该怎么做?

不如通过合理的引导和约束,让它逐渐变成一个越来越理解你、越来越接近你思考方式的决策伙伴。

风险提示:大师课为甄选第三方合规机构人士,讲授投研理论课程之平台,所授内容不构成对任何具体产品的买卖或投资建议。平台课程所表述的意见仅供学习与参考,不代表华尔街见闻意见或观点,也不解决用户特殊的投资目标、财务状况或需要。市场具有波动性和不确定性,平台不对任何与您依赖课程观点或信息而遭受的损失承担责任。投资有风险,请谨慎决策。
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/197235