Py学习  »  机器学习算法

机器学习|大模型应用:模型批量解构年报前瞻,聚合行业精粹创新配置指标

中信证券研究 • 5 月前 • 105 次点击  

 关注我们  请将我们设置为星标 


赵文荣 伍家豪 


公司年报蕴藏核心高管对于行业经营趋势前瞻与逻辑成因的判断,借助大模型文本理解与抽取能力,我们可以利用全部A股的年报数据,将年报中公司对核心经营财务指标预判的乐观程度聚合成行业配置指标,并形成行业配置低频策略。具体地,我们从年报管理层讨论中批量构建个股信号,并聚合成为行业毛利润预期变化方向指标,回测显示近5年在年度行业配置策略中,多空组合年化收益率达到13.47%,对于长线资金可以形成大类配置策略增强并辅助决策。

点击阅读完整报告


中大规模基金产品行业配置周期更长,景气度研究的前瞻性与覆盖度有待提升。


对于主动型权益基金,2023H1年换手率在0-200%的基金与200-500%的基金数量占比分别为41.3%和39.7%,按基金规模分层换手率存在显著差异,且中低换手率基金数量持续增长逐渐成为趋势。大规模基金偏向于长周期行业配置,对于低频前瞻指标存在需求。自下而上的行业景气研究,全市场研报数据的个股覆盖率不到60%,整体仍呈现下行趋势;自上而下的景气研究覆盖行业和主题的比例同样较低。



大模型挖掘年报前瞻讨论章节,将基本面变化映射到个股财务指标预期。


公司管理层具备的丰富行业经验,公司年报中的管理层讨论章节包含了公司对未来发展的定性判断与分析。利用模型处理数据覆盖宽度的优势,能够处理分析A股所有公司的年报内容。通过优化Prompt引导大模型分析判断年报所蕴含的增量预期信息,总结分析年报中未来经营分析讨论的片段,并通过模型给出相关内容对核心财务指标(营业总收入、营业总成本、资本开支和分红等)的预期影响,并形成有效的量化指标。



高性价比方式实现全行业覆盖,聚合个股信号形成行业毛利润预期变化指标。


考虑到各个行业上市公司的市值分布情况,为了平衡量化效果与成本,我们选取每个中信证券一级行业前10%市值公司的年报进行个股信号计算,可以保证约50%的总市值覆盖,同时有效降低模型调用的成本。为了实现个股信号向行业指标的聚合,我们将个股信号按照市值加权,处理成为行业指标。考虑营业总收入与营业总成本的预期变化具备行业通用性,我们将总收入与总成本信号处理成为行业毛利润的预期变化指标,用于反映行业的盈利能力并刻画行业的景气度。



投资回测:毛利润变化预期指标回测分层效果优于原始指标,具备行业配置能力。


我们利用2018至2022年的历史指标进行分层测试,基于景气指标将中信证券一级行业划分为4层分别为layer1到layer4(不统计综合与综合金融行业),年度低频行业配置的分层测试效果稳定。基于layer1与layer4构建年度行业多空组合,2019年5月至2023年9月相比中信证券一级行业等权配置基准的累计超额收益达到77.03%,策略的年化收益率达到13.47%。



基于模型提取个股管理层讨论章节摘要,汇总聚合形成行业未来发展观点。


模型能够对公司年报中管理层讨论章节对公司未来发展分析预判的内容形成批量的个股级摘要,将行业内全部个股的未来发展摘要利用模型汇总聚合能够生成面向行业层面的发展观点。以2023年钢铁行业为例,模型聚合形成观点:“2023年钢铁行业供应链改善和需求理性化将促进供需平衡。技术创新和国家政策支持预示新增长机会,尤其在特钢和钒钛磁铁矿领域。”



风险因素:


文本数据覆盖度可能存在不足;历史数据统计规律失效;科技领域与数据确权监管趋严;计算资源降本不及预期。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/164131
 
105 次点击