Py学习  »  机器学习算法

AI专题:利用基本面信息改进机器学习因子(附下载)

人工智能学派 • 1 周前 • 29 次点击  

今天分享的是AI专题系列深度研究报告:《AI专题:利用基本面信息改进机器学习因子

(报告出品方:招商证券

报告共计:20

核心观点

在机器学习因于生成任务中,如何防止模型过拟合使得模型在样本外能够有稳定的表现一直是关注的重点。引入基本面信息可以从两个方面政进机器学习因子的表现,一是调整机器学习量价因子的学习目标;二是作为互补信息改进综合因子的表现。此外采用梯度提升树模型提高机器学习因于选代频率可以进一步提高综合因子的表现。

在引入周频量价信息后,原量价机器学习模型的因子表现有所提升,1C提升较为明显,多头收益率提升有限。

量价信息只是资产定价模型中的一个维度,融入基本面信息可以显著改善综合机器学习因子的表现,在机器学习模型融入基本面信息的方式主要有两个维度,一个是风险维度即对目标收益幸进行基本面风格的剔除,另一个是利用基本面 Alpha 因子与量价因子的互补性改进机器学习因子模型的表现。口对学习目标进行风格剔除时,所选的风格不同,对模型的结果存在一定的影响。总体来看,行业、市值、Beta 这三类风险对模型影响最大,口利用梯度提升树融入基本面因子后,综合因子的多头表现相比于机器学习量价因子提升明显,年化对冲收益率达到38.97%。

本文基于综合因子构建了基于宽基指数的指数增强策略,全市场选股的沪深300周频指增策略年化超额收益率为 13.83%,超额最大回撤 2.82%,信息比率为 4.14,年化跟踪误差为3.73%。

全市场选股的中证 500 周频指增策略年化超额收益率为 22.22%,超额最大回撒 6.98%,信息比率为4.03,年化跟踪误差为5.65%。

全市场选股的中证 1000周频指增策略年化超额收益率为 27.06%,超额最大回撤 6.14%,信息比率为4.69,年化跟踪误差为5.71%。

机器学习量价因子生成模型

量价机器学习模型遇到的问题

前期报告中,基于多模型的量价因子在全 A和各宽基成分股中都取得了良好的表现。但我们也发现其中存在的诸多问题。

不同模型(截面模型和时序模型)学习到的因子平均截面相关性较高。

提升模型复杂度并未能提高模型的表现(增加模型隐藏层层数或者来用更复杂的模型。

多头端对IC的贡献显著低于空头端对 IC的贡献。

在实践中,我们发现不同模型之间学习到的信息同质化较为明显,这可能是由于输入的特征相同(前期报告中仅利用了日频的原始量价信息,并做了相同处理),且学习目标一致,结果的差异主要体现在模型自身的学习逻辑,为了改善学习到的量价因子表现,我们尝试了在原始目线量价信息的基础上构建的不同量价特征和引入不同频率的量价信息。

引入长周期量价信息改进因子表现

在前期报告中,我们利用日频量价原始特征包括:OPEN、HIGH、LOW、CLOSE、VOLUME、VWAP 即开高低收价格、成交量和 VWAP 价格六个字段来构建量价因子,并在不同的成分股内取得了不错的效果,这里为了进一步提高量价因子的表现,这里借鉴微软 Qlib 构建的 158 个日频量价因子作为 Alpha158 数据集,同时我们按照图3的模式,在每个交易日回溯 150 个交易日,按照间隔5天采样 OHLC 价格、WWVAP 价格以及成交量作为周频量价数据集,日频的K线数据作为日频量价数据集。

报告共计:20页

海量+专业+深度

海量行业报告、超全面专业AI资料库,随意下载,不受限制,资料涵盖全球AI各行各业:机器人、元宇宙、虚拟数字人、大数据、区块链、数字藏品、光通信、Web3.0、6G、AR/VR/XR/MR、温室超导等100多个专题!

免责声明:我们尊重版权,本公众号“人工智能学派“均属于通过公开、付费、合法渠道获得,不用于商业用途,报告版权归原撰写/发布机所有。公众号及社群所发布的资料,仅供社群内部成员市场研究以及讨论和交流,若有异议,如涉侵权,请及时联系我们,我们依相关法律对内容进行删除或作相应处理!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/169148
 
29 次点击