Py学习  »  机器学习算法

因子切割论与深度学习的结合应用 | 开源金工

建榕量化研究 • 4 月前 • 201 次点击  

开源证券金融工程首席分析师  魏建榕

执业证书编号:S0790519120001

开源证券金融工程高级分析师  苏俊豪联系人

微信号:18817871971
执业证书编号:S0790522020001
研究领域:因子模型、衍生品研究




因子切割论:剖析市场精细结构的利器

事物内部的各要素之间,往往存在着对立统一的矛盾。在金融市场中,当人们普遍预期的行为模式未能出现时,常常只是因为代理变量选得不好,以致未能窥见其内部更为本质的精细结构。我们在近十几年的因子研究历程中,既收获了大量个性鲜明的独家因子,也从中领悟了系统普适的方法论——因子切割

我们以理想反转因子的构造过程为例,归纳出因子切割论的三要素:对象、刀法、产出

对象具有可加性的目标变量

刀法有区分能力的切割指标

产出对切割后变量的再加工

DBD-GRU模型:因子切割论与深度学习的有机结合

我们将切割论思想与深度学习有机结合,构造出双分支差异网络模型Dual-Branch Difference GRU ,以下简称DBD-GRU模型)在DBD-GRU模型中,假设输入的数据x包含了AB两个特征,其中特征A为切割指标。我们以特征A在时序上的中位数为阈值,构造两个掩码mask_Ahighmask_Alow ,将使用掩码处理后的数据分别输入两个分支网络GRU_highGRU_low中。取两个网络最后一个时间步的差异输入输出层。

DBD-GRU模型因子表现优异

我们使用DBD-GRU模型改进了切割论的三个因子:理想振幅因子、理想反转因子、主动买卖因子;同时作为对比,也将相同数据输入GRU模型中,将其作为基线模型。

与原始切割论因子和基线模型的GRU因子相比,DBD-GRU模型因子表现优异,测试区间( 201412~202505)内,理想振幅-DBD、理想反转-DBD、主动买卖-DBD因子的RankIC分别为-10.3%-10.3%-9.8%

DBD-GRU 模型在剔除对应的切割论因子与GRU因子后仍有较好的表现,这表明DBD-GRU模型并非只是以上两者的简单叠加,而是提供了较多的信息增量,作为对比,GRU模型因子在剔除DBD-GRU因子后表现不佳。

我们将DBD-GRU模型的三个因子对称正交处理后等权合成,得到DBD-Combine因子,DBD-Combine因子在主流宽基指数中均有较好表现,在沪深300、中证 500、中证1000成分股中的RankIC分别为-5.76%-7.40%-9.84%。应用于指增组合时,在中证1000中的超额年化收益为11.8%,超额IR 2.21,表现优秀。

报告链接

点击文末阅读原文(提取码:kyjg)

报告发布日期:2025-07-26

事物内部的各要素之间,往往存在着对立统一的矛盾。在金融市场中,当人们普遍预期的行为模式未能出现时,常常只是因为代理变量选得不好,以致未能窥见其内部更为本质的精细结构。我们在近十几年的因子研究历程中,既收获了大量个性鲜明的独家因子,也从中领悟了系统普适的方法论——因子切割论,详见我们于20209月发布的专题报告《因子切割论》(魏建榕、苏俊豪)。

2023年的专题报告《遗传算法赋能交易行为因子》(魏建榕,盛少成)中,我们创新性地提出“切割算子”,并结合其他算子和变量,利用改进的遗传算法流程,经过110 代的挖掘,得到了开源金工遗传算法因子,因子在样本内外整体表现优异。本篇报告我们尝试将因子切割论思想与神经网络模型结合,提升模型的信息提炼能力与预测效果。开源证券长期关注金融科技发展,本项研究的高效开展,得益于开源证券总部高性能服务器资源的稳定算力支持。


01

因子切割论回顾:剖析市场精细结构的利器

我们以开源金工“理想反转因子”的开发过程为例展开讨论。众所周知,A股市场中的反转效应比较显著,典型的代理变量可取为Ret20(最近20日的区间收益率)。然而,反转因子Ret20一方面是收益很强劲,另一方面却是稳定性很不理想、常常出现较大回撤。在这种“用之不安、弃之可惜”的困境下,对传统反转因子的改进,是一个非常具有吸引力的课题。

我们最初的灵感触发点,是来自咖啡店里一件非常简单直白的事情:既然花式咖啡的成分里可以有苦有甜,那么涨跌幅的成分里为何不能区分出反转和动量?我们留意到,传统反转因子本质上是一段区间的涨跌幅,可以被很自然地拆分为许多更小的时段。那么,会不会存在这样的情况:组成传统反转因子的各个时段中,某些时段贡献了很强的反转,而某些时段只是贡献了很弱的反转、甚至是贡献了动量效应?换而言之,信息在时间轴上的分布可能是不均匀的。这是我们分析的出发点。

上古的神话传说中,盘古用巨斧在一片混沌中开辟出了天和地。面对分布不均匀的市场信息,我们的处理方法也是如出一辙——切割。切割是剖析精细结构、寻找最优变量的有效方法。下面以我们独家理想反转因子的构造过程为例,阐述开源金工因子切割论的思想:

1)对选定股票,回溯取其过去20日的数据;

2)计算该股票每日的平均单笔成交金额(成交金额 /成交笔数);

3)单笔成交金额高的10个交易日,涨跌幅加总,记作M_high

4)单笔成交金额低的10个交易日,涨跌幅加总,记作M_low

5)理想反转因子 M = M_highM_low

6)对所有股票,都进行以上操作,计算每只股票的理想反转因子M

我们从前文讨论中可以归纳出因子切割论的三个要素:

对象:具有可加性的目标变量

刀法:有区分能力的切割指标

产出:对切割后变量的再加工

关于对象。我们要求对象要具有可加性。所谓可加性,是指在时间轴上对“整体”进行分割后所得到的“部分”,其变量含义保持不变,并且可以重新进行组合加总。在“理想反转因子”的步骤中,切割对象为股票的涨跌幅。涨跌幅是具有可加性的母变量,股票20日的总涨跌幅被拆分为逐日的涨跌幅,进而被重新分组加总为M_highM_low两个子变量。具有类似性质的对象,还有换手率、成交量、日均振幅等常见量价指标,而流通市值、市盈率等指标则显然不具有可加性。

关于刀法。对信息有区分能力的指标则犹如盘古开天辟地的大斧,是切割论的核心所在。在“理想反转因子”的构造中,我们选定了股票每日的“平均单笔成交金额”作为切割指标。我们根据切割指标的大小,把股票的逐日涨跌幅分为两组,若两组之间表现出显著差异,则说明我们的切割达到了目的。

切割指标的形式和来源,往往需要我们不拘一格、匠心独运。在开源金工独家的众多交易行为因子中:聪明钱因子使用“机构参与痕迹”在分钟数据上进行切割,APM因子直接以“日内交易时段”为依据切割,理想振幅因子则以“股票高低价态”为切割指标。

关于产出切割完成之后,我们对信息进一步加工便可得到最终产出。我们可以单独选用切割后信息含量高的部分,作为新因子的代理变量,此时切割过程相当于起到了沙里淘金、信息提纯的作用。在更多情况下,我们推荐使用“相减或相除”的操作,把切割后的各部分信息都纳入到新因子的构造中。“相减或相除”在隐蔽之处起到了“标准化”的重要作用。被减去的部分,通常并未带来显著的收益增量,却提供了公允标准化的水准线,从而最终提升了因子的稳定性。

关于逻辑切割论的提出来源于市场信息分布的不均匀,而其底层的逻辑,是投资者在不同市场环境下的行为差异。切割的本质在于寻找合理的市场环境代理变量,使其可以对投资者的行为进行有效的区分,为此我们需要对切割对象所表征的交易行为有更深入的理解。仍然以“理想反转因子”为例。在研究报告A反转之力的微观来源(魏建榕、傅开波)中,我们剖析了理想反转因子有效性的原因:反转效应来源于投资者的跟风效应与过度反应,而在大单交易更多的时候,这类行为也会更多,从而使得后续的反转效应更强。简而言之:反转之力的微观来源,是大单成交。大单成交较多的交易日,其平均单笔成交金额也较大,因此我们的模型可以获得理想的切割效果。


02

DBD-GRU模型:因子切割论与深度学习的有机结合

从理想反转因子以及表1中各因子的构造过程,我们可以抽象出因子切割论下的因子构造的一般流程,如图3所示。特征A代表切割指标,特征B代表切割对象,f代表对切割对象进行再加工的函数。

我们使用GRU模型进行时序信息提取,GRU是一种改进的循环神经网络,通过两个门控机制动态控制信息流动,在处理序列数据(如时间序列、文本)时表现良好。我们将切割论思想与GRU模型结合,构造如图4所示的双分支差异网络模型(Dual-Branch Difference GRU,以下简称DBD-GRU模型)。

DBD-GRU模型中,假设输入的数据包含了AB两个特征,其中特征A 为切割指标。我们以特征A在时序上的中位数为阈值,构造两个掩码,将使用掩码处理后的数据分别输入两个分支网络中。取两个网络最后一个时间步的差异输入输出层。

本篇报告选取A20101~20255月的数据进行模型的训练与测试,以5年为窗口滚动训练模型,每年年底更新。为提高训练效率,在构建训练集数据时,采取按周抽样的方法,在每周最后一个交易日回溯过去20个交易日的数据。

模型的其他训练参数如下表所示:

我们选取表4中的三个基于日线数据的切割论因子作为改进对象,三个因子中,理想反转因子的构造过程在第一部分已经列出,理想振幅因子与主动买卖因子的构造过程详见附录。在构造DBD-GRU模型时,将对应因子的切割指标与切割对象作为特征输入模型,使用切割指标生成掩码。同时,选择GRU模型作为基线模型,基线模型的输入特征为不经切割掩码处理的切割指标与切割对象,其他参数设置与DBD-GRU模型一致。因子测试区间为20241231~20250530,月频调仓,测试时剔除上市未满60天的新股、因涨跌停无法成交的股票以及ST 股票,并对因子进行市值行业中性化。

切割论因子的分组表现与绩效指标如图5~6与表5所示。理想反转因子与理想振幅因子整体表现优异,在测试区间内十分组多空组合年化收益均可达20%以上。其中,理想反转因子自2018年底发布至今已有近7年时间,因子在样本外表现十分稳健,经受住了市场的考验。不过,从图6我们也可以发现,理想振幅因子与理想反转因子在10分组下的分组收益并不完全单调。

同样的,我们对基线模型下的几个因子进行测试,测试结果如图7~8与表6所示。相较于原始的切割论因子,基线模型下几个因子的表现均有较大提升,其中主动买卖因子提升最为明显。同时,理想振幅-GRU、理想反转-GRU因子的分组收益单调性相较原因子也有所改善。

最后,我们测试DBD-GRU模型下各因子的表现,如图9~10与表7所示。和基线模型相比,DBD-GRU模型的表现进一步提升。其中,理想振幅-DBDRankIC -10.33%,提升最为明显(基线模型中为-8.26%);理想反转-DBDRankICIR-3.28% vs 3.57%)与多空年化收益率(33.79% vs 37.62%)上也有较大提升;主动买卖-DBD则与基线模型表现相当。

分年来看,三个因子的表现如表8所示,在测试区间内,DBD-GRU模型的三个因子在每一年的多空对冲与多头超额收益均为正值,总体表现十分稳健。

11展示了各因子之间的相关性。可以看到,使用相同数据的因子(如理想反转因子、理想反转-GRU、理想反转-DBD)两两间相关性较高,其中DBD-GRU模型与切割论因子相关性明显高于GRU模型与切割论因子的相关性,这表明DBD-GRU模型确实对“切割”做了有效融合。

DBD-GRU模型可以看作是切割论与GRU模型的有机结合,那么,模型在二者的基础上提供了多少增量呢?我们把DBD-GRU模型因子分别对切割论因子和GRU 模型因子作截面回归以剔除两者的影响,计算残差因子的RankIC均值。作为对比,我们还计算了GRU模型因子剔除DBD-GRU模型因子的表现。如图12所示,DBD-GRU模型因子在剔除切割论因子与GRU模型因子后仍有较强的预测能力。而GRU模型因子在剔除DBD-GRU模型因子后预测能力大幅削弱,RankIC绝对值均小于2%

最后,我们测试DBD-GRU模型因子在主流宽基指数(沪深300、中证500、中证1000)中的因子绩效与指增选股效果。由于DBD-GRU模型下的几个因子相关性较高,我们先对因子做对称正交处理,再将处理后的因子等权合成为DBD-Combine因子。

在构建指增组合时,我们以最大化因子暴露为目标,并规定以下约束条件:

(1)      个股权重偏离:上限1%

(2)      行业权重偏离:上限2%

(3)       Barra风格暴露偏离:上限0.2个标准差;

(4)      成分股约束:权重不低于80%

(5)      换手率约束:上限50%

在沪深300中,DBD-Combine因子RankIC均值为-5.76%RankICIR-1.87。如图1314所示,因子RankIC序列总体表现平稳,十分组多空年化收益为14.9%。指增组合层面,组合超额表现十分稳健,年化超额收益为7.64%,超额IR1.84,超额最大回撤仅3.37%

中证500 中,因子的RankICRank ICIR分别进一步提升至-7.40%-2.58,十分组多空年化收益为17.5%。不过,从图16也可以发现,近两年来因子选股能力有所减弱。指增组合层面,组合年化超额为7.23%,超额IR1.37,超额最大回撤为6.43%

中证1000中,因子表现与全市场选股最为接近,RankIC可达-9.84%RankICIR-3.48,十分组多空收益则为30.8%。指增组合表现优秀:年化超额收益率11.8%,超额IR2.21,超额最大回撤3.94%


03

附录:理想振幅因子与主动买卖因子的构造过程

理想振幅因子用来衡量股票高价态和低价态振幅信息差异程度,具体步骤如下:

(1)    对选定股票,回溯取其最近20个交易日数据,计算股票每日振幅(最高价/最低价-1);

(2)    选择收盘价较高的25%有效交易日,计算振幅均值得到高价振幅因子  ;

(3)    选择收盘价较低的25%有效交易日,计算振幅均值得到低价振幅因子  ;

(4)    将高价振幅因子  与低价振幅因子  作差,得到理想振幅因子  。

详细构造步骤请参考开源金工专题研究报告《振幅因子的隐藏结构》(魏建榕、高鹏、苏俊豪)。

本文中,主动买卖因子(小单)构造方法如下:

(1)    对选定股票,回溯其过去过去20个交易日的数据,计算每日的股票涨跌幅与小单流入强度,其中,小单流入强度的计算公式为:

(2)    选择收盘价较低的25%有效交易日,计算小单流入强度均值,得到主动买卖因子(小单)。

主动买卖因子衡量了散户在下跌市场环境中的交易行为,对于各类资金流的详细讨论请参考开源金工专题研究报告《主动买卖因子的正确用法》(魏建榕、傅开波、苏俊豪)。

值得注意的是,在构造主动买卖因子时,我们并未采用相减的操作,而是只取用了其中的一部分。这也是对应的DBD-GRU因子与切割论因子相关性较低的原因:原切割论因子中并未包含“相减”的结构。


04

风险提示


模型测试基于历史数据,市场未来可能发生变化。


更多交流,欢迎联系:
开源证券金融工程团队 | 魏建榕 张翔 傅开波 高鹏 苏俊豪 胡亮勇 王志豪 盛少成 苏良 何申昊 蒋韬

end



团队介绍



开源证券金融工程团队,致力于提供「原创、深度、讲逻辑、可验证」的量化研究。团队负责人:魏建榕,开源证券研究所副所长、金融工程首席分析师、金融产品研究中心负责人,复旦大学理论物理学博士,浙江大学金融硕士校外导师、复旦大学金融专硕校外导师、上海财经大学数学专硕业界导师。专注量化投资研究10余年,在实证行为金融学、市场微观结构等研究领域取得了多项原创性成果,在国际学术期刊发表论文7篇。系列代表研报《开源量化评论》、《市场微观结构》、《开源基金研究》,在业内有强烈反响。2023年获评金麒麟菁英分析师第1名、Wind金牌分析师第3名、水晶球分析师公募榜单第4名;2022年获评金牛分析师第5名、Wind最佳路演分析师。团队成员:魏建榕/张翔/傅开波/高鹏/苏俊豪/胡亮勇/王志豪/盛少成/苏良/何申昊/蒋韬



免 责 声 明
Legal Notices

开源证券股份有限公司是经中国证监会批准设立的证券经营机构,具备证券投资咨询业务资格。

本报告仅供开源证券股份有限公司(以下简称“本公司”)的客户使用。本公司不会因接收人收到本报告而视其为客户。本报告是发送给开源证券客户的,属于商业秘密材料,只有开源证券客户才能参考或使用,如接收人并非开源证券客户,请及时退回并删除。

本报告是基于本公司认为可靠的已公开信息,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他金融工具的邀请或向人做出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突,不应视本报告为做出投资决策的唯一因素。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况,以及(若有必要)咨询独立投资顾问。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。若本报告的接收人非本公司的客户,应在基于本报告做出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。

本报告可能附带其它网站的地址或超级链接,对于可能涉及的开源证券网站以外的地址或超级链接,开源证券不对其内容负责。本报告提供这些地址或超级链接的目的纯粹是为了客户使用方便,链接网站的内容不构成本报告的任何部分,客户需自行承担浏览这些网站的费用或风险。

开源证券在法律允许的情况下可参与、投资或持有本报告涉及的证券或进行证券交易,或向本报告涉及的公司提供或争取提供包括投资银行业务在内的服务或业务支持。开源证券可能与本报告涉及的公司之间存在业务关系,并无需事先或在获得业务关系后通知客户。

本报告的版权归本公司所有。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。

开源证券股份有限公司

地址:西安市高新区锦业路1号都市之门B座5层

邮编:710065

电话:029-88365835

传真:029-88365835




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/184862