兴证金工团队自2020年起便积极探索机器学习在量化领域的应用,以树模型为代表的宽基增强策略(沪深300指增等)样本外表现十分优秀。时至今日,我们将该领域的研究分为两个方向:对现有成熟模型的优化以及新兴模型的实战化验证。本文中,我们将探究相对新颖的图神经网络模型,重点强调如何基于图神经网络将多类型数据、多股票间关联关系作为输入,并合并在单一模型进行训练和收益率预测。
基准和MAG模型:我们在GRU模型的基础上,采用与GRU形成差异化的股票特征和多类型股票间关系作为GAT模块的输入,以获取股票的截面信息。与此同时,我们进一步将改进后的多头注意力机制融入模型,以提升模型表现。在股票间关联关系维度,我们通过引入常规和另类数据进行刻画,三类不同关系构建的因子月度Rank IC均值均接近0.12,等权合成因子2020年以来沪深300增强策略年化超额收益率约为8.8%。
MEGA模型:在前文基础上,我们尝试对模型提出两项改进:第一项主要针对预测模块,通过在预测模块中加入双路径预测,能够同时获取GAT带来的信息增量以及GRU自身的预测能力;第二项针对多类型股票间关系融合,我们分别在模型的三处尝试对多种图特征进行融合,其中改进后的混合专家机制下的融合表现优秀。经过改进后,单一模型的月度Rank IC均值约为0.13,同期300增强年化超额提升至9.8%。MEGA模型在各个指数上的增强表现同样稳定优秀。
各类指数增强测试:更进一步,我们将上述MAG和MEGA模型进行融合,并进行各个指数增强测试。2020年以来复合因子的沪深300增强策略年化超额收益率约为11.1%,2024年区间超额约为17.5%,超额最大回撤率仅6.2%,表现十分优秀;因子在其余指增表现也同样优秀,尤其适合大盘指数增强。同时,新因子和过往树模型复合因子结合有增量。
风险提示:模型结果基于历史数据的测算,在市场环境转变时模型存在失效的风险
近年来,凭借卓越的数据建模能力,机器学习与深度学习模型在量化金融领域的地位日益重要,相关研究成果不断涌现。当前,学术界在该领域的研究可大致划分为两个主要方向:成熟算法的优化与新兴算法的探索。一方面,以无监督学习分类模型、树模型为代表的经典机器学习算法已在各类量化投资细分领域积累了丰富的研究基础,近期的创新性工作主要集中于算法性能与有效性上的改进与应用拓展。另一方面,以循环神经网络(GRU等)、大模型及强化学习为代表的新兴算法则侧重于算法层面的创新性研究,众多新兴研究在深度学习框架基础上,结合股票市场特性进行模型架构或训练方法的创新。
兴证金工团队自2020年起便积极探索机器学习在量化领域的应用,并针对传统算法进行了大量的实证测试,以树模型为代表的宽基增强(沪深300指增等)样本外表现十分优秀。时至今日,我们将机器学习的研究同样划分为两个主要方向:对现有成熟模型的优化以及新兴模型的实战化验证。在新兴模型验证方面,我们强调结合团队既有研究积累,并从实际应用的角度出发,考察前沿技术模型在A股市场的有效性。本文中,我们将探究相对新颖的图神经网络模型,重点强调如何基于图神经网络将多类型数据、多股票间关联关系作为输入,并合并在单一模型进行训练和收益率预测。
本文重点解决以下三类问题:如何在深度学习模型中结合股票的时序、截面和股票间的关联信息;如何提升如GAT等图神经网络的预测能力;以及如何对模型进行调整改造以实现多类型股票间关联关系的交互。本文结构安排如下:
从GRU到MAG-GRU:我们以传统量价GRU模型作为基准,尝试在基准模型上加入股票间关联关系和更低频的股票截面因子信息,并进一步引入多头注意力机制对模型进行提升,并最终将两者信息进行结合,以构建MAG-GRU模型;
从MAG-GRU到MEGA-GRU:
我们尝试将模型适配为可多类型股票间关联关系作为输入。具体来说,我们从矩阵、特征和预测融合三个维度分别改造模型以实现多类型输入。此外,对于预测模块,我们也将尝试以其他方式进行特征压缩,通过双路径预测的模式获得更多元的信息;
增强模型测试:最后,我们尝试合并上述改进方案,并在相对严格的约束条件下进行针对沪深300、中证A500、中证500和中证1000指数增强的测试。
本章节中,我们以传统量价GRU模型作为基准,尝试在基准模型上加入股票间关联关系和更低频的股票低频因子信息,并进一步引入多头注意力机制(Multi-Head Attention)对模型进行提升,并最终将两者信息进行结合,以构建MAG-GRU模型。
GRU(Gate Recurrent Unit,门控循环单元)是一种常用的循环神经网络(RNN)变体,专门设计用于处理序列数据。与传统的RNN相比,GRU通过引入更新门和重置门机制,有效缓解了长序列训练中的梯度消失问题,同时减少了模型参数,提高了计算效率。更新门决定当前状态保留多少历史信息,而重置门控制过去信息对当前候选状态的影响。
现如今,GRU在股票市场中的时间序列,或基于时间序列的截面收益预测等任务中表现优异,其结构比LSTM更简单,但在许多场景下能达到相近的性能,成为深度学习领域广泛应用的序列建模工具之一。在基准模型设定上,我们基本沿用传统的GRU模式设定方式,以原始量价特征和团队过往高频系列中以分钟数据降频至日度的特征作为输入,通过双层GRU模型进行个股的收益率预测。具体设定如下。
在数据集层面,我们使用2012年至时间末端的所有数据。具体数据维度包含:每个交易日所有股票的原始“高开低收”价格数据,以及成交量和成交金额的交易量数据。此外,我们进一步拼接基于分钟数据构建的日度高频特征,个数约为38个。不同于以往高频因子系列的报告,拼接的高频特征并未经过时序平滑,即直接使用基于日内分钟数据降频得到的高频特征。
对于预测对象,我们沿用此前改进XGB模型的数据,采用CSRankNorm对个股未来20个交易日的区间收益率进行标准化处理。
由于后续模型训练量较大,因此在本文中,我们暂时不采用滚动训练的形式,即直接将数据按照时间顺序划分为训练集、验证集和测试集。
对于超参数,由于后续模型训练量较大,因此我们在GRU采用一次寻优算法,以确定基准模型的超参数。在后续的设定中,我们将沿用此超参数进行微调测试。在损失函数设置上,我们采用MSELoss(均方误差)作为损失函数。
在构建完基准模型后,我们将在下述章节中一并展示因子的有效性,并和后续模型进行对比。
MAG-GRU模型:时序和截面特征结合下的MAG-GRU模型
在上一小节中,我们已经构建完成基准GRU模型。在本节中,我们将重点阐述本文的第一个新模型,即结合了GAT和多头注意力机制的模型MAG-GRU(Multi-head Attention & GAT GRU)。该模型旨在将低频截面因子和股票间关联关系融入基准模型中。在介绍模型结构之前,我们先简要介绍模型的各个新模块。
1、模块理论介绍:GAT和多头注意力机制
图注意力网络(Graph Attention Network,GAT)是一种基于注意力机制的图神经网络模型,专门用于处理图结构数据。与传统的图卷积网络(GCN)不同,GAT通过自注意力机制动态计算节点之间的关联权重,从而更灵活地捕捉节点间的复杂依赖关系。每个节点通过聚合其邻居节点的特征信息来更新自身表示,而注意力权重决定了不同邻居的重要性,无需依赖预先定义的图结构。GAT具有计算高效、可扩展性强等优点,广泛应用于社交网络分析、推荐系统、分子结构预测等任务,并在许多图数据建模任务中表现出优越的性能。
在本文中,我们将通过多种关系构建截面上股票样本间的关联关系,并通过GAT模型更新样本特征,并作为后续网络结构的输入矩阵。
多头注意力机制(Multi-Head Attention)通过并行计算多组注意力权重来增强模型的表达能力。其核心思想是将输入特征映射到多个不同的子空间(即“头”),在每个子空间内独立计算查询(Query)、键(Key)、值(Value)之间的注意力权重,从而捕获序列中不同位置间的多样化依赖关系(如局部/全局、语法/语义等模式)。最终,所有头的输出被拼接并线性变换为最终结果。多头注意力机制的优势在于:1)提高模型对复杂关系的建模能力;2)增强并行计算效率;3)缓解单一注意力头可能出现的偏差问题。该机制已被广泛应用于机器翻译、文本生成、视觉任务等领域。
本文中,我们将在主模型中加入多头注意力机制,并适当改进模型中Key和Value的输入,以提升模型对于市场的普适性。
2、MAG-GRU模型搭建说明
介绍完即将加入模型的模块之后,本节中我们将着重阐述MAG-GRU模型的搭建步骤。具体来说,该模型总共将分为四大部分:时序信息提取模块、截面信息提取模块、市场状态分解模块和最终的预测模块。具体步骤如下。
在下文的模型介绍中,我们首先假设每个Batch的输入数据包含N个样本,GRU输入时间长度为T个交易日。
Step 1:时序信息提取模块
时序信息提取的模块和之前的基准GRU模型基本一致,我们以个股的日度量价特征作为输入,经过标准的双层单向GRU模型得到隐藏状态序列H = [h₁,h₂,...,hₜ]。其中每个hₜ均融合了历史时间步的信息。我们将最终隐藏状态hₜ作为整个序列的表征向量,记作AGRU∈RN×dGRU。该输出AGRU在基准模型中经过压缩层后最终成为输出值,而在本模型中,将作为下一处理阶段的输入,用于进一步的特征提取和模型学习。
Step 2:截面信息提取模块
截面信息提取模块是本模型架构的核心组件之一,其通过捕捉不同股票间的关联关系,从数据中提取横截面特征。具体来说,截面信息提取模块共包含两部分输入:一个表征特定时间节点下所有股票特征的矩阵featGAT,该矩阵的维度是N×FeatNumGAT。此输入表示源自原始股票因子值数据,因此,GAT层专门用于捕捉股票间的横截面依赖关系;另一部分为股票间关联关系的临界矩阵graphGAT。在GAT层构建的图中,每个节点对应一只股票,节点间的边则表征股票之间的关联关系。
在GAT层中,我们首先对特征进行归一化,并经过双层GAT进行处理:在第一层中,我们以多头注意力且进行拼接的形式得到第一层输出h'。在第二层中,我们以h'作为输入,以多头注意力且不进行拼接的形式得到第二层输出h^'',并将原始输入作为残差进行合并,最终通过归一化和激活得到模块的输出,记为AGAT∈RN×dGATout。
在本模块中,我们将引入新的输入数据。首先是股票特征x:不同于GRU的时序部分,GAT输入的股票截面特征应该具备一定的截面预测能力,即所谓的因子值,同时我们也希望两个模块之间的信息存在差异,旨在后续起到信息互补的作用。因此,我们将以有效性的低频因子值作为输入。具体来说,我们选取底层低频因子库中能够以较快频率变动的因子作为特征,包括估值、动量反转和另类量价三大类,部分因子名称和定义如下。
在股票间关联关系,即邻接矩阵部分,我们将采用多种数据作为股票间关联关系的表征,并测试其表现,具体如下:
1) 专利相似矩阵:在团队2019年报告《基于专利分类的科技动量因子研究》,我们便提出了股票间专利相似度的概念,即通过IPC专利分类数据,首先刻画公司在各个专利分类上的获批数,并进一步通过余弦相似度刻画股票间关联关系。这一维度无论是在相似动量溢出还是热点追踪等相关研究中均有所效果。具体算法在本篇不详细展开,如各位读者感兴趣可联系团队获取往期相关报告;
2) 行业分类关联矩阵:行业分类是最为简单的股票间关联关系,我们以中信一级行业刻画股票间的“0-1”邻接矩阵,作为股票间关联关系;
3) 收益率相关系数矩阵:在本维度,我们以个股过去250个交易日的日度收益率作为股票单一向量计算两两间相似度,并进一步保留相似度大于50%的关联度构造邻接矩阵。
在下文测试环节我们将进一步展示三种关联网络的表现。
Step 3:市场状态分解模块
在得到两部分输出后,我们进一步结合多头注意力机制对模型进行有效性提升,即市场潜在状态学习层。该模块是本模型的核心组件之一,其设计目标是捕捉并表征无法直接从原始数据观测到的市场潜在状态。该层专门用于建模影响股票行为的深层市场条件,通过利用这些隐藏状态,使模型能够更准确地理解和预测股票价格变动。
具体来说,市场潜在状态学习流程初始化一组可学习潜在状态向量RGRU∈Rdr×dGRU与RGAT∈Rdr×dGAT,这两组状态矩阵分别对应时序信息AGRU和横截面信息AGAT。其中,潜在状态数量dr为超参数,该超参数决定了市场状态的建模粒度。较大的dr能增强模型捕捉多元市场因子的能力,但需权衡计算成本与过拟合风险。
市场潜在状态学习的核心在于多头交叉注意力机制。该机制使潜在状态向量能够与输出进行交互,从而有效吸收这些输出中的相关信息并优化潜在状态表征。在多头交叉注意力机制中,A与R的交互通过交叉注意力过程建模,以A查询(query),R同时作为键(key)和值(value)。这种设置方式通过A引导R进行更新,从而实现股票信息向潜在状态的有效整合。最终通过多头融合的方式得到输出BGRU和BGAT。
Step 4:预测模块
在得到前后各个模块的输出中,我们最终整合各模块进行特征压缩和输出预测。在特征压缩部分,我们进一步引入GAT层来结合股票间关联关系来进行特征压缩。具体来说,我们首先将时序模块、截面模块和市场状态模块的共计四个输出AGRU,AGAT,,BGRU,BGAT进行拼接,得到最终GAT层的输入xCombine。进一步,我们采用同样的GAT模块形式,以xCombine和股票间关联关系作为输入,通过额外的GAT层以生成最终预测。这些GAT层的作用是通过考虑图结构中股票(节点)之间的关联关系,对拼接后的特征进行精细化处理。此处的GAT层与模型前段的GAT层运作原理相似,但其处理的是更全面的特征集合:既包含时序特征与横截面特征,又融合了市场潜在状态表征。最终,我们再经过多层特征压缩层以得到最终的预测值。
综上,我们在之前基准GRU模型的基础上,通过GAT层来融合股票截面信息,同时通过多头注意力机制来提升复杂模型的鲁棒性和有效性,并最终再经过GAT层来将两类信息进行融合,其在模型层面实现了时序信息、截面信息和股票间关联关系的融合。在具体的训练层面,我们沿用之前基准模型的超参数和训练方式,额外几个部分的超参数设置如下。
在确定好两类模型后,我们进一步进行模型构建以及有效性测试。具体来说,本篇我们统一以未来20个交易日作为标签进行训练、预测和对比。具体来说,我们首先构建了GRU因子,进一步在MAG-GRU模型中,我们分别采用三种不同的股票间关联关系:专利相似矩阵、行业邻接矩阵和收益率相似度矩阵,构建了三个因子,分别名为MAG-ZL、MAG-Ind和MAG-rtnCor因子。在下述的Rank IC和分位数组合测试中,我们均采用月度调仓的方式进行测试,回测时间范围均为2020年1月底至2025年4月底。如无特殊说明,本篇所有测试均沿用此设定。
1、因子IC和分位数组合测试
首先是因子的Rank IC测试结果。从测试结果上看,绝大多数版本的因子Rank IC相对基准得到了提升:整体来看,MAG-ZL因子表现更加优秀。在全市场测试中,MAG-ZL因子Rank IC提升至约0.123,IC IR也提升至约1.1;在大盘股沪深300和中证800成分股内的测试结果更加明显,以沪深300测试为例,MAG-ZL因子Rank IC均值为0.102,中证800内为0.093,表现相对GRU因子更加优秀。
我们进一步展示MAG各个版本因子在全市场下的分位数组合年化超额收益率:其中, MAG-ZL 因子分位数超额收益率在全市场内相对基准更加单调。
2、沪深300指数增强测试
除单因子测试之外,我们进一步以沪深300指数增强作为单因子有效性的测试维度之一。对于以量价特征作为输入的GRU模型而言,其往往由于风格的单一暴露而导致其大盘股指数增强上的表现相对较差。因此,本文也将以沪深300指数作为代表,测试因子在增强测试上的有效性。在文章最后一部分,我们将进一步展示因子在各个指数上的增强策略有效性。如无特殊说明我们在下文中针对沪深300的增强测试均采用如下约束条件进行回测,具体设定如下:
个股权重偏离:个股相对基准权重偏离±2.0%;
行业权重偏离:中信一级行业相对基准权重偏离±2.0%;
风格暴露偏离:Barra风格因子Size和Beta相对基准偏离±0.2倍标准差;
成分股约束:成分股个数占比大于80%;
换手率约束:调仓双边换手率小于40%;
回测设定:月度调仓,回测区间为2020年1月底至2025年4月底;
样本空间:剔除当期不在市、特殊处理以及涨跌停的股票;
交易成本:买入千分之一,卖出千分之二,共计千分之三。
从测试结果上看,基于MAG-GRU构建的因子在沪深300增强上的表现相对优秀,以MAG-ZL为例,其在回测期间取得了8.6%的年化超额收益率,跟踪误差为4.6%,最大回撤率也仅5.0%,表现出较好的稳定性和有效性,其他三个因子的有效性也较高,且相对GRU模型均有明显提升。
从分年度收益来看,MAG三个因子同样有着相对优秀的表现,其中MAG-ZL分年度胜率为100%,MAG-Ind仅在今年略逊于基准。近年来,基于MAG-ZL构建的沪深300增强策略在2023年至2025年的超额收益率约为11.8%、12.4%和3.4%,表现相对稳定。
我们进一步检查三个MAG因子的相关系数,可以看到基于同一模型、同一输入特征的三种股票间关联关系因子仍存在一定差异。进一步,我们尝试对三个因子进行等权合成,记为MAGComb,以尝试获得多类型股票间关系的信息,并测试其在沪深300增强上的表现。
从策略表现上看,MAGComb因子的沪深300增强策略的表现十分稳定,全时段年化超额收益率约为8.8%,跟踪误差仅4.6%,多空夏普比率为1.89,策略整体表现优于上方的三个MAG单因子,这从一定程度上体现了三类信息的互补能力。策略月度胜率为77%,周度胜率约为61%。分年度上看,策略绝大多数年份的超额收益率能够在10%左右,展示出较好的稳定性。在2024年全年,策略获得了12.4%的超额收益率,去年最大回撤率仅3.10%。策略近三个完整年度的区间超额分别是8.07%、11.55%和12.37%,展示出较好的增强稳定性。
3、股票间信息融合和模型改进:从MAG-GRU到MEGA-GRU
在上一章节中,我们以GRU作为基准模型,通过加入GAT和多头注意力机制,构建了MAG-GRU,并在单因子有效性测试和沪深300指数增强测试中取得了一定的提升,尤其是在沪深300指数增强的测试中,MAGComb的表现相对优秀。
在本节中,我们将进一步对模型进行改进。具体来说,在上一章节中,我们虽然对多类型股票间关联关系进行了测试,但并未将多类型关系合并作为模型的输入,抑或者说并未将股票间关系做到很好地交互融合。在本章节中,我们尝试将模型改进为以多类型股票间关联关系作为输入。此外,对于预测模块,我们也将尝试以其他方式进行特征压缩,通过改造为“GAT压缩+原始特征压缩”的形式,试图获得更多元的信息。
在上一章节中,我们在预测模块首先将多类输出以堆叠的形式构建统一的隐藏特征矩阵,记为Z,并将矩阵经过GAT、MLP(Multilayer Perceptron)后得到预测值。
不同于模型前半部分对于特征的改造,在预测部分直接使用图注意力网络进行预测虽然能够利用图结构信息,但也存在一系列潜在问题。首先,GAT完全依赖于邻接矩阵的质量,如果图结构噪声较大或连接关系不准确,模型性能可能会显著下降。其次,多层GAT容易导致过度平滑,即不同节点的特征在经过多次聚合后趋于相似,从而丢失判别性信息。最后,纯GAT模型对初始特征的利用可能不够充分 ,因为特征在进入GAT层后会被注意力机制重新加权,虽然我们在GAT的最后一层加入了残差机制,但原始特征的信息仍可能会在多次变换后部分丢失。
在本节中,我们首先针对这一模块进行改进。具体来说,我们参考残差网络ResNet的思想,将Z作为预测模块的输入,将经过GAT处理后的特征记为图预测值predGAT,将Z类比为残差块直接接入MLP进行预测,记为原始预测值predZ,并加入一个可学习的权重将两者加权合成为最后的输出。具体操作如下:
相比改进前,采用特征融合后分别压缩再合成的策略能够更灵活地平衡原始特征信息和图结构信息。首先,新的路径保留了原始特征信息,通过MLP直接对融合后的特征进行压缩,确保模型能够直接利用初始特征,而不完全依赖GAT的注意力机制,从而避免信息损失。其次,直接压缩路径关注全局特征,而GAT路径捕捉基于图结构的局部关系,二者结合形成互补,增强模型的表达能力。最后,直接压缩路径作为主干网络提供基础预测,而GAT路径作为额外贡献,使模型能够渐进式地优化,减少因图结构噪声导致的训练波动。同时避免GAT中低质量图结构的干扰。
综上,相比单一GAT的预测架构,当前的双路径设计在保持图结构的同时,增强了模型的鲁棒性和泛化性。我们将在本章节的最后部分测试改进后的模型表现。在后续章节中,如无特殊说明,我们统一将模型的预测模块改进为双路径预测模块。
在上一章节末尾,我们将三个相对独立的MAG因子进行等权合成,并以此构建出了相对更加优秀的MAGComb因子。这从侧面表明三类股票间关联关系存在差异性和一定的互补性。然而,这种等权合成方法存在明显的理论局限:其一,固定权重假设忽略了市场状态对因子有效性的动态影响;其二,线性叠加无法捕捉因子间可能存在的非线性交互作用。
本节中,我们提出基于三类融合框架的改进方案:在矩阵融合维度,我们通过动态权重的方式对矩阵进行加权融合;在特征融合维度,我们对截面信息提取模块后的特征进行动态结合;在预测融合维度,我们将独立运行三类股票间信息直至预测模块,并在该模块中进行融合。
1、矩阵融合维度
首先是矩阵融合维度,矩阵融合作为整合多源信息或特征表达的关键技术,其核心在于如何动态权衡不同矩阵的贡献,以适应数据的内在复杂性。传统静态加权方法往往因缺乏灵活性而难以捕捉输入样本的多样化特性。为此,我们提出通过动态权重分配实现矩阵的自适应融合——根据输入数据的实时特征生成门控权重,以最优比例聚合各矩阵的语义或结构信息。这种机制不仅增强了模型的表达能力,还能在融合过程中自动聚焦于最相关的特征维度,从而提升下游任务的性能。
具体来说,我们针对模型的关联关系图个数,生成一组长度为numMatrix的权重w,对输入的多个图结构进行加权组合,最终输出一个统一的、标准化后的邻接矩阵。
在得到融合后的股票间关联关系矩阵后,我们直接沿用上一章节的模型,构建模型并得到预测值,并在本章最后进行有效性测试。
2、特征融合维度
在上一章的截面预测模块中,我们通过图注意力网络将个股因子特征与股票间关联关系矩阵相结合,构建了调整后的股票隐特征表示。本部分重点探讨在获得多个维度的隐藏特征后,如何进行高效的特征融合。
具体而言,我们采用同一组股票特征分别与三种不同的股票关联关系矩阵作为输入,通过各自独立的GAT模块进行处理,最终得到三个隐藏特征矩阵A_GAT1,A_GAT2,A_GAT2。特征融合的核心目标是将这些多源同结构的特征进行有效地整合与降维,使其能够进入下游模块。在方法探索过程中,我们系统性地比较了多种融合策略:如简单加权平均、可学习参数加权、基于注意力机制的动态加权等。在经过一系列测试后,我们最终选择了混合专家机制MoE对特征进行融合。
混合专家机制(Mixture of Experts, MoE)是一种通过动态组合多个专业化子模型,也就是“专家”来进行预测的深度学习架构。其核心思想是引入一个可学习的门控网络(Gating Network),根据输入特征自动分配不同专家的权重,从而实现输入依赖的自适应预测。MoE的关键优势在于能够通过专家模块的并行计算和门控网络的稀疏激活,在保持模型容量的同时提升计算效率。每个专家网络可以专注于处理输入空间的不同区域,而门控网络则动态决定哪些专家对当前输入最相关,这种机制特别适合处理多模态或异质性数据。
不同于其他加权方式,混合专家机制(MoE)相对更加适合本文模型:通过三种GAT网络提取的股票隐藏特征本质上反映了股票在不同关联关系下的差异化表征,而MoE的门控机制能够动态评估每种GAT特征对当前股票预测的有效性。具体而言,门控网络会基于个股特征自动学习三种GAT输出的最优组合权重,这与"不同股票在不同关联维度上具有差异性有效性"的假设完全一致。具体来说,模型的MoE模块分为两个步骤。
不同于传统的MoE机制,我们在本文将针对模型特有的输入数据对MoE进行改造。具体来说,由于我们的MoE机制设置在截面信息提取模块之后,因此我们将拥有三种同等维度的隐藏特征矩阵x,可将其定义为[x1,x2,x3],分别代表通过三种股票间关联关系构建的GAT输出,即xi∈RN×dGAT。由于三个隐藏特征矩阵的输入数据存在差异,因此我们将尝试将不同的输入数据分配给各个“专家”,已实现差异化压缩和交互。
综上,混合专家机制通过门控权重实时调整各专家贡献,能够将不同股票间影响因素的差异进行动态调整,且相比朴素的MLP网络,MoE通过门控的稀疏性可减少实际计算量。最后,这种数据驱动的方式比固定权重融合更能捕捉股票间关联性的复杂模式,例如某些股票可能更依赖行业关联特征,而另一些则对专利关联或收益率联动更敏感。MoE的专家模块进一步允许对不同GAT特征进行非线性变换和选择性加强,从而在特征层面实现更精细的差异化处理。
3、预测融合维度
预测模块面临的核心问题与特征融合维度面临的问题类似,即需要有效整合来自多类型图结构的异构预测结果。针对这一挑战,本研究在预测模块中引入了改进的混合专家(MoE)机制,通过层次化特征处理实现稳健预测。具体实现包含两个关键阶段。
Step 1:双路径特征压缩
首先,在双路径特征压缩阶段,我们对每个输入的股票关联矩阵构建并行处理架构。该架构包含两条特征处理路径:图注意力路径将初始特征Z经由GAT网络编码后,通过多层感知机转换为高维表征HGAT;直接压缩路径则通过独立的MLP将原始特征Z映射为HZ。两条路径的输出在特征维度进行拼接,形成当前关联矩阵的联合表征Hi。值得注意的是,与前期工作不同,本阶段刻意保持高维特征输出(而非直接压缩为标量),以保留充足的信息量供后续MoE处理。
Step 2:MoE预测
其次,在基于MoE的预测融合阶段,模型将所有关联矩阵生成的联合表征{Hi}进行堆叠,并采用特征融合维度中类似的操作进行合并。通过引入门控机制,MoE模块实现了样本级别的动态特征加权。具体而言,门控网络根据输入特征自动计算各专家网络的激活权重,而专家网络则分别处理对应的图结构表征。最终预测值由加权后的专家输出经线性变换得到。
和上文类似,这种设计既保留了不同图结构的特性信息,又通过可微分的权重学习实现了自适应特征选择,显著提升了模型对复杂市场关系的建模能力,同时该方案能有效缓解单一图结构偏差带来的过拟合风险,同时增强模型对噪声的鲁棒性。
综上,我们基于MAG模型,从两大角度进行了模型改造,命名为MEGA-GRU(Mixture of Experts & GAT & Attention GRU)。首先是预测模块,我们在此前的基础上加入了双路径预测机制;在多关联矩阵融合维度,我们从三个角度对模型进行改进,以试图在模型层面融合各类股票间关联关系的信息:在矩阵融合维度,我们直接针对矩阵进行操作,通过动态加权的方式进行矩阵融合;在特征融合维度,我们引入改造混合专家机制MoE,在GAT层之后对多个GAT隐藏特征进行交互融合;在预测融合维度,我们在模型最终的输出层中融入MoE机制。不难看出,三种改进在模型上存在一定的递进关系:矩阵融合维度是对信息压缩最早的一种方式,后两者则分别经过一次至两次GAT层。在下文中,我们将探究三者表现上的优劣。
1、因子IC和分位数组合测试
在进行测试之前,我们首先确定下述需要进行测试的因子名称,具体分为下述四个。
首先是因子的Rank IC测试结果。从测试结果上看,绝大多数特征融合版本的因子Rank IC相对基准MAG得到了提升:整体来看,MEGAVer2和Ver3因子表现更加优秀。在全市场测试中, MEGAVer2因子Rank IC提升至约0.130;在大盘股沪深300和中证800成分股内的测试结果中因子IC_IR有所提升。
从分位数组合测试上看,三个因子的分位数组合测试显著提升表现,尤其是单调性上。具体来说,以MEGAVer2和3而言,分位数组合Top组的年化超额收益率约为23%和26%,多空夏普比率也相比基准有提升。
2、沪深300指数增强测试
和上文类似,除单因子测试之外,我们进一步以沪深300指数增强作为单因子有效性的测试维度之一,具体约束条件参见第二章。从测试结果上看,除了Ver1,Ver2和Ver3在沪深300增强上的表现相对优秀,且均明显展示基准。以MEGAVer2为例,其在回测期间取得了9.8%的年化超额收益率,跟踪误差为5.3%,最大回撤率也仅6.7%,表现出较好的稳定性和有效性,Ver3因子的有效性也较高,且相对基准模型有明显提升。
从分年度收益来看,MEGA后两个版本的因子同样有着相对优秀的表现,但今年以来略逊于基准。近年来,MEGAVer2构建的沪深300增强策略在2022年至2024年的超额收益率约为9.8%、5.6%和21.6%,表现相对稳定,且2024年表现出色。
在上一章节中,我们从预测模块和多类股票间关联关系合并两个角度出发,基于多种方式针对MAG模型进行改进,并取得了一定的成果:对于各个改进因子而言,其相对基准模型在Rank IC、分位数组合测试以及沪深300增强策略中均得到一定的提升。
在本节中,我们尝试针对上述因子进行简单复合,并进行多个基准的增强策略测试。在进行复合之前,我们首先测试各个因子的相关性,包括第二章的MAGComb因子和团队之前的树模型因子,分为AdaBoost和XGB改进因子,具体如下。从测试结果上看,MAG和MEGA因子和两种树模型的相关性相对较低,维持在0.65以下,这体现出深度学习模型的增量属性;此外,MEGA改进下的三种改进方案和MAG存在差异,整体呈现出类内较高、类间较低的特点,两章节的因子能够互相提供增量。
在下述章节中,我们将尝试三类复合因子,分别是:MAGComb和MEGAVer2的等权合成因子MEGAComb;MEGAVer2和Ada合成的MEGACombAda以及MEGAVer2和XGB合成的MEGACombXGB因子。
基于上述因子,我们在下文中进行针对沪深300、中证500、中证1000和中证A500指数的增强测试,进一步探究因子的表现以及优劣。对于各个增强测试,我们采用相似的约束条件进行回测,具体设定如下:
个股权重偏离:个股相对基准权重偏离,其中沪深300为±2.0%,中证500和中证A500为±1.5%,中证1000为±1.0%;
行业权重偏离:中信行业相对基准权重偏离,其中沪深300为±2.0%,中证500和中证A500为±1.5%,中证1000为±1.0%;
风格暴露偏离:风格因子Size和Beta相对基准X倍标准差,其中沪深300为0.2,中证500和中证A500为0.15,中证1000为0.1;
成分股约束:成分股个数占比大于80%;
换手率约束:调仓双边换手率约束,其中沪深300为40%,中证500和中证A500为60%,中证1000为80%;
回测设定:月度调仓,回测区间为2020年1月底至2025年4月底;
样本空间:剔除当期不在市、特殊处理以及涨跌停的股票;
交易成本:买入千分之一,卖出千分之二,共计千分之三。
首先是沪深300增强测试,由于在上一章节中已经展示了MEGAVer2单因子的300增强表现(年化超额9.78%,跟踪误差5.29%),我们在本节中直接展示MEGAVer2和MAGComb复合的因子增强表现。
从多空净值以及分年度统计结果上看,该因子表现十分稳定,全时段年化超额收益率约为11.05%,跟踪误差控制在5.0%左右,超额夏普比率为2.22,最大回撤为6.2%,且除2024年以来,其余年份的最大回撤均小于5%,月度胜率为77%,周度胜率为62%,展示出较好的稳定性。
策略每个年份的区间超额均接近或超过10%,尤其是2024年表现优秀。策略近三个完整年份的区间超额收益率约为9.3%,9.4%和17.5%,截至2025年4月底,策略今年以来区间超额约为2.3%,表现出较好的稳定性。
其次是中证A500增强测试,我们首先展示上一章节中单因子MEGAVer2的增强测试结果。从测试结果上看,第三章的MEGA版本二单因子在中证A500增强上表现同样优秀,全时段年化超额收益率约为10.23%,跟踪误差控制在5.2%左右,超额夏普比率为1.98,最大回撤为6.4%,月度胜率为79%,周度胜率为59%,展示出较好的稳定性。
将MEGAVer2与MAGComb合成后,策略表现进一步提升。从多空净值以及分年度统计结果上看,该因子表现十分稳定,全时段年化超额收益率约为11.17%,跟踪误差控制在4.8%左右,超额夏普比率为2.31,最大回撤为4.2%,月度胜率为79%,周度胜率为59%,展示出较好的稳定性。
策略每个年份的区间超额均接近或超过10%,尤其是2024年表现优秀。策略近三个完整年份的区间超额收益率约为9.5%,11.4%和17.3%,截至2025年4月底,策略今年以来区间超额约为1.2%,表现出较好的稳定性。
其次是中证500增强测试,我们首先展示上一章节单因子MEGAVer2的增强测试结果。从测试结果上看,第三章的MEGA版本二单因子在中证500增强上表现同样优秀,全时段年化超额收益率约为9.82%,跟踪误差控制在6.5%左右,超额夏普比率为1.51,最大回撤为6.6%,月度胜率为67%,周度胜率为55%,展示出较好的稳定性。
将MEGAVer2与AdaBoost合成后,策略表现进一步提升。从多空净值以及分年度统计结果上看,该因子表现十分稳定,全时段年化超额收益率约为11.78%,跟踪误差控制在6.1%左右,超额夏普比率为1.92,最大回撤为6.3%,月度胜率为78%,周度胜率为60%,展示出较好的稳定性。
策略每个年份的区间超额均接近或超过10%,尤其是2024年表现优秀。策略近三个完整年份的区间超额收益率约为14.3%,12.8%和9.3%,截至2025年4月底,策略今年以来区间超额约为0.5%,表现出较好的稳定性。
最后是中证1000增强测试,我们首先展示上一章节单因子MEGAVer2的增强测试结果。从测试结果上看,第三章的MEGA版本二单因子在中证1000增强上表现同样优秀,全时段年化超额收益率约为12.25%,跟踪误差控制在7.3%左右,超额夏普比率为1.67,最大回撤为7.1%,月度胜率为64%,周度胜率为55%,展示出较好的稳定性。
将MEGAVer2与XGB合成后,策略表现进一步提升。多空净值以及分年度统计结果上看,该因子表现十分稳定,全时段年化超额收益率约为13.61%,跟踪误差控制在6.4%左右,超额夏普比率为2.12,最大回撤为8.3%,月度胜率为71%,周度胜率为60%,展示出较好的稳定性。
策略每个年份的区间超额均接近或超过10%,尤其是2024年表现优秀。策略近三个完整年份的区间超额收益率约为11.9%,9.7%和10.5%,截至2025年4月底,策略今年以来区间超额约为7.3%,表现出较好的稳定性,2025年表现出色。
本文将重点探讨相对新颖的图神经网络的实战类研究,希望通过该模型进行时序和截面信息、股票间关联性进行结合。
具体来说,我们将重点尝试将以高频时序量价信息为输入的GRU模型,以及以低频截面信息、股票间信息作为输入的GAT模型进行结合,并通过多头注意力机制、改进混合专家机制等方式实现多类关系图下的图神经网络模型的搭建。改进后因子在指数增强上表现优秀。
在未来我们将继续深耕该领域,尝试做出更多有意义且具备创新性的研究。
风险提示:模型结果基于历史数据的测算,在市场环境转变时模型存在失效的风险
注:文中报告节选自兴业证券经济与金融研究院已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。
证券研究报告:《MEGA-GRU:如何结合股票的时序、截面和关联信息——机器学习系列八》
对外发布时间:2025年8月6日
报告发布机构:兴业证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)
--------------------------------------
分析师:
郑兆磊
SAC执业证书编号:S0190520080006
E-mail: zhengzhaolei@xyzq.com.cn
陈子轩
SAC执业证书编号:S0190524120001
E-mail: chenzixuan@xyzq.com.cn
--------------------------------------
更多量化最新资讯和研究成果,欢迎关注我们的微信公众平台(微信号:XYQuantResearch)!