Py学习  »  机器学习算法

华泰金工 | 基于逐笔成交的深度学习选股模型

华泰证券金融工程 • 1 周前 • 29 次点击  

本文聚焦于逐笔成交数据的信息挖掘,从资金流事件驱动两个角度设计特征,构建基于transformer 模型的选股因子,并提出改进模型结构以提升预测能力。最终融合因子构建的中证1000增强组合,在2017年初至2025年6月底的回测期内,年化超额收益率19.92%,信息比率4.04,2025年上半年超额10.77%。


核心观点

人工智能93:挖掘逐笔成交数据中的alpha

高频量价数据在量化投资中的重要性毋庸置疑。本文聚焦于逐笔成交数据的信息挖掘。由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。本文从资金流和事件驱动两个角度开展特征工程,采用深度学习模型捕捉数据规律,并提出模型优化方法,最后形成选股因子


资金流模型:tick线、成交量线等具有时间线外的增量信息

本研究基于逐笔成交数据,构造大小单、主动买卖等资金流特征。基线模型以个股过去40 日的30分钟频资金流数据作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。然而,传统时间线存在不匹配市场交易频率、时间序列统计特性差等缺陷。改进模型在时间线基础上,拓展出tick线、成交量线等增量数据,并利用transformer模型学习跨时间和跨k线的规律。实证结果表明,改进模型训练的选股因子在多项指标上均优于基线模型。样本空间为全A股,在2017年初至20256月底的回测期内(周频调仓),因子周度 RankIC10.17%提升至10.64%,多头年化超额收益率由20.43%提升为22.56%


事件驱动模型:引入跨事件注意力可提升模型性能

逐笔成交数据中的重要成交事件(如大单、价格底部、价格顶部等)可能蕴含较为丰富的信息。本研究通过识别这些特殊事件,构造相应的事件特征。基线模型以个股过去40日的所有事件特征作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。改进模型则采用分层注意力机制设计,第一层transformer 仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。回测结果显示,改进模型训练得到的因子在多项指标上均优于基线模型,周度RankIC9.94%提升至10.01%,多头年化超额收益率由20.06%提升为22.38%


改进资金流和事件驱动因子合成的融合因子表现更佳

将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。在2017年初至20256 月底的回测期内(周频调仓),该融合因子周度RankIC10.96%,多头年化超额收益率为24.52%,表现优于单一因子。基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98%17.24%19.92%,信息比率分别为3.913.594.04 2025年上半年,三者的超额收益分别为5.57%12.58%10.77%




正    文

01 研究导读

高频量价数据涵盖分钟k线、tick、逐笔成交、逐笔委托等类型,在量化投资中的重要性毋庸置疑。其中,逐笔成交数据作为最精细的交易明细记录,相比分钟线和tick 数据具备更丰富的微观结构信息。然而,由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。


华泰金工前期报告《基于全频段量价特征的选股模型》(2023.12.8)中,利用逐笔成交数据构建了大单成交占比、主动买入占比等选股因子。本文将深入探讨逐笔成交的应用潜力,从资金流和事件驱动两个角度展开研究:

1.基于逐笔成交数据,构造大小单、主动买卖等资金流特征,并在传统时间线基础上,拓展出tick线、成交量线等增量数据,最后利用transformer模型学习跨时间和跨k线的规律,形成资金流选股因子。

2.识别逐笔成交数据中的大单、价格底部、价格顶部等重要成交事件,构造相应的事件特征,并使用transformer模型捕捉跨时间和跨事件的规律,形成事件驱动选股因子。



研究发现,改进后的资金流和事件驱动选股因子合成的融合因子展现出较好的选股效果,该因子的周频调仓回测表现如下。



02 基于资金流的选股模型

逐笔成交数据作为市场微观结构的核心载体,记录了成交时间、成交量、成交价格、成交金额、买方卖方编号、买卖方向标志等关键交易细节。本章将据此构造资金流特征,并运用深度学习优化选股模型。


基线模型

本研究首先采用传统时间线(time  bar)采样方法,将每个交易日的逐笔成交数据划分为830分钟等长区间,从中提取每根k线的价格、成交量、主动买卖量、大小单成交量等特征,具体特征定义如下。



基线模型以个股过去40日的30分钟频资金流数据作为输入。为了使输入数据的分布具有较高的一致性,保证模型训练的稳定,原始特征需进行时序和截面标准化。标准化后的数据通过常见的transformer 模型,学习时序注意力,最终输出未来10日超额收益的预测。



改进模型

德普拉多在《金融机器学习》中提到,尽管时间线在行业内和学术界应用最为广泛,但可能存在两个问题:(1)市场并不会以恒定的时间间隔对信息进行处理,比如开盘后的活跃度远远高于其他时刻;(2)时间采样序列的统计学特性极差,如序列相关性、异方差性等。


为突破时间线的限制,提高对逐笔成交数据的表征能力,本研究拓展出tick线(tick bar )、成交量线(volume bar)等多种类型的k线,具体定义如下。每类k线的资金流特征定义与图表6保持一致。



下图展示了不同k线的收盘价与成交量对比,不难看出数据具有一定的差异性。



改进模型以个股过去40日的不同类型k线的资金流数据作为输入,先通过第一层transformer学习时序注意力,再通过第二层transformer学习跨k线注意力,预测目标仍为未来10日超额收益。




因子测试

为了减轻随机性干扰, 本文的深度学习模型都用不同随机数种子训练三次,将三次的模型等权集成,作为最终的因子信号进行回测。因子测试方法如下:

1.股票池:A,剔除ST股票,剔除每个截面期下一交易日停牌、涨停的股票。

2.回测区间:2017/1/12025/6/30

3.调仓周期:频,不计交易费用。

4.测试方法:IC值分析,因子分10层测试。

测试结果表明,改进模型在RankIC均值、RankICIRTOP组合超额收益率、TOP组合信息比率、 TOP组合胜率、TOP组合换手率等多项指标上表现均优于基线模型,且RankIC和多头收益的优势在近几年更为突出,说明多类型k线能够在传统时间线基础上贡献增量信息。





03 基于事件驱动的选股模型

逐笔成交数据中的重要成交事件可能蕴含较为丰富的信息。本章将构造事件驱动特征,并运用深度学习优化选股模型。


基线模型

本研究根据逐笔成交数据,识别出大单、价格顶部、价格底部等多类重要事件,具体事件定义如下。



针对每类事件,构造多维特征指标,以捕捉市场参与者的异常交易行为,特征定义如下。



为了保证模型训练的稳定性,首先需要对特征进行预处理,包括中位数去极值、行业市值中性化、截面z-score标准化、缺失值填充等。基线模型以个股过去40日的所有事件特征作为输入,采用transformer 模型学习时序注意力,最终输出未来10日超额收益的预测。



改进模型

基线模型虽然能捕捉事件的时间演变规律,但忽略了不同类型事件之间的内在关联。为突破这一局限,改进模型采用分层注意力机制设计,第一层transformer仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。




因子测试

改进模型在RankIC 均值、TOP组合超额收益率、TOP组合信息比率、TOP组合胜率表现均优于基线模型,说明引入跨事件注意力能够提升模型预测性能。





04 逐笔成交融合因子与指数增强

逐笔成交融合因子

将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。回测结果表明,融合因子在RankIC均值、RankICIR RankIC>0占比、TOP组合超额收益率、TOP组合信息比率等指标上均有提升,同时TOP组合换手率有所下降。




因子相关性分析

相关性分析显示,资金流因子与事件驱动因子相关性为0.66,说明两者存在信息互补。此外融合因子呈现反转、低流动性、高 beta、低估值等风格暴露



指数增强

分别使用改进后的资金流因子、事件驱动因子和融合因子,构建中证1000指数增强组合,测试方法如下表。为降低调仓时点选择带来的偏差,对每个因子采用相邻5个交易日作为调仓起始日,构建5条独立调仓路径的组合,最终取回测结果的均值。这种方法类似于日频调仓,但总换手率基本保持不变。



2017年初至20256月底的回测期内,基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98%17.24%19.92%,信息比率分别为 3.913.594.04,融合因子优于单一因子构建的组合。2025年上半年,三者的超额收益分别为5.57%12.58%10.77%





05 总结

高频量价数据在量化投资中的重要性毋庸置疑。本文聚焦于逐笔成交数据的信息挖掘。由于数据量庞大,逐笔成交数据难以直接作为深度学习等选股模型的输入,需依赖特征工程提取有效信号。本文从资金流和事件驱动两个角度开展特征工程,采用深度学习模型捕捉数据规律,并提出模型优化方法,最后形成选股因子。


资金流模型:tick线、成交量线等具有时间线外的增量信息。本研究基于逐笔成交数据,构造大小单、主动买卖等资金流特征。基线模型以个股过去40日的30分钟频资金流数据作为输入,采用transformer模型学习时序注意力,最终输出未来 10日超额收益的预测。然而,传统时间线存在不匹配市场交易频率、时间序列统计特性差等缺陷。改进模型在时间线基础上,拓展出tick线、成交量线等增量数据,并利用transformer模型学习跨时间和跨k线的规律。实证结果表明,改进模型训练的选股因子在多项指标上均优于基线模型。样本空间为全A股,在2017年初至20256月底的回测期内(周频调仓),因子周度RankIC1 0.17%提升至10.64%,多头年化超额收益率由20.43%提升为22.56%


事件驱动模型:引入跨事件注意力可提升模型性能。逐笔成交数据中的重要成交事件(如大单、价格底部、价格顶部等)可能蕴含较为丰富的信息。本研究通过识别这些特殊事件,构造相应的事件特征。基线模型以个股过去40日的所有事件特征作为输入,采用transformer模型学习时序注意力,最终输出未来10日超额收益的预测。改进模型则采用分层注意力机制设计,第一层 transformer仍学习时序注意力,第二层transformer捕捉跨事件的交叉注意力。回测结果显示,改进模型训练得到的因子在多项指标上均优于基线模型,周度RankIC9.94%提升至10.01%,多头年化超额收益率由20.06%提升为22.38%


改进资金流和事件驱动因子合成的融合因子表现更佳。将改进后的资金流和事件驱动选股因子等权合成,得到逐笔成交融合因子。在 2017年初至20256月底的回测期内(周频调仓),该融合因子周度RankIC10.96%,多头年化超额收益率为24.52%,表现优于单一因子。基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合,在相同回测期内年化超额收益率分别为18.98% 17.24%19.92%,信息比率分别为3.913.594.042025年上半年,三者的超额收益分别为5.57%1 2.58%10.77%


风险提示:

基于逐笔成交数据的选股模型对市场微观结构的依赖较强,未来市场变化可能导致模型失效。Transformer架构的复杂性可能增加训练和推理时间,并带来过拟合风险。本报告不涉及标的推荐。

参考文献:

[1]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[2] De Prado M L. Advances in financial machine learning[M]. John Wiley & Sons, 2018.



相关研报

研报:《基于逐笔成交的深度学习选股模型》2025年7月14日

研究员:林晓明 S0570516010001|BPY421

研究员:何   康 S0570520080004|BRB318
研究员卢   炯 S0570123070272



关注我们


华泰证券研究所国内站(研究Portal)

https://inst.htsc.com/research

访问权限:国内机构客户


华泰证券研究所海外站

https://intl.inst.htsc.com/research

访问权限:美国及香港金控机构客户
添加权限请联系您的华泰对口客户经理

免责声明

▲向上滑动阅览

本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。

本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。

本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。

在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。

本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/184461
 
29 次点击