华泰金工 | 基于逐笔成交的深度学习选股模型

本文聚焦于逐笔成交数据的信息挖掘，从资金流和事件驱动两个角度设计特征，构建基于transformer 模型的选股因子，并提出改进模型结构以提升预测能力。最终融合因子构建的中证1000增强组合，在2017年初至2025年6月底的回测期内，年化超额收益率19.92%，信息比率4.04，2025年上半年超额10.77%。

核心观点

人工智能93：挖掘逐笔成交数据中的alpha

高频量价数据在量化投资中的重要性毋庸置疑。本文聚焦于逐笔成交数据的信息挖掘。由于数据量庞大，逐笔成交数据难以直接作为深度学习等选股模型的输入，需依赖特征工程提取有效信号。本文从资金流和事件驱动两个角度开展特征工程，采用深度学习模型捕捉数据规律，并提出模型优化方法，最后形成选股因子。

资金流模型：tick线、成交量线等具有时间线外的增量信息

本研究基于逐笔成交数据，构造大小单、主动买卖等资金流特征。基线模型以个股过去40 日的30分钟频资金流数据作为输入，采用transformer模型学习时序注意力，最终输出未来10日超额收益的预测。然而，传统时间线存在不匹配市场交易频率、时间序列统计特性差等缺陷。改进模型在时间线基础上，拓展出tick线、成交量线等增量数据，并利用transformer模型学习跨时间和跨k线的规律。实证结果表明，改进模型训练的选股因子在多项指标上均优于基线模型。样本空间为全A股，在2017年初至2025年6月底的回测期内（周频调仓），因子周度 RankIC从10.17%提升至10.64%，多头年化超额收益率由20.43%提升为22.56%。

事件驱动模型：引入跨事件注意力可提升模型性能

逐笔成交数据中的重要成交事件（如大单、价格底部、价格顶部等）可能蕴含较为丰富的信息。本研究通过识别这些特殊事件，构造相应的事件特征。基线模型以个股过去40日的所有事件特征作为输入，采用transformer模型学习时序注意力，最终输出未来10日超额收益的预测。改进模型则采用分层注意力机制设计，第一层transformer 仍学习时序注意力，第二层transformer捕捉跨事件的交叉注意力。回测结果显示，改进模型训练得到的因子在多项指标上均优于基线模型，周度RankIC从9.94%提升至10.01%，多头年化超额收益率由20.06%提升为22.38%。

改进资金流和事件驱动因子合成的融合因子表现更佳

将改进后的资金流和事件驱动选股因子等权合成，得到逐笔成交融合因子。在2017年初至2025年6 月底的回测期内（周频调仓），该融合因子周度RankIC达10.96%，多头年化超额收益率为24.52%，表现优于单一因子。基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合，在相同回测期内年化超额收益率分别为18.98%、17.24%和19.92%，信息比率分别为3.91、3.59和4.04。 2025年上半年，三者的超额收益分别为5.57%、12.58%和10.77%。

正文

01 研究导读

高频量价数据涵盖分钟k线、tick、逐笔成交、逐笔委托等类型，在量化投资中的重要性毋庸置疑。其中，逐笔成交数据作为最精细的交易明细记录，相比分钟线和tick 数据具备更丰富的微观结构信息。然而，由于数据量庞大，逐笔成交数据难以直接作为深度学习等选股模型的输入，需依赖特征工程提取有效信号。

华泰金工前期报告《基于全频段量价特征的选股模型》（2023.12.8）中，利用逐笔成交数据构建了大单成交占比、主动买入占比等选股因子。本文将深入探讨逐笔成交的应用潜力，从资金流和事件驱动两个角度展开研究：

1.基于逐笔成交数据，构造大小单、主动买卖等资金流特征，并在传统时间线基础上，拓展出tick线、成交量线等增量数据，最后利用transformer模型学习跨时间和跨k线的规律，形成资金流选股因子。

2.识别逐笔成交数据中的大单、价格底部、价格顶部等重要成交事件，构造相应的事件特征，并使用transformer模型捕捉跨时间和跨事件的规律，形成事件驱动选股因子。

研究发现，改进后的资金流和事件驱动选股因子合成的融合因子展现出较好的选股效果，该因子的周频调仓回测表现如下。

02 基于资金流的选股模型

逐笔成交数据作为市场微观结构的核心载体，记录了成交时间、成交量、成交价格、成交金额、买方卖方编号、买卖方向标志等关键交易细节。本章将据此构造资金流特征，并运用深度学习优化选股模型。

基线模型

本研究首先采用传统时间线（time bar）采样方法，将每个交易日的逐笔成交数据划分为8个30分钟等长区间，从中提取每根k线的价格、成交量、主动买卖量、大小单成交量等特征，具体特征定义如下。

基线模型以个股过去40日的30分钟频资金流数据作为输入。为了使输入数据的分布具有较高的一致性，保证模型训练的稳定，原始特征需进行时序和截面标准化。标准化后的数据通过常见的transformer 模型，学习时序注意力，最终输出未来10日超额收益的预测。

改进模型

德普拉多在《金融机器学习》中提到，尽管时间线在行业内和学术界应用最为广泛，但可能存在两个问题：（1）市场并不会以恒定的时间间隔对信息进行处理，比如开盘后的活跃度远远高于其他时刻；（2）时间采样序列的统计学特性极差，如序列相关性、异方差性等。

为突破时间线的限制，提高对逐笔成交数据的表征能力，本研究拓展出tick线（tick bar ）、成交量线（volume bar）等多种类型的k线，具体定义如下。每类k线的资金流特征定义与图表6保持一致。

下图展示了不同k线的收盘价与成交量对比，不难看出数据具有一定的差异性。

改进模型以个股过去40日的不同类型k线的资金流数据作为输入，先通过第一层transformer学习时序注意力，再通过第二层transformer学习跨k线注意力，预测目标仍为未来10日超额收益。

因子测试

为了减轻随机性干扰，本文的深度学习模型都用不同随机数种子训练三次，将三次的模型等权集成，作为最终的因子信号进行回测。因子测试方法如下：

1．股票池：全A股，剔除ST股票，剔除每个截面期下一交易日停牌、涨停的股票。

2．回测区间：2017/1/1～2025/6/30。

3．调仓周期：周频，不计交易费用。

4．测试方法：IC值分析，因子分10层测试。

测试结果表明，改进模型在RankIC均值、RankICIR、TOP组合超额收益率、TOP组合信息比率、 TOP组合胜率、TOP组合换手率等多项指标上表现均优于基线模型，且RankIC和多头收益的优势在近几年更为突出，说明多类型k线能够在传统时间线基础上贡献增量信息。

03 基于事件驱动的选股模型

逐笔成交数据中的重要成交事件可能蕴含较为丰富的信息。本章将构造事件驱动特征，并运用深度学习优化选股模型。

基线模型

本研究根据逐笔成交数据，识别出大单、价格顶部、价格底部等多类重要事件，具体事件定义如下。

针对每类事件，构造多维特征指标，以捕捉市场参与者的异常交易行为，特征定义如下。

为了保证模型训练的稳定性，首先需要对特征进行预处理，包括中位数去极值、行业市值中性化、截面z-score标准化、缺失值填充等。基线模型以个股过去40日的所有事件特征作为输入，采用transformer 模型学习时序注意力，最终输出未来10日超额收益的预测。

改进模型

基线模型虽然能捕捉事件的时间演变规律，但忽略了不同类型事件之间的内在关联。为突破这一局限，改进模型采用分层注意力机制设计，第一层transformer仍学习时序注意力，第二层transformer捕捉跨事件的交叉注意力。

因子测试

改进模型在RankIC 均值、TOP组合超额收益率、TOP组合信息比率、TOP组合胜率表现均优于基线模型，说明引入跨事件注意力能够提升模型预测性能。

04 逐笔成交融合因子与指数增强

逐笔成交融合因子

将改进后的资金流和事件驱动选股因子等权合成，得到逐笔成交融合因子。回测结果表明，融合因子在RankIC均值、RankICIR、 RankIC>0占比、TOP组合超额收益率、TOP组合信息比率等指标上均有提升，同时TOP组合换手率有所下降。

因子相关性分析

相关性分析显示，资金流因子与事件驱动因子相关性为0.66，说明两者存在信息互补。此外融合因子呈现反转、低流动性、高 beta、低估值等风格暴露。

指数增强

分别使用改进后的资金流因子、事件驱动因子和融合因子，构建中证1000指数增强组合，测试方法如下表。为降低调仓时点选择带来的偏差，对每个因子采用相邻5个交易日作为调仓起始日，构建5条独立调仓路径的组合，最终取回测结果的均值。这种方法类似于日频调仓，但总换手率基本保持不变。

在2017年初至2025年6月底的回测期内，基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合，在相同回测期内年化超额收益率分别为18.98%、17.24%和19.92%，信息比率分别为 3.91、3.59和4.04，融合因子优于单一因子构建的组合。2025年上半年，三者的超额收益分别为5.57%、12.58%和10.77%。

05 总结

资金流模型：tick线、成交量线等具有时间线外的增量信息。本研究基于逐笔成交数据，构造大小单、主动买卖等资金流特征。基线模型以个股过去40日的30分钟频资金流数据作为输入，采用transformer模型学习时序注意力，最终输出未来 10日超额收益的预测。然而，传统时间线存在不匹配市场交易频率、时间序列统计特性差等缺陷。改进模型在时间线基础上，拓展出tick线、成交量线等增量数据，并利用transformer模型学习跨时间和跨k线的规律。实证结果表明，改进模型训练的选股因子在多项指标上均优于基线模型。样本空间为全A股，在2017年初至2025年6月底的回测期内（周频调仓），因子周度RankIC从1 0.17%提升至10.64%，多头年化超额收益率由20.43%提升为22.56%。

事件驱动模型：引入跨事件注意力可提升模型性能。逐笔成交数据中的重要成交事件（如大单、价格底部、价格顶部等）可能蕴含较为丰富的信息。本研究通过识别这些特殊事件，构造相应的事件特征。基线模型以个股过去40日的所有事件特征作为输入，采用transformer模型学习时序注意力，最终输出未来10日超额收益的预测。改进模型则采用分层注意力机制设计，第一层 transformer仍学习时序注意力，第二层transformer捕捉跨事件的交叉注意力。回测结果显示，改进模型训练得到的因子在多项指标上均优于基线模型，周度RankIC从9.94%提升至10.01%，多头年化超额收益率由20.06%提升为22.38%。

改进资金流和事件驱动因子合成的融合因子表现更佳。将改进后的资金流和事件驱动选股因子等权合成，得到逐笔成交融合因子。在 2017年初至2025年6月底的回测期内（周频调仓），该融合因子周度RankIC达10.96%，多头年化超额收益率为24.52%，表现优于单一因子。基于资金流因子、事件驱动因子和融合因子构建的中证1000增强组合，在相同回测期内年化超额收益率分别为18.98% 、17.24%和19.92%，信息比率分别为3.91、3.59和4.04。2025年上半年，三者的超额收益分别为5.57%、1 2.58%和10.77%。

风险提示：

基于逐笔成交数据的选股模型对市场微观结构的依赖较强，未来市场变化可能导致模型失效。Transformer架构的复杂性可能增加训练和推理时间，并带来过拟合风险。本报告不涉及标的推荐。

参考文献：

[1]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[2] De Prado M L. Advances in financial machine learning[M]. John Wiley & Sons, 2018.