模型选择:机器学习在量化选股领域多年来被各类投资者广泛应用,近些年随着传统因子的大面积失效,量化策略中机器学习使用的占比还在不断提高。我们选择应用广泛、具有代表性的GBDT类树模型和神经网络模型进行训练测试。其中GBDT类模型主要包括LGBM, XGBoost和CatBoost,神经网络模型主要包括GRU,TCN和Transformer。
特征数据准备:量价与基本面类特征适用模型类型不同,树模型能有效处理手工构造的量价和基本面特征,而神经网络类模型由于需要捕捉特征的时序变化,低频变化的基本面因子喂入会导致效果较差。此外,鉴于目前投资者积累的各类特征越来越多,进行一定程度的特征筛选再投喂模型也能提升模型的训练效率。我们经过对比发现使用SHAP方案进行筛选能够有效减少特征数量的同时保证模型训练后的效果,而使用特征中性化来去除行业市值等风格影响对于最终因子并没有明显改进。此外,特征在投喂模型之前的标准化过程也同样重要,经过测试,对于特征进行整体标准化更有利于模型学习时序信息,提升最终因子表现。损失函数调整与预测目标处理:除一般的MSE作为损失函数外,投资者也经常使用IC作为损失。除此之外,我们对比了排序学习领域常用的各类损失函数,包括PairWise和ListWise两大类,发现部分添加NDCG指标的损失函数多头部分表现更优。同样地,在使用MSE的情况下仅对多空部分权重调整也能一定程度改善收益水平和稳健性。
在预测目标层面,使用截面标准化能保证模型学习重点在于截面收益率之间差异,排除了市场Beta的干扰,所得因子效果更优。同时结合多个不同预测周期的模型能提升最终因子稳健性。基于机器学习模型的指数增强策略:我们结合上述结论重新训练模型,构建各主流宽基指数增强策略。策略效果整体优异,沪深300指增年化超额收益率为10.03%,超额最大回撤-5.42%,信息比率为2.23。中证500指增策略的超额稳定性略有下降,年化超额收益为8.41%,超额最大回撤为-10.78%。中证1000指增策略走势相对更加稳健,年化超额收益为11.44%,超额最大回撤为-7.95%,信息比率为2.09。风险提示:(1)本文所述算法与模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时存在失效风险。(2)基于模型得到的相关结论并不能完全准确地刻画现实环境以及预测未来。(3)本文策略通过一定的假设与历史数据回测得到,当交易成本提高、市场结构及交易行为改变时有可能存在失效风险,可能导致策略收益下降或出现亏损。