机器学习与因子模型实证：怎么进行模型训练？

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续4年被腾讯云+社区评选为“年度最佳作者”。

标题：Stock Market Anomalies and Machine Learning Across the Globe

作者：Vitor Azevedo、Georg Sebastian Kaiser、Sebastian Muller

前言

股票市场异常是指那些与传统金融理论不符合的现象，这些现象可能导致投资组合表现出色或者糟糕。机器学习技术可以帮助我们更好地理解这些异常，并提高投资组合的表现。

本文旨在探讨机器学习模型在国际股票市场异常预测中的应用。作者使用了来自多个国家的大量数据，并采用多种机器学习算法来构建未来回报预测器。他们还对不同算法和特征选择方法进行了比较，并评估了它们在样本内和样本外测试中的表现。作者发现：

1、机器学习模型可以有效地预测股票市场异常，尤其是在样本外测试中表现更好。

2、不同的机器学习算法和特征选择方法对预测能力的影响不同。例如，基于树的算法（如随机森林和梯度提升树）通常比线性模型表现更好。

3、在国际股票市场中，不同的异常变量具有不同的预测能力。例如，动量和价值因子在多个国家中表现出色，而流动性因子则在某些国家中表现较差。

4、在构建未来回报预测器时，考虑多个异常变量之间的非线性关系可以提高模型的预测能力。

测试了哪些因子？

本文使用了量价数据、基本面数据及分析师一致预期数据构建了240个因子（异象），这些数据从1980年7月至2019年6月，覆盖了MSCI主要地区指数的国家（包括以下指数：MSCI North America, Europe, Pacific, Emerging Markets）。经过一系列的处理，最终的数据包括68个国家66000家上市公司的超过9390万条的月度数据。从下表我们可以看到中国的数据占了总样本的8.17%。

主要测试了113个基本面因子、75个量价因子、18个分析师因子及19个估值因子和15个其他因子。所有因子的数据都基于截面排序标准化到(0,1)的区间。因子评价主要使用多空组合收益及其显著性。在构建多空组合时，分别构建了等权组合和市值加权组合。具体因子列表请参考原文。

使用了哪些机器学习的模型？

使用的模型从简单到复杂主要分为三类：

1、线性回归模型，GLM（Generalized Linear Model）

2、树模型，Gradient Boosting Machine（GBM）

3、神经网络模型，总共有三个，浅层全连接模型（Small Feedforward Neural Network），深层全连接模型（Large Feedforward Neural Network）和RNN。

简单因子表现怎么样？

在所有的240个因子中，有167个因子（约占总体70%）的多空收益显著（t值大于1.96）。t值大于3.00的因子有132个。基于240个因子的截面排序的均值，本文构建了一个Baseline factor。与所有单个因子组合的平均表现对比，Baseline因子的换手率更高，月度平均的表现也更优。等权Baseline因子的表现也显著大于市值加权的Baseline因子表现。在接下来的研究中，本文将对比各模型于Baseline因子的表现。