机器学习时代的回测原则

机器学习时代的回测原则

文献来源：Arnott, Rob, Campbell R. Harvey, and Harry Markowitz. "A Backtesting Protocol in the Era of Machine Learning." The Journal of Financial Data Science(2019): jfds-2019.

推荐原因：在金融领域中，由于没有巨量的数据，在应用机器学习方法时很容易陷入过拟合中，本论文从七个维度给出了我们在实际中应用机器学习的原则和规程，以此来指导我们更好地避免模型过拟合。

前言

在高频交易中，由于巨大的数据量，我们可以通过机器学习来获得较好的效果，但是在一些月频及更低频的金融数据上，数据挖掘很容易陷入过拟合，因此在我们实际应用机器学习技术进行金融数据挖掘时更应该遵循一些原则。

下图展示了一个长达50年美股上市值中性的多空对冲策略。该策略表现非常好：

1. 无论在1963~1988年的样本内测试，还是1989~2015年的样本外测试，该策略的表现都非常出色；

2. 该策略的表现在近期还是非常出色，显示并没有很多人模仿，因此这个“秘密”还相当管用；

3. 该因子能够穿越牛熊，在金融危机时甚至出现了上涨；

4. 该因子和其他主流因子（例如value, size, momentum等）之间的相关系数很低，从资产配置的角度，能够提高投资组合的风险调整后收益；

5. 该因子年换手率仅10%。

我们看到这样的投资策略，如果不了解其构建逻辑，可能已经迫不及待想要进行投资了。但事实上，该投资策略是数据挖掘的产物，其没有用到任何公司的基本面或技术面的信息，就是单纯买入美国股票代码前三个字母中含有S的股票，并且做空股票代码前三个字母中含有U的股票。

为什么买入首三个字母中带有S的股票，并且做空首三个字母中带有U的股票？原因在于，这是基于大数据机器学习的方法，在成千上万种不同的投资策略中，甄选出来的表现最好的策略之一。我们可以想象一下，我们不停地在英文字母中排列组合，只要可能的组合够多，即使完全源于运气，也可能找出几个看上去非常牛逼的投资策略。

虽然该策略是暴力测试出来的，但是由于其历史回测的优良表现，大概率是能够通过交叉验证的。当数据量过少时，经济直觉就会更重要。所以在实际应用机器学习技术时，我们需要一些原则和规程来指导我们更好地避免过拟合。下面我们就从七个方面来逐一介绍。

研究动机

建立先验的理论假设：在物理学的研究中，实验物理学家通常都是不断实验测试数据来啊检验现有的理论，而理论物理学家则基于实验数据来构建更好的模型。这个过程一直采用的是科学方法：首先提出一个理论假设，通过实验来发现和理论不一致的地方，即可证伪性。

这样的一个理论假设能够为我们降低过拟合提供可能，并且它通常都有一个逻辑基础。上面的基于字母的选股就没有一个可靠的逻辑基础。

避免事后解释：在现实中，我们通常都会先看到数据再建立理论，例如上面的基于字母的选股模型，我们可能会自己编造一个理由来说服自己该策略是有效的。任何通过事后回看建立的理论都应该被非常谨慎地对待。

数据准备和模型方法

记录历史回测的样本及变量的组合：给定20个随机的选股策略，我们由于运气大概率能得到一个t值大于2的策略。因此在测试多个策略时，t值大于2并不是一个有效的评价指标。我们还需要跟踪记录有多少个类似的策略被回测过。如果回测时有20个变量，并且回测带有部分变量之间的交互，例如变量1和变量2、变量1和变量3，那么实际的交互关系其实有190种，策略的显著性必须把所有的交互关系都考虑到其中。

注意平行空间问题：如果一个研究者开发了一个策略，并且只测试了一种变量下的结果，他相信一次的结果就可以通过t值为2来判定该策略是否显著。而实际上我们可以想象在平行空间中，另一个研究者实验了20次最后一次才拿到了一个好结果，那么实际上通过t值为2的标准来判定，其显著性是完全不够的。

样本选择和数据

事前定义数据：测试样本应该事前就确定好并且不能在回测开始后再修改。例如一个模型在1970年以后有效但是以1960年开始没有效，那么这个模型就没有用。

保证数据质量：脏数据会导致错误的结果，数据质量是后续算法的基础。

数据转换的方式：数据的缩放和标准化有时候是必要的，而其转换的方式必须要稳健，不能由于转换方式的微小变动导致结果不稳健。例如有10种缩放的方式，如果研究者选择了表现最好的一种，那么是很危险的。

细心处理异常值：异常值可能对于模型的干扰非常大。通常来说任何数据都不应该被删除，模型应该解释所有数据而不是选择部分数据。去极值的方法也要事前确定，不能出现压缩5%的效果好而压缩1%的效果就不好后就选择5%来压缩的情况。

交叉验证

样本外数据并不是真的样本外：所有的历史数据都是已经发生过的，都是样本内的数据。如果由于某一次样本内好而样本外不好就重新调整样本内外的数据结构，这就是在过拟合。

不可忽略的交易成本和手续费：基于所有学术论文都忽略了交易成本。而在实际考虑交易成本后，很多模型在样本内外都失效了。

模型的动态变化

数据的时变性导致过拟合：在金融中，我们处理的不是物理常量，而是与人打交道，而人的偏好是会时变的。由于可获取的数据受限，对于时变的数据很容易导致过拟合。

谨记测不准原理：我们当前发现的市场历史上的无效性可能由于我们的发现及交易导致其在未来变为无效。

克制调整模型的冲动：每个模型都是靠概率取胜，如果一段时间内模型表现不好，我们经常会有不断调整模型来拟合市场近期表现的冲动，从而使模型变得过拟合。

模型复杂度

小心维度爆炸：由于数据量受限，维度越高，模型的生命力越小。通过增加维度来提升样本内表现的做法，都会提高模型的复杂度，推升模型过拟合的风险。

追求简洁性：正则化是机器学习中的常用方法。越简单的模型在样本外的表现越不容易过拟合。

寻求可解释的机器学习方法：使用了机器学习算法的量化策略不应该是黑箱。我们应该尽量了解这个算法的过程及其对结果的影响。

研究文化

更注重研究的质量：在开发量化策略时，我们应该更注重研究的质量，而不是研究的结果。

小心委派的研究课题：没有人能够在各方面都精通，因此经常会有课题委托。而被委托的研究者通常都倾向于取悦他们的委托方，从而想办法来支持委托方的研究假设。这种倾向可能导致数据挖掘的比例过高从而导致策略在样本外没有好的表现。

总结

在金融领域中，由于没有巨量的数据，在应用机器学习方法时很容易陷入过拟合中，本论文从七个维度给出了我们在实际中应用机器学习的原则和规程，以此来指导我们更好地避免模型过拟合。

往期链接

海外文献推荐：因子选股类

向下滑动查看往期链接↓

第95期：防御性质的因子择时

第90期：收益预测性：来自中美两国供应链的证据

第89期：盈利，留存收益，账面市值比在股票横截面收益中的作用

第87期：因子大陆上的爱丽丝梦游：纠缠因子投资的三大谬误

第79期：不确定性、动量和盈利能力

第77期：因子动量与动量因子

第71期：短期的Beta还是长期的Alpha

第70期：SmartBeta与多因子组合的最优配置

第58期：ESG能够提高新兴市场投资的风险调整后收益

第56期：盈余公告收益及标准化预期外盈利

第54期：六因子模型与解决价值因子冗余

第53 期：Shiller P/E与宏观经济环境

第52 期：微观领先于宏观？非流动性对股票收益和经济活动的预测能力

第50期：因子如何复合——自上而下及自下而上的指数构建方法

第38期：隔夜收益与特定企业股票的投资情绪

第37期：因子选择的新指标

第36期：一种新的公允周期调整市盈率（CAPE）预测方法

第35期：因子投资模型增强：基于深度学习来预测基本面数据

第29期：风格投资、联动性与股票收益可预测性

第28期：期估值因子的风险来源于哪里？由PB 分解得来的证据

第28期：基于波动率管理的投资组合

第26期：收益的可预测性

第25期：价格影响还是交易量：为什么是Amihud(2002)度量

第25期：金融危机期间企业社会责任的价值

第24期：股票流动性和股价暴跌风险

第22期；估计Beta值

第22期：价值、规模、动量、股利回报以及波动率因子在中国A股市场的表现

第13期:股票市场波动性与投资学习

第13期:社会责任共同基金的分类及其绩效的衡量

第13期:因子择时风险导向模型

第10期：利用信息因子解释回报

第10期;异质现金流和系统性风险

第9期：“打赌没有β”投资策略研究

第9期：利用条件信息理解投资组合的有效性

第8期：因子择时模型

第8期：优化价值

第7期：动量崩溃

第7期:动量因子及价值因子在投资组合中的运用的实证研究

第7期：后悔的神经证据及其对投资者行为的影响

第6期：持续过度反应和股票回报的可预测性

第6期：五因子资产定价模型在国际市场上的检验

第5期：价值的另一面：毛盈利能力溢价

第5期：卖空比例与总股票收益

第4期：巨变的贝塔：连续型贝塔和非连续型贝塔

第4期：全球、本地和传染的投资者情绪

第4期：投资者更关注哪些因子？来自共同基金资金流的证据

第4期：总资产增长率与股票截面收益率的实证

第3期：Beta套利

第3期：前景理论与股票收益：一个实证研究

第3期：趋势因子：投资时限的信息能获得收益？

第3期：时变的流动性与动量收益

第2期：CAPM新视角：突尼斯和国际市场基于copula方法的验证

第2期：资本投资，创新能力和股票回报

第2期：风暴来临前的平静

第2期：资本投资，创新能力和股票回报

第1期：三因子与四因子模型对比与动量因子的有效性检验

第1期：五因子资产定价模型

第1期：多资产组合中的动量因子影响

第1期：期基于插值排序标准化变量法和复杂变量的平衡分离树的多因子选股模型

海外文献推荐：资产配置类

向下滑动查看往期链接↓

第65期：通过VaR Black-Litterman模型构建FOF投资绝对收益组合

第56期：利用低风险现象增强Black-Litterman 模型：来自韩国市场的证据

第56期：波动率模型以及波动率的程式化特征实证

第54期：放大市场异象

第53期：风险平价组合与其他资产配置方法的比较探索

第51期：关于公式化价值投资方法的事实

第48期：对风险配置策略的再思考

第41期：投资组合再平衡管理的另一类方法-叠加期权卖出合约

第38期：Smart Beta 策略怎么会出错？

第27期：风险因子的风险平价

第27期：桥水基金对风险平价和全天候策略的一些思考

第26期：协方差矩阵的非线性压缩：当Markowitz遇见Goldilocks

第24期：考虑寿命风险的多变量战略资产配置模型

第16期：将因子暴露映射到资产配置

第12期：构造有效收入组合

第12期：投资组合中股票数量是否会影响组合表现

第11期：对冲基金收益优化投资组合

第5期：集中投资与全球机构投资者业绩

第5期：价值投资vs 成长投资：为什么不同的投资者有不同的投资风格

海外文献推荐：事件研究类

向下滑动查看往期链接↓

第96期：规模效应隐藏于日历效应之中

第47期：工业用电量与股票收益率

第45期：预测中国股票市场的股灾

第40期：IPO 批准对现有股票的影响：来自中国的证据

第21期：低频调仓、收益率自相关性和季节性

第8期：机构投资者和股票拆分的信息产生理论

第6期：季节性收益

第6期：可预测的行为、利润和关注

第6期：盈余公告与系统性风险

海外文献推荐：投资者行为类

向下滑动查看往期链接↓

第85期：原油期货市场的知情交易

第78期：高频报价：买价和卖价的短期波动性

第57期：数据提供者的信息中介角色

第55期：分析师的重新覆盖与市场反应不足

第42期：卖方研究在经济不景气时期更有价值吗？

第33期：公司债市场收益的共有因子

第23期：媒体关注与消费者投资行为之间的因果关系

第20期：高频交易之间的影响

第20期：是什么使得股价移动？基本面 vs. 投资者认知

第18期：短期机构交易的表现

第16期：坏习惯和好方法

第11期：状态变量、宏观经济活动与个股截面数据的关系

第10期：条件夏普比率

第9期：强制清算，减价出售与非流动性成本

第7期：买方与卖方谁发起交易

第7期：后悔的神经证据及其对投资者行为的影响

第7期：排名效应和交易行为：卖出最差的和最好的，忽略其余的

第6期：持续过度反应和股票回报的可预测性

海外文献推荐：择时策略类

向下滑动查看往期链接↓

海外文献推荐：公司金融类

向下滑动查看往期链接↓

第72期：独立董事的价值

第23期：经济周期、投资者情绪和高成本的外源融资

第12期：世界各地的资本结构决策：哪些因素重要

第11期：财务风险有多重要？

第3期：机构投资者对公司透明度和信息披露的影响

海外文献推荐：基金研究类

向下滑动查看往期链接↓

第94期：基金经理是否具有市场流动性择时能力

第74期：风格中性FOF:分散投资还是成本重负

第73期：基于APB指标的共同基金业绩评估

第68期：弱市赢家方能恒强：对冲基金再不同市场下的表现持续性

第67期：美国ESG基金发展概览

第64期：基金的alpha源自基金经理的管理能力吗？

第44期：一个有效的下行风险衡量指标下的FOF 策略

第42期：趋势跟踪策略在目标日期基金中的应用

第41期：基金经理的个人特征与业绩

第39期：风格中性的基金中基金：分散化还是锁定权重？

第37期：如何设计目标基金？

第34期：市场情绪与技术分析的有效性：来自对冲基金的证据

第32期：目标日期基金需要更好的分散化

第30期：一种新的衡量基金经理能力的方式

第29期：基金真的交易越多赚的越多么？

海外文献推荐：其他

向下滑动查看往期链接↓

风险提示：本报告内容基于相关文献，不构成投资建议。

注：文中报告节选自天风证券研究所已公开发布研究报告，具体报告内容及相关风险提示等详见完整版报告。

证券研究报告

《天风证券-金融工程：海外文献推荐第97期》

对外发布时间

2019年7月31日（注：报告审核流程结束时间）

报告发布机构

天风证券股份有限公司

（已获中国证监会许可的证券投资咨询业务资格）

本报告分析师

吴先兴 SAC 执业证书编号：S1110516120001