Marcos Lopez de Prado：金融机器学习的10大应用

全网TOP量化自媒体

Marcos Lopez de Prado，想必国内的读者这几年应该熟悉一些了吧！

公众号第一次介绍Marcos Lopez de Prado，则是来自他一篇论文：《The 7 Reasons Most Machine Learning Funds Fail》，公众号进行了解读，详见：

机器学习应用量化投资失败的7个原因

此后我们还对他的另一篇论文进行了解读：《The 7 Reasons Most Econometric Investments Fail》，详见：

计量经济学应用投资失败的7个原因

在国内大多数人眼中，最为出名的是他那本《Advances in Financial Machine Learning》：

今年又出了一本：《Machine Learning for Asset Managers》

最新，Marcos Lopez de Prado应邀在美国计算机学会关于金融领域的人工智能会议上发表主旨演讲，会议将于2020年10月14日至16日举行：

https://ai-finance.org/conference-program/

不过Marcos Lopez de Prado已经把这次会议的内容作了预告分享，让我们来看看有什么精彩的内容吧！

只挑重点讲，还有我们的一些见解！

机器学习能预测黑天鹅吗？

黑天鹅是一种前所未有的极端事件。例如，2010年5月6日的闪电崩盘（flash crash）。

官方的调查是：可能是因为市场下达了卖出7.5万份E-miniS&P500期货的指令。

这一大笔订单导致了订单流量的持续失衡，从而引发了做市商之间的一连串停止交易，直到没有人支持竞购。不平衡的订单流是常态，具有不同程度的持续性。10%的价格突然下跌属于黑天鹅事件。但原因我们可以从微观结构理论搞清楚：

https://jpm.pm-research.com/content/37/2/118

所以我们的结论是：黑天鹅是可以通过理论预测的，及时不能被算法预测。

所以我们的推论是：使用机器学习来发展理论，让理论发展做出预测（而不是算法）。

1、价格预测

寻找非线性关系、层次关系和分类变量。

2、套期保值

强化学习方法涉及很少的假设。

强化学习方法无希腊语和模型的，它们纯粹是经验性的，几乎没有理论假设。这些模型在做套期保值时考虑了更多的变量和数据点，并能以更快的速度生成更精确的套期保值。

https://arxiv.org/pdf/1802.03042.pdf

3、投资组合构建/风险分析

机器学习方法的表现优于经典的均值-方差投资组合优化，夏普比率收益往往超过30%：

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2708678

众所周知，MVO在样本外方面表现不佳：

http://faculty.london.edu/avmiguel/DeMiguel-Garlappi-Uppal-RFS.pdf

4、异常值检测

横断面研究对异常值的存在特别敏感。即使是很小比例的异常值也会造成很大比例的错误信号：买入应该卖出（假阳性），卖出应该买入（假阴性）。

在这个图中，我们对证券横截面进行回归，其中有非常小的百分比（只有5%）是异常值：

红点是昂贵的证券，但回归被错误地归类为便宜。
绿点是便宜的证券，但回归被错误地归类为昂贵。

只有5%的异常值，横截面回归产生了34%的分类误差。相比之下，RANSAC的分类错误为1%。

当你怀疑数据中存在异常值时，请考虑应用RANSAC或类似的ML方法。

5、Bet Sizing / Alpha捕捉

假设你有一个决策买卖的模型：

1、你只需要知道bet的大小，其中包括完全没有赌注的可能性。

2、这是从业者经常面临的情况。我们常常知道自己是想买还是想卖一种产品，而剩下的唯一问题是，在这种赌注中我们应该承担多少风险。

3、Meta-Labeling：将主要模型的结果标记为为1（增益）或0（损失）。

合约的方向（Long | Short）和合约的大小（size）无法在三隔栏方法中体现，也就导致无法止盈和止损，所以Marcos Lopez de Prado引出了Meta-Labeling作为数据的进一步处理方法。

作者将Meta-Labeling作为类似桥梁的形式串联起两个model：

第一个 Model用于判断合约是开多还是开空
第二个 Model是在Meta-L之后的数据进行训练（正常的分类问题）

金融中用机器学习的一个常见错误时同时学习仓位的方向和规模。具体而言，方向决策（买/卖）是最基本的决策，规模决策（size decision）是风险管理决策，即我们的风险承受能力有多大，以及对于方向决策有多大信心。我们没必要用一个模型处理两种决策，更好的做法是分别构建两个模型：第一个模型来做方向决策，第二个模型来预测第一个模型预测的准确度。很多ML模型表现出高精确度（precision）和低召回率（recall），即（正确预测为交易机会的次数/预测为交易机会的次数）很高，（正确预测为交易机会的次数/交易机会的次数）而很低。这意味着这些模型过于保守，大量交易机会被错过。F1-score 综合考虑了精确度和召回率，是更好的衡量指标，元标签（Meta-Labeling）有助于构建高 F1-score 模型。首先（用专家知识）构建一个高召回率的基础模型，即对交易机会宁可错杀一千，不可放过一个。随后构建一个ML模型，用于决定我们是否应该执行基础模型给出的决策。

Meta-Labeling的方法

要构建一个模型来决定是否买卖某个资产，我们需要：

1、确定头寸方向（side）

当价格涨或正收益到一定程度，做多
当价格跌或负收益到一定程度，做空
其他情况下，什么都不用做

2、确定头寸大小（size），甚至包括不下单（size = 0）

Meta-Labeling的核心优势在于将确定头寸的任务分解为了两个部分：头寸方向，头寸大小

对于二元分类，meta-labeling可以有效帮助我们提升F1-score。在确定头寸方向的过程中，我们首先建立一个ML模型 (primary model) ，尽力提高查全率 (recall)。随后我们对该ML预测的正例使用meta-labeling，并建立第二个ML模型 (secondary model) 来提高查准率 (precision)。第二个ML模型的主要目的是从已经挑选出的机会中再一次筛选投资标的。

Meta-Labeling的优点

1、元标签+ML则是在白箱（基础模型）的基础上构建的，具有更好的可解释性。

2、元标签+ML减少了过拟合的可能性，即ML模型仅对交易规模决策不对交易方向决策，避免一个ML模型对全部决策进行控制。

3、元标签+ML的处理方式允许更复杂的策略架构，例如：当基础模型判断应该多头，用ML模型来决定多头规模；当基础模型判断应该空头，用另一个ML模型来决定空头规模。

4、赢小输大会得不偿失，所以单独构建ML模型对规模决策是有必要的。

5、头寸方向和头寸大小的分解允许我们先简后繁。例如我们可以使用复杂模型分别对多头和空头进行专门训练确定头寸大小。

Meta-Labeling的案例

1、使用基本面模型挑选标的并确定头寸方向，使用元标签方法确定标签。

2、使用机器学习模型在元标签进行训练，得出概率可转化成头寸大小。

6、特征重要性

1、机器学习算法识别高维空间中的模式。

2、这些模式将特征与结果联系在一起。