谁主沉浮 | 吴雅楠：应用机器学习于CTA和量化策略配置

“谁主沉浮”

/ 华西研究·2021投资高峰(福州)论坛 /

主办单位：华西证券研究所

协办单位：华宝基金

会议时间：2021年4月22日

会议主持：华西证券研究所副所长杨国平

论坛四：量化投资及ETF论坛

演讲主题：应用机器学习于CTA和量化策略配置

演讲嘉宾：亚厚资产董事长吴雅楠

演讲正文：

感谢华西证券给我们提供这样一个平台，每个季度基本上可以聚一次，可以好好地讨论宏观、量化、策略。我也汇报一下从公募出来之后，转了一圈在金融科技、互联网金融又回到财富管理、资产管理这段历程。

这两天信息量挺大的，昨天嘉宾讲了资产配置、宏观观点，今天早上咱们温总还有其他几位嘉宾也讲了，关于个股还有包括全球的一些经济思考，刚才有几个挺好的，给我们讲了整个基金产品的思考，包括指数化的一些组合，刚才艺婷总也讲了怎么样去选基金。

我觉得现在大家面临的困惑或者说很多的思考在于我们没有水晶球预知市场未来的风格怎么样，回头来看很多都是对的，逻辑都很顺，包括去年的抱团到今年年初第一季度风格的变化，在CTA上其实大家这两天讨论的不多，刚才艺婷总点了一下，其实在CTA上我觉得去年是一个CTA大年，因为整个全球流动性的泛滥和多周期的共振，中国经济先复苏。去年一季度释放很多宏观货币政策，到四季度美国开始一直到拜登上台，整个我觉得是形成CTA大宗商品非常好的一个现象。

但到今年第一季度我看整个CTA的市场也发生了一些变化，这里我想今天下午跟大家简短汇报一下，讨论一下我的思考。

首先汇报一下宏观观点，温总其实讲了很多，我就不重复了，但是从咱们做绝对收益角度来说，面临的是配什么样的资产的问题。刚才艺婷总也讲了她的量化分析，我觉得从商品来说，今年是不可忽视的。从权益、债券、商品来看，昨天讲了今年的收益要做合理的预期，10%就算很好的收益了。今年到底在哪些领域可能会出彩，或者说相对来说几大类资产有哪些会出现机会，我就汇报一下，我们觉得波动还会有，但不会像去年波动那么流畅，大宗商品的波动等一下我可以介绍一下我自己的观点，还会有。所以，CTA这一块应该成为咱们资产配置当中今年很重要的一部分。

另外，从风格轮动和因子角度，咱们做量化的人都是讲因子轮动和因子的组合，其实这个因子当中的权重怎么去选？大家一直有各种方法去研究，我们也投入一些思考，特别是在另类数据角度。

从宏观来说，从大的观点来说，我觉得在拜登上台以后，整个美国肯定会出现经济强刺激的格局，无论是从1.9万亿美元的财政刺激，还是它正在出台的新一轮的刺激政策，本质是要把美国经济重新拉回到疫苗之后复苏的轨道上，包括现在大家可以看到它打疫苗的速度非常快，基本上预测应该到6月份美国可以实现全民疫苗的接种，这个接种率还是很快的。

我们看美元指数，是去年年底和今年的一个主要矛盾，昨天讨论了美元，我觉得美元指数今年是挺有意思的，我觉得它代表一个全球流动性和风险偏好的锚，这个是对无论说做权益的还是说做大宗商品的，都变成一个很重要的指标。从历史来看，我觉得从统计来看，至少在历史上，从1978年、1995年和2011年美元出现了三次大的底部，这个应该看出来是在70到80之间。

在顶部出现在1985年广场协议后到2002年的那个阶段，这个时候是在150和120多。到去年4月份103左右，如果我们认同美元这样的底部和顶部的周期，大概是15年到18年一个周期，也就是说只是从一个周期性来看，美元进入了一个从顶部往下走的周期，如果说这个观点成立的话，那么去年4月份103美元指数就是近期的一个高点。

第二个就是从大家现在关心的央行各种动作。今年比较有意思，除了美国传统sell in may，5月份股票基金经理或者资产管理经理基本上是度假去了，5月份基本上把仓位降下来了。另外，我觉得今年还需要重点关注8月份的全球央行的Jackson Hole会议，美联储一般会在这个会议上宣布一些重大政策调整，比如QE的规模到底是不是缩减，会成为今年一个主导全球流动性很关键的信号。所以，一方面是财政刺激政策它肯定还在继续推，但是另外一方面货币政策是不是会调整，美债收益率上升会不会倒逼美联储要么做扭曲操作，要么收缩QE的规模，在8月份可能是一个关键的时间点。

无论怎么样，我觉得现在是弱美元周期，现在美国资产负债表已经都7万亿了，占它美国GDP的三分之一左右。中国这边去年比较亮眼的是出口，这个是超预期的，原来觉得疫情原因出口可能不会太好，但是反而是因为全球供应链因疫情受限，反而出口转好。今年如果美国开始复苏，接着全球复苏，可能需求端会形成整体的拉动。

大家这两天讨论的传统的钢铁煤炭等大家原来看不上眼的，在碳达峰碳中和的目标下，展开了新一轮的供给侧改革，我之前刚从核电站参观过来，深刻的感觉到在各级政府今年的KPI都是低碳。因为现在时间表很明确，从倒推回来，每一年的KPI你都得完成，而中国100亿吨的二氧化碳排放量压力很大。

所以，我觉得会在供给端产生很大的压力，尤其在钢铁这些高能耗的领域，会产生很大的政治上的压力，如果供给端出现非常大的受限，需求端如果起来，那么供需的矛盾就会起来。所以，我觉得这个是紧平衡的一个状态。

现在大家都在讨论朱格拉周期，有可能变成一个周期共振的时间点，所以这个时候如果我们看全球，我刚才讲供给端还处于一个政策受限的位置，在需求端如果一旦拉出那么在供需的矛盾就会出现。

第二，在流动性这块，美联储、欧洲和日本这块，流动性不会收那么快，我同意昨天两位嘉宾的观点，大家都不想在流动这块犯错，因为如果经济没有大家想得那么好，流动性过早回收的话这都会是更大的问题。所以现在资本市场对通胀过度担忧了。第一部分我讲在CTA配置当中为什么看好CTA这块，今年CTA市场的大宗商品的机遇还在这三层次共振的机遇。等下会看到一些具体数据，去年是CTA大宗商品非常好的一年。

现在量化慢慢开始从传统结构化数据进入到非结构化数据。这几天最热闹是上海车展，车展大家看到华为进来以后对车有一个重新的认识，车原来是一个代步工具，现在其他的互联网科技公司包括苹果进来之后，把车看作是一个移动电脑、移动终端、移动端口，这是特斯拉进来之后如果加上它的生态就更不得了，会成为移动所有的大数据入口。

未来我们会看到数据维度越来越丰富，这些数据怎么办？咱们做量化怎么用，它对我们做投资决策应该有怎样的帮助，特别是行业研究员怎么去用，这是未来几年会看到数据给我们产生很大的冲击和改造。

过去我们知道在美国大家如果要看市场经济指标看交易所，人多噪音大的时候，美国有数学家去研究市场的噪音。我去参观的时候看他们交易员，在一天结束的时候会把所有的纸片飞起来，市场热闹的时候、恐慌的时候特别是美联储有议息决定的时候，交易大厅会充满各种噪音。

还有过去在美联储之前最关注的是格林斯潘的手提包，包的厚不厚就代表这次决议复杂不复杂，如果大家觉得这次是维持，那么他的包应该不是那么厚的。如果要加息和降息，它的很多资料提供给所有的议员，所以格林斯潘的包变成当时的另类数据。特斯拉成为现在的热点，其实在过去几年很多的对冲基金运用另类数据提前去布局。现在可以在特斯拉工厂旁边监测手机信号，用手机信号活跃度看它是不是在日常工作。每次在分析师得不到任何销售数据的时候，这些手机的活跃信号尤其在重大的时间点上可以提前地知道加工、生产数据。这是原来想不到的。财报是滞后的数据，现在要拼的是谁能够实时的甚至领先地去拿到数据。

所以我提出一个思考，当我们在福州讨论未来谁主沉浮的时候，未来是拼技术的，而量化人本来对数据是最敏感的，所以在我们公司因为我们集团是做金融科技的，和百度团队一起合作的。所以主导我们的团队是一些百度出来的大数据工程师，他们比我们对数据更敏感。

所以未来基金公司也好，团队也好可能会面临整个团队的结构化发生改变，走在前面的是大数据的工程师，这是车展和未来云计算时代给我们提出的挑战，而且我们需要做好准备。

昨天闭门会上有几家同行已经开始做了，我这里抛砖引玉，跟大家共同探讨一下。解决两个问题，一个是刚才讲的做绝对收益包括做量化的时候都面临多策略的配置，这里面第一个拼的是谁的策略多、谁的因子多。第二因子的组合该怎么去组合？最传统的权重配置大家都很直接，但是有没有一些因子的相关性是能预测另外一些因子相关性的，有哪些因子的风格是和目前市场风格相匹配的，这是在因子权重上反映出来的。

我们希望打造一个策略工厂的形式，我们的研究员主要核心任务就是研究数据和透过一些文献把一些因子的策略变成一个策略生产线。PM这个等级需要在因子层面组合出适合不同资金风险偏好的因子组合出来。所以研究员和PM的分工是不一样的，在我们公司里经常把所有的研究放在云平台上。我们从这个级别数据合成不同的数据，这样的话我们的因子也是在购置在不同的周期、不同的bar上。

这里面就面临一个问题，一个研究员希望更快地去产生一些因子和策略想法，如果是根据这些高频数据做历史十年的回溯，大家都有经验，如果数据不做足够的优化或者算法不做足够的处理，往往十年的历史基于tick级别的高品质数据的话一个小时才能够出一个结果。

所以我们在这里做一些所谓的分布式和优化处理，现在我们做一个Tick级别的因子只需15秒，我们所有的策略因子都在云上，这样每个研究员可以练习同样的研究平台，15秒可以得出一个因子。这样的话它的每个研究员有足够的动力去开发新的想法，同时我觉得在中高频的话拼的还是执行效率和算法交易方面，我们一般有三台服务器，光是历史回溯需要Tick级别数据在实时交易的时候也是采集这样的数据，所以这对数据采集、处理要求很高，第一台服务器叫数据服务器。第二台是因子服务器，等下我们看到是多因子、多周期的级别，所以在每天开盘以后不光要把数据合成，同时将近200个因子在生产环境当中。200个因子都要算出每个触发交易性，进行合并。第三台就是交易服务器，希望能够做得更好。

这个里面在我们云量化的平台上希望解决的三个问题：

第一，怎么样更快的产生因子。

第二，因子产生之后我们怎么样去解决它的执行？

第三，PM如何来用它去做组合。

举几个案例，现在我们每天有两台服务器，一个高配服务器，有两个研究员负责，把所有产品的价量数据抛到这个服务器里面，然后用不同的算子，这个算子可能是大家一般所传统上结构化的因子所具备的平方、立方，还有一些峰值这种。我们每天让这个机器去跑，跑出来一些非线性的因子，我觉得很有意思，有时候它可能是一个收盘价的平方除上成交量，这个因子本身来说，其实如果从人的逻辑思维来看是没有任何逻辑的。但是它的确在某些市场上当中比线性因子更适合。所以今天我们可能产生上百个因子，几十个因子的背景，这个当时有不同的方法，我就不过多介绍了，我觉得这都不太重要，可能像图形识别方面，更像是人的眼睛去识别，用微观的去组合一个卷积神经网络。

商品这块，其实无外乎我们刚才讲的是一些方法，我觉得本身方法并不重要，最终还是无外乎我们怎样抓住市场的波动，咱们CTA是做多波动性率，做市场波动，要是波动没有了，这个策略就无效了。

所以，我们看抓哪个级别的波动，如果做套利的话，可能基差本身的波动算是一个波动，远近合约的跨期算一个波动，变成一个波动信号。第三个，其实是做动量的，这段时间和过去一段时间动量的效益，这些都是很传统的因子。我的意思是说如果在这些趋势套利的因子当中，我们加入非线性因子，效果会怎样？第二个，这些权重怎么去配？这是我自己做的一些初步的实践，也不一定成熟，来源抛起来跟大家去思考。

我刚才讲，机器学习大家都希望在量化当中去拓展，但机器学习有一个问题大家也知道，容易产生黑匣子，像刚刚我讲的其实我是没有办法用逻辑去解释这个因子为什么在这儿有效，为什么这个因子又突然失效了？不像基本面的因子，或者其他的我们传统加量的因子比较容易去理解、解释。

所以，机器学习最大的问题就是它变成一个黑匣子，这个时候你失效都不知道为什么失效，或者它是不是失效，所以这个时候需要样本内、样本外做一些处理。大家都在用神经网络的比较多，lasso方法其实也是加入一些惩罚函数，把因子的相关性能够解释出来，因为非线性的因子其实和线性因子也有相关性，你如果看到非线因子很炫，可能没有逻辑含义的，但也许它就是跟趋势因子有很大的相关性。

所以，我们最重要解决的是当我们把因子组合起来，做量化的人都知道，我们最终的目标是什么？所以，相关性这个问题，变成我们做量化的人一个需要解决的非常重要的问题。所以，我们用一种方法看时不时能够用一种方法把有些因子是不是能够变成一个理性因子预测其他因子的相关性，第二个，因子相关性如果相强的话，我用乘法把它降下来，这样的话我们才能够真正用向的降低来提升整体的比例，这是最主要的目标。

这里面细节我也不过多讲了，其实我们的确发现趋势、套利、反转这几大类因子当中，无论是线性的，还是非线性的，其实我们都可以用一种函数去做这些实验，可以去预测一些领先的因子。

然后，我们再做PM组合里面，也许可以把因子权重的问题做一些初步的解决，原来我们可能更多的是用等权重的因子，是最简单直接的，因为我们也不知道哪个风格会起来，我们也没法预测未来哪个风格更主导，或者哪个因子和其他因子的相关性会发生什么样的变化。

这个时候也许我们可以做的稍微细一点，所以我们刚才讲的方法，做一个多因子轮动的权重组合，我们不光是在等权重基础上，不光是做因子权重，我们把等权重作为一个基准，作为一个目标。

的确收到一些初步的效果，这是我们每周可以动态调整因子的权重，一个是有预测领先信号的，我们可以把它拎出来，第二个，如果是因子间相关性过强的，那么用惩罚函数把它降下去，这样的话我们可以整体上提升一些年化收益率，再做一些初步的变化。

所以，这是我们现在每天机器可能跑出来不同的因子它的一个样本类和样本外的因子，所以这样的话我们就希望形成一个在CTA这个领域里面，我们形成了多因子、多策略体系、多周期。刚才讲CTA抓波动率，去年是一个特殊年份，全周期波动共振，今年一季度，波动率开始发生分化，这个时候我们怎么样去抓不同周期的波动率，无论是日间的还是其他的，这个时候其实我们拼的是能抓不同市场的波动率，所以我们目前188个因子在生产环境，在策略上是七八百个因子，有很多是机器学习的因子，我也不知道为什么这些因子选出来了，其实它很容易在某些风格上失效，所以我们对样本外还是要求比较严苛，它进入生产池子也要相关性足够低。

其实在这180个因子里面，大概10%是机器学习的，其他90%还是传统的，线性的。最终我们希望把因子的组合作为一个波动率的预算，刚才我们用实际的数据来看，今年CTA有很大的挑战，今年我觉得我们很多的资产配置面临的挑战就是波动变成非线性波动。去年波动很流畅，我这里列出来1月份到3月底我们自己十个因子跑出来的结果，我分成两块，左边这块是日频的因子，右边这块是日内的因子，可以看到1月份日频的因子就是个V字型的反转，其实这代表什么？去年其实如果大家知道CTA这个市场，去年第一季度CTA是开始起来的，中国开始提前疫情防控，进行刺激政策和经济复苏，一季度、二季度开始起来。所以，当时是高频因子，日内因子非常好。到第四季度的时候，美国开始率先全球开始进入复苏结构了，这个时候低频因子非常好，但是延续到今年1月份开始，低频因子开始回撤的非常快，所以你如果看市面低频的策略会发生比较大的变化，2月初的时候，至少我们的数据才开始从底部回暖，然后到3月底基本上是回到高点，上周五我看了一下我们的日频策略创了新高，它把前面的坑已经填回来了。

第一季度你可以看到，短短的三个月，不到四个月的时间，整整低频发生了一个V字型的变化，从回撤到回暖。然后你看右边高频，5分钟、10分钟、1小时的，基本上形态是一样的，5分钟高频的，我们还有1分钟的没展示出来，1月份以后，不断创新高，一直到3月初。所以，现在市面上它的中高频策略比较稀缺，因为去年配的比较少，其实在今年到3月份，它延续到今年1月份开始，包括10分钟和一个小时都是类似的波动。但是，到3月开始以后也开始出现回撤了，所以你看到日频开始发生了风格切换，你如果从宏观角度去理解这个事情的话，你可以说是很多大宗商品在去年创了一个新高，整体上出现高位振荡了，所以很多今年开始的波动出现日内了，所以你如果是做低频的话，很容易今年开始两边打脸，你确实刚起来，但是马上日内波动一起来又把你打回去了。

但是，到3月份之后，我觉得也是最近钢铁行业为什么股票涨的比较好，其实2月底、3月的时候，我就觉得中国的这种低碳领域两会开完之后，这个目标下来对整个钢铁黑色领域刺激比较大，所以日平的信号反而又流畅起来了，反而日内中高频出现一些回撤了。这当然是宏观观点，回过头来看这个事情，但是从微观来说，这就是实在发生的事情。

今天时间很短，我想最主要是给大家汇报一下在波动率开始出现市场出现异常变动，和波动率不是那么连续，这个时候对我们多因子、多策略一个很大的挑战，尤其像去年是抱团式的，今年抱团开始慢慢走向均衡化了，那么这时候多因子、多策略，怎么样去拿到一些好的方法、配比。

以上是给大家做的一些分享，希望对多因子、多策略，特别是未来在大数据的时代，另类数据和AI学习给大家提供一些思考的路径，谢谢！

重要提示：

《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过本订阅号发布的观点和信息仅面向华西证券的专业投资机构客户。若您并非华西证券客户中的专业投资机构客户，为控制投资风险，请取消订阅、接收或使用本订阅号中的任何信息。因本订阅号受限于访问权限设置，若给您造成不便，敬请谅解。市场有风险，投资需谨慎。

法律声明：

本订阅号为华西证券金融工程团队设立及运营。本订阅号不是华西证券研究报告的发布平台。本订阅号所载的信息仅面向华西证券的专业投资机构客户，仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自华西证券研究所已经发布的研究报告或者是对已发布报告的后续解读，若因对报告的摘编而产生歧义，应以报告发布当日的完整内容为准。

在任何情况下，本订阅号所推送信息或所表述的意见并不构成对任何人的投资建议。华西证券及华西证券研究所也不对任何人因为使用本订阅号信息所引致的任何损失负任何责任。

本订阅号及其推送内容的版权归华西证券所有，华西证券对本订阅号及推送内容保留一切法律权利。未经华西证券事先书面许可，任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用，否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。