Py学习  »  机器学习算法

私募老江湖和新生代机器学习团队的那点事儿(上)|朝阳永续FOF投资沙龙

朝阳永续 • 4 年前 • 285 次点击  
点击上方“蓝字”关注

如今,机器学习已被越来越多的机构运用到自己的量化策略中了,几年下来这个领域又进展几何?11月27日,由朝阳永续及其子公司向日葵投资共同举办的第四期FOF投资沙龙以“创业角度切入分机器学习策略视角“为主题,二十余位FOF经理经理各抒己见,其中本次会议的主讲人——州易股资产管理有限公司创始人、总经理丛榕介绍自己是如何孵化机器学习管理人团队,如何与聪明的年轻人相处,以及自己这几年对机器学习策略在量化领域中运用的所思所感。


那么,过去三四年机器学习在量化领域有哪些应用,机器学习方法论又有固有的优势和缺陷,以及如何识别机器学习管理人团队?


01

近十年机器学习迎来爆发期,

从闷声发财、迅速爆炸,再到充分竞争


人工智能、机器学习、神经网络、深度学习、有监督无监督,到底是个什么样的关系。

首先,人工智能AI,这是个最大的概念,这里面又分机器学习和其他,比如一些系统是基于规则的,比如深蓝;而基于数据的,才是机器学习的概念。

机器学习里面,从任务的角度,分为有监督和无监督,但算法上,有传统的算法,也有深度学习的算法。也就是说有监督学习,可是传统的也可是深度的,换言之无监督里,也可有传统的也可有深度的。

所谓神经网络,就是neural network,是一种机器学习算法,而两层以及两层以上的神经网络,可以称之为当下流行的深度学习的算法根基。

机器学习这个东西,大家就把他理解成一种方法论,一种工具。而且,这个领域学科发展历史也并不短,上个世纪八九十年代,反向传播算法、支持向量机、boosting就出来了,而且西方很早就有人开始利用这种工具搞量化了,大家去看西蒙斯那本《the manwho solved themarket》那本书里,1985年西蒙斯就用了机器学习的方法了,而且这里面有一段特别有意思——随着Axom(公司名字)采用高维核回归来做趋势交易,策略结果改进了很多。西蒙斯本来不喜欢黑箱,他喜欢能有解释性的模型,但看到策略结果好了也就不说啥了,就妥协接受了这个所谓的“黑箱”。

深度学习这个东西, 他的爆发期确实是在最近十年里,尤其是2012、2013年之后。我们倾向于认为,有三个重要的条件,一个是越来越大的和高质量的数据,另一个是GPU也就是图形处理器的发展,还有就是开源的机器学习框架出现(比如TensorFlow等,这些条件促进了深度学习的蓬勃发展,在机器视觉、自然学习处理和强化学习等方向开枝散叶,应用领域也越来越广泛)。


所以从机器学习这个角度而言,它在量化领域应用的历史已经不算短了,我们今天探讨深度学习这个技术在A股的应用。我们内部倾向于分成三个历史阶段:

第一阶段,起始时间是2014或者2015年到2017年底,我们称之为闷声发财阶段。这一阶段的主要特点是,掌握这个技术的管理人,扭扭捏捏遮遮掩掩虚虚实实,外部投资人将信将疑,但真投进来的钱是尝到甜头的。易股肯定不算最早的那一两个,但现在回过头看肯定算是最早的那批。

第二阶段,2018年全年,机器学习策略迅速膨胀。这个阶段的主要特点是,机器学习策略在2017年(传统量化艰难)以及2018年(熊市极端考验下)均表现出色,引起外部资金大量关注蜂拥而入,量化管理人开始往这个方向进行转型,当然也有老机器学习团队分裂,以这个方法论为指导的新的管理人团队也越来越多,规模快速膨胀。

对于易股来说,这个阶段我只有这么一个评判叫“遗憾但不可惜”。因为这个阶段我们仍然没有对外募资,当然也是因为自有资金体量还可以,而是花了所有精力去聚焦在策略上,聚焦在方法论的研究、迭代,突破上,所以我们虽然错过了扩容的最好时机(遗憾),但也并没有停滞策略的迭代和进步,况且2018年是很好的策略压力测试年(不可惜)。

第三个阶段,2019年到现在,我们叫充分竞争阶段。我们看到些现象,就是机器学习尤其是保度学习管理人团队仍然在增加,一些相对而言“老牌管理人,随着规模的快速膨胀,出现了一些困难,在时间和空间上,阿尔法的回撒幅度都超过过去两三年里的经验水平。


我自己既是持有人也是管理人,所以听到不少持有人对这个事情的看法,了解了他们对于这件事的认知。我先说我自己的判断结果,我更倾向于认为,以2018年底为界,深度学习在股票量化投资的野蛮生长阶段已经过去了,简单的数据处理和调算法包挖掘出有效因子就能躺赢的阶段过去了。我们看到的是阿尔法的衰退,实际是管理人对于策略的容量估计不足导致的,而策略的容量是由因子的有效性和丰富性决定的,这两点由取决于技术实力。所谓的技术实力,就是管理人对于机器学习尤其是深度学习前沿的掌握,以及在量化这个场景的应用经验。这成为一个很重要的门槛,不管是老牌还是新兴,谁能够做到,谁就能不停的迭代,保持优势。


02

机器方法论是工具,

优劣在于使用的人


回顾这三四年,市场对于机器学习尤其是对深度学习的态度要么是过度神化、要么是妖魔化进而恐惧,就是收益率好的时候忽略了本身的缺陷,一旦一些管理人出现阿尔法的回撤,又开始忽略其优势,放大缺点。

在这我特别想说一点,这个方法就是工具,工具是中性化的,兼具优点和缺点,关键在于使用工具的人。

这个方法的优势是什么?总结下来有三点:

第一,相对于传统方法而言,机器学习拟合和预测能力非常强大,大家都知道样本内、样本外和实盘的夏普下降得非常厉害,可能传统量化样本外单因子夏普就是2,多因子组合上实盘就1-2的夏普就非常不错了,而我们搞出来的样本内就不说了,样本外单因子夏普低于5的都不会入库。为什么呢?本质上还是这个方法能够挖掘出目标和输入特征之间复杂的、隐含的、深层次数量关系,而浅显易懂的、符合人类逻辑和经济学内含的数量关系更容易失效。

第二,挖掘新因子的效率更高,这个就不用说了,电脑跑起来,因子就挖掘出来了。对于我们而言,平均下来,每周都能有些小迭代。当然,大的迭代我们努力会做,但大迭代还是有运气成份。

第三,这个方法可以处理不同来源不同结构的数据,比如量价、文本,可以综合利用这些信息的数据。
 
下面重点说下机器学习缺点,听下来最多的我总结下,一个是过拟合,一个是黑箱(不可解释性),这些都饱受诟病。



所有量化,过程都是拟合历史数据,目的是泛化出一个可以用来预测的模型。因为统计能力过于强大,过拟合是深度学习的一个特别常见的现象,本身也是学界着力研究解决的一个重要方向,有很多的方法去减弱防止过拟合。此外,机器学习方法论中有诸多关于模型评估选择的理论以及提升模型泛化能力的理论,这些成熟科学的理论机制一定程度上保证了模型在长期是有效的。所以其实,一个号称使用的好这个工具的人,我觉得也应该对这个工具的缺陷能够限制或者控制得好,我觉得这是应有之义。
 
另一个心理障碍在不可解释性,因为机器学习的过程是黑箱,一个是高度非线性因子无法去理解的。我是这么看的:机器学习的确是黑箱,但是不是说完全的不可控制或者说处于失控状态呢?当然不是!

我打个比方,我们把挖因子的过程比喻成炼丹,这些工程师就是炼丹师,炼丹原材料就是特征工程就是搜集和处理原始数据嘛,炼丹的炉子和中间所有的环节就是挖掘因子的过程,一个好的炼丹师是可以通过对中间所有环节的设计和干预来炼出更好的丹,或者说回到量化这个任务场景,一个好的工程师是能够通过他在本领域的知识和经验来提升挖掘效率和因子能力的,这恰恰是区分好的机器学习管理人和其他机器学习管理人的重要项。
 
至于非线性因子不符合人类现有知识和逻辑,其实刚才讲了西蒙斯那段话,我相信大家都是有所启发的。而且这回到一个很哲学的问题,就是人脑的认知其实也是对现实世界的拟合,你的逻辑、认识,和机器学习一样都是我们对真实无限逼近的过程,也都同时受到各种条件的制约。我觉得在投资风险和道德风险这两个层面,主观和量化、传统量化和机器学习的量化都是一样的,都存在可以认知和不可认知不可预测的部分,只是看谁运用的更为好,更有道德而已,这个很个体,跟方法论无关。


03

如何甄别管理人团队


在了解完前两块后,如何甄别管理人团队的答案已经呼之欲出了。

第一,有足够多的、不同的研究深度学习方向的人,比如有视觉做图像识别的,有nlp做语音语义识别的,有强化学习的(某种程度上保证策略的多维度和多样性,且多元的人力必不可少);

为什么呢?刚才有讲到那个炼丹的例子,不同的工程师,他的学科不同,用到的学界的前沿方法论是不一样的,他们也是不停的在寻找与A股量化交易场景中的相似点,尝试着将原学科的解决方案经过改进,应用到A股量化交易中来。
 
第二,在每个领域都有比较深入研究的、对方法有深入理解的,这一点可以用学术成果作为验证;

曾经有个资方来调研我们的时候,我介绍说我们这边的小孩很牛,出了很多学界的论文成果,他就很精,说“我不信,你整理个list给我看看”,其实各位在尽调的时候,可以问管理人要他们团队成员的学界论文成果,如果他介绍的时候说的很好,但是管他要,他却支支吾吾给不出来,就很成问题了。你们拿到list之后,也可以看看这些成果都是发到了哪些期刊,是不是学界的权威期刊,以及是第几作者也有比较大的关系。
 
刚才的两点构成必要非充分条件(且大家还要注意,面谈策略人员的时候必须是核心策略人员,而不是来实习的,或者挂个职的就更不行)。
 
第三,这些人能不能及时的跟踪最新的前沿技术,并且不断地探索、尝试、创新,把他们学术上的研究成果转化到量化投资的领城来,并且在量化这个领域积累足够的任务经验。

之前我也也有提到,如果只是懂得机器学习在其他学科的应用,而对A股市场缺乏理解,策略是不可能做出来的。

第四,看谁能够解决非线性因子时代下的风险管理问题。
 
我们基本上试过了所有传统的风控方法,结论是用低维的传统的线性的风控方法,来对高维的机器学习策略进行风控,基本起不到什么效果。

当然,我们肯定有我们自己的风控方式,涉及到我们核心的策略,在这里就不详细展开了,以后有机会可以具体探讨。


04

共同努力推进资本市场改革预期下量化行业发展


这个命题有点大,我简单的提三点:
 
第一,凯恩斯说长期我们都是要死的,但是做投资必须对未来保持乐观,尽管过去和现在我们仍然面临很多问题,但我相信中国的资本市场的改革一定会继续前进,未来仍然会提供丰厚的盈利机会,这一点我们还是要有信心;
 
第二,优秀的外资量化团队进入、优秀的本土管理团队涌现,新的金融工具不断创设,甚至股票交易规则在未来都有修改的可能,量化管理人团队的机遇和挑战并存,我们不认为现在的量化团队的竞争格局已经到了往头部集中的寡头阶段,反倒我们认为好戏才刚刚开始;
 
第三,请大家对于像易股这样的成长型量化私募给予更多的理解、支持,我们以及其他优秀的同行也会用收益率曲线去证明大家的判断和眼光。


在会议中,榕还介绍了自己是如何把握“天、地、时”成功孵化机器学习管理人团队,以及如何了解聪明年轻人的特质及所需,并融洽相处的,详细内容可见后续文章。在场的FOF基金经理与他进行了深入的交流和碰撞,也分享了许多自己的困惑和心得,参会嘉宾意犹未尽。


上海朝阳永续信息技术股份有限公司成立于2003年,总部位于上海浦东。朝阳永续是中国领先的金融数据提供商、中国私募基金系列指数、超预期指数的发起者,是国内颇具影响力、历史悠久的私募风云榜创立者。十余年来,朝阳永续坚持前瞻、实务、诚信、分享的理念,以“让数据更有价值”为使命,严苛打磨公司核心数据产品。


上海向日葵投资有限公司成立于2007年4月,注册资本金5000万元人民币,是朝阳永续旗下全资资产管理公司。2014年12月获得中国证券投资基金业协会颁发的私募投资基金管理人资质,协会普通会员。截至最新,管理资金规模近约20亿,策略涵盖全资产多策略FOF 、主题型FOF、股票多头、宏观对冲等。向日葵投资公司一直秉承“专业、前瞻、实务”的投资理念,不断追求投资领域的深度、广度和前瞻性。公司凭借专业诚信的市场表现、稳健扎实的投资风格、以及优异的产品业绩进入包括部分银行、券商、期货以及产业客户准入名单,并获得多家银行、券商自营投资。


朝阳永续深耕私募数据领域多年,研发了为FOF基金管理者服务的基金研究平台。 它不仅为投研人士提供了全市场公私募数据,并在数据基础上还提供了基金筛选、组合管理、风格评测、深度评测、业绩对比等实务图形化工具。如有兴趣,可扫描下方图片二维码申请试用。
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/50819
 
285 次点击