高鹏:请介绍一下南方基金量化团队在机器学习策略上的布局历程以及当前的策略框架体系。
游涛:机器学习策略上的布局历程其实和同业比较类似,可以分为因子合成,因子挖掘,端到端三个阶段。
第一阶段,机器学习主要用在因子合成阶段,因为早期各家基金公司都有海量的财务基本面因子,一般都是根据ICIR滚动加权合成,这样的做法给因子动量太高的权重,需要很长的时间适应新的市场环境,另外无法识别因子中的非线性信息,无法得到最优的加权效果。当时正是树模型大显神通的时候,自然的就想到了用xgboost/lightgbm/adboost对因子进行加权,能够有效提取非线性信息,提升合成因子绩效。
第二阶段,开始探索机器学习直接挖掘底层alpha因子,对传统的财务和量价因子进行补充。最早的因子挖掘是基于遗传规划的显示表达式的因子挖掘,优势在于表达式可以让基金经理反推市场逻辑。当然遗传规划的缺点也很明显,就是性能太慢,需要对每个运算符进行极致的性能优化,表达式的进化迭代存在大量随机和噪声,因子的周度IC很难超过0.1。然后就进入到以RNN和Transformer深度学习为代表的隐式因子挖掘阶段,放弃了对表达式的迷恋。因为我们发现海量的表达式也很难逐个倒退逻辑,那就只追求拟合度尽可能高,尽可能的不衰减能泛化,应该说深度学习因子挖掘是整个行业的技术突破,以前很难找到周IC超过0.1的因子,但是深度学习挖掘时代把0.1当做一个门槛。
第三阶段,其实是把以上两个阶段融合在一个模型中同时完成,模型不仅能够挖掘出增量的Alpha,同时找到Alpha之间的动态最优权重,甚至融合组合优化的阶段,直接给出合成Alpha或者Portfolio。公司后来也给与了计算硬件方面的支持,使得这种大规模依赖GPU算力的模型研发得以实现。
高鹏:机器学习模型因子挖掘过程不透明,大家较为担心因子逻辑和样本外失效问题。您对挖掘的因子有哪些选用标准?因子后续迭代如何考量?
游涛:这确实是同行都非常关心的问题,就像第一个问题里面已经提到的,基金经理当然还是偏爱有明确逻辑的表达式因子,这样也更容易和投资者沟通,所以我们也没有放弃遗传规划的技术路线,我本人也会抽空继续研发高性能运算符。
但是站在更大的尺度上来说,即便有明确逻辑的因子也不能保证一直好用,或者说明确逻辑其实是基金经理人脑对过去历史行情的拟合。比如2016年之前用简单的小市值加反转逻辑就能取得可观的投资业绩,那个时候量化选手大多对此坚信不疑。2017年市场生态发生了变化,小盘股突然发生巨大回撤。
所以与其纠结深度学习因子的明确选股逻辑,还不如换一个维度来监测深度学习因子的业绩归因。比如我们发现深度学习因子长期稳定偏离低波,低流的风格,那么就很容易理解为什么在2022年异常波动的时候能够保持稳定超额,因为深度学习经常选出大金融和小微盘,全年实现15%以上的正收益。但是20240924之后的牛市阶段,深度学习因子的超额出现了回撤,就是因为历史上长期弱势的Beta风格开始统治市场走向,高Beta天然伴随着高波动和高流动,正好和深度学习因子的风格相反,那么这个时候在组合优化环节中,对波动和流动风格中性化处理,至少能使得组合的超额收益回正。
因子挖掘的筛选标准其实和同行差不多,ICIR,多头超额,换手率等等常见的指标,但是我会更看重挖掘出来的因子有哪些明显的风格暴露,对因子的使用做到心中有数。
高鹏:机器学习挖掘因子相比人工挖掘因子的优势在哪里?在策略框架中有将两者如何进行结合吗?
游涛:树模型时代主要就是海量的特征和非线性关系,比如人工对超过20个特征进行单独分析或者合成交互并且找出有超额的规律已经很难,但是树模型可以轻松从超过100个特征中高效率提取线性或非线性的信息规律。
深度学习时代就更进一步,通过对模型架构和特征工程的优化,可以兼顾时序和空间截面的信息提取,巧妙利用注意力机制,还可以对局部关键数据进行学习。
机器学习因子也有自己的局限性,比如对样本量要求高,对数据覆盖度和标准化格式要求高。分析师预期因子由于覆盖度低和历史长度有限的原因,不适合放进深度学习训练。这样的因子单独给出子策略的持仓,最后通过多策略合成的方式进行结合。
高鹏:我们发现很多机器学习研究成果中,输入最基本的量价数据就能得到效果很优异的因子,您认为这类因子存在过拟合风险吗?
游涛:简单的高开低收模型2023年研发出来,样本外跟踪到现在其实一直都有超额收益,直到20240924开始有大幅回撤,一方面是因为用的人越来越多,另一方面也是因为牛市开始之后市场的风格发生了变化。
我们后续增加了很多特征和维度,比如加入了手工因子、分钟数据、L2数据,但是从结果上来看看,最主要的信息还是来自于基本量价。当然把一些基本面的数据输入深度学习模型,可以得到一个更有增量的因子。
所以基本的量价数据虽然简单,但的确也是各类型投资者看的最多的信息,投资者的行为共同决定了股票价格的走势,虽然处理基础量价数据的方法论会与时俱进,但是我不认为基础量价数据会过时。
高鹏:2024年初机器学习策略整体大幅回撤,在机器学习策略框架中如何应对这种市场回撤?
游涛:2024年初的股市异常波动体现出来的现象是中证800以外的股票都在大幅度回撤,股市异常波动期间大盘股有托底,而小盘股没有。所以其实并不是机器学习策略的回撤,人工挖掘的大多数因子,只要是偏小市值的也都在回撤。
非流动性风格的长期超额本质上是短期流动性枯竭踩踏的补偿,非流动性在大多数交易日都是好用的,但是极端行情市场发生踩踏的时候会有大幅回撤。这种极端行情其实有很多指标可以监测预判,不同类型的市场参与者也都有自己的态度,比如雪球产品的运行状况,DMA产品的运行状况,等等异常现象也为极端风险给出了信号。
应对方法其实很简单,公募指增因为合同规定了80%以上的成分股,所以股市异常波动的时候反而受到保护,回撤有限。私募指增没有成分股约束,大多数交易日占便宜了,股市异常波动的时候就吃亏了,可以说是盈亏同源。于是应对其实并不来自于机器学习策略本身,而是根据市场极端信号,压缩非成分股占比。
高鹏:从市场参与者角度来看,采用机器学习策略主要有哪些类型投资者?监管限制量化私募对机器学习策略有何影响?
游涛:AI人才的招聘最近几年很火爆,公募,私募,券商,保险等机构都在大量招聘AI人才,最新Barra风险因子CNEX新增了机器学习风险因子,可见机器学习类策略已经是主流策略,甚至可以说从Alpha逐渐变成了Beta,就像几年前很火的分析师预期类策略。我猜测Wind很快也会出现类似中证朝阳88的机器学习选股策略指数,Alpha用的人多了也就会蜕变成Beta,这是行业的客观规律。
机器学习的应用大体可以分为Alpha端和交易端,交易端主要是高频交易被监管限制。高频交易被限制其实只是压缩了日内的振幅和波动,也间接降低了整个市场的换手率。日间选股Alpha类的机器学习策略,其实不会有太大影响。
高鹏:沪深300和中证500指数市值相对较大、机构持仓较多,在这种宽基指数中应用机器学习模型有哪些需要调整的地方?
游涛:沪深300和中证500的确是机构规模较大的指增产品,尤其是中证500指增的竞争是非常激烈的,不论公募还是私募的存量规模都是较大的。因此,容易被发现的Alpha逐渐衰减。比如低波低流的超额在中证500内已经不显著了,甚至在2025牛市环境里面是负超额。
我认为可以从Alpha分布,组合优化,交易执行三个环节进行调整。
首先是Alpha分布,大家都知道机器学习因子在中证800以外的小盘股内表现是更好的,整个截面周IC 0.14的因子在小盘股大放异彩,不代表在中证800内也有特别显著的多头超额,那么因子挖掘如何让IC更多的分布在大盘股是行业面临的共同课题。大家尝试过很多方法,比如损失函数加权,股票样本重采样,训练标签的风格剥离,特征的精细筛选和处理等,都能某种程度上提升中证500的表现。
其次是组合优化,之前提到的通过端到端集成模型,因子挖掘和组合优化协同迭代,得到在中证500超额稳健的最终输出也是一个可行的方向。机器学习挖掘全市场股票因子很容易偏离小盘和低波,如何让模型更好的适配中证500内的风格非常值得研究。
最后是交易执行环节,有条件的机构可以考虑周五下午抢跑。比如下午14:00盘中给出信号,最后1小时完成交易。因为14:00盘中给出的信号并不比15:00收盘后给出的信号差很多,但是又不用承担隔夜信息的冲击风险。事实上很多私募机构已经是这样做的,理论上并没有什么难度,但是对信号生成的时效性和交易执行效率有很高的要求。
高鹏:能否给大家介绍在管理南方中证500增强这只产品过程中,机器学习策略的应用情况?产品的超额收益主要贡献来源于哪些方面?
游涛:大概占了50%左右的权重,个股和行业偏离控制在1.5%以内,Barra十个风险维度都控制在0.3以内,所以主要的超额收益还是来自于Alpha。
当然2025年是牛市,尤其是三季度整个市场收益的集中度创历史新高,个别牛股带动了指数的上涨,中证500成分股中位数几乎每天跑输中证500指数至少50BP,不仅仅是机器学习策略,应该说不利于大多数量化策略。基金经理如果继续保持均衡配置肯定是显著负超额,比如500指增8月份行业平均跑输2个点。为了应对极端的市场环境,我专门研发了适合牛市风格的AI子策略,所以8月份是正超额。但风格偏离是非常克制的,整个组合的偏离仍然控制在0.3以内,这样才能追求长期的稳健表现。
高鹏:展望未来,您认为机器学习策略会一直有效吗?南方基金量化未来会在机器学习哪些方向进一步研究?
游涛:我认为机器学习策略会一直有效,主要从三个方面分析。
第一,机器学习模型本身的进化迭代是很快的,几乎每个月看谷歌学术都会有更好的模型出现,AI模型技术的日新月异给策略升级提供了基础保障。学术界的教授对量化投资也很感兴趣,我最近联合中国科学院还有中央财经大学申请到了国家自然科学基金,专门研究AI因子挖掘课题。其实量化投资本身也是论文驱动的,量化投资本身的工作日常和做科研是非常类似的。
第二,信息来源是越来越丰富的,信息的饱和程度已经远远超出了基金经理的处理能力。尤其是大模型时代,不光有人类生产的信息,还有来自不眠不休的AI大模型的信息,用机器学习从海量信息中提取投资规律是唯一的出路。
第三,机器学习能够比基金经理更早发现长期的强势风格,当然被同行广泛使用之前还是Alpha。深度学习训练用了大量的历史数据,而我们知道A股历史上长期是牛短熊长的收益分布特征,挖掘出偏离低波低流风格的因子恰恰证明了深度学习的巨大价值。站在今天后视镜角度来看,有人觉得深度学习“胜之不武“,有人质疑收益大多源于低波的银行和低流的小微盘,但是我们要知道整个市场真正认可小微盘,并且敢于给基金产品贴微盘标签是最近两年的事情,很多后视镜看起来很简单的收益风格特征,其实并没有及时被基金经理发现。
风险提示:
上述内容和意见仅作为客户服务信息,并非为投资者提供对市场走势、个股和基金进行投资决策的参考。本公司对这些信息的完整性和准确性不作任何保证,也不保证有关观点或分析判断不发生变化或更新,不代表本公司或者其他关联机构的正式观点。历史业绩不代表未来收益,基金投资需谨慎。