华泰 | 金工：机器学习模拟投资者分歧

人工智能系列之80：机器学习用于模拟投资者分歧

投资者分歧是推动交易的原因之一，对金融市场的资产定价具有重要意义。本文运用机器学习来模拟投资者分歧。将不同的特征集输入给多个机器学习模型，模拟投资群体接收差异化信息源、并产生不同投资预测的过程。最后，根据模型预测差异构建的分歧度因子，能够有效刻画投资者分歧，对股票未来收益具有显著的预测作用。

核心观点

投资者分歧度越高，股票预期收益越低

Miller（1977）认为投资者分歧会造成股票价格过高，未来回报下降，原因是乐观投资者推高股价，而悲观投资者受到做空限制，对市场的影响力更弱。本文利用现有的多个深度学习因子，构建深度学习分歧度因子，验证了投资者分歧与股票未来收益的负相关性。样本空间为全A股，因子在2017/1/4～2024/5/31的回测期内周度RankIC均值为6.06%，分5层TOP组合年化超额收益率为9.75%，周频双边换手率为117.70%。

树模型能够高效模拟投资者分歧

本文使用50个LightGBM模型来模拟投资者的预测观点。输入特征为股票截面特征，包含估值、成长、财务质量、量价、一致预期等类别，共43个。每个模型会随机选取20个特征进行训练，以模仿投资者接收差异化信息源。最后，计算所有模型对同一交易日同只股票的预测值的标准差，构建机器学习分歧度因子。因子在相同回测期内周度RankIC均值提升至7.66%，分5层TOP组合年化超额收益率为9.71%，周频双边换手率下降至61.97%。

超参数选择对分歧度因子的影响基本不大

不同预测周期构建的分歧度因子回测表现接近，但预测周期越长，TOP组合换手率越低，因为长线投资者的预测分歧在短期内变化不会太剧烈。不同投资者数量构建的分歧度因子回测表现差异不大，但投资者数量设置过少可能会造成RankIC偏低和换手率偏高。特征数量对分歧度因子的回测表现具有一定影响，随机选取的特征数量过多会导致投资者之间难以产生预测分歧。LightGBM、XGBoost和CatBoost等不同机器学习模型构建的分歧度因子回测表现接近。

股票做空限制、动量和投资者认可度对分歧度因子具有显著影响

使用机构持股比例衡量个股的做空难易程度，机构持股比例低的股票池中分歧度因子多空表现更加显著，多空组合年化收益率从32.89%提升至54.05%，说明做空限制是分歧度因子的坚实基础。近期涨幅最大的股票池中分歧度因子的多空组合年化收益率高达63.04%，表明乐观投资者占据主导地位，观点分歧造成的买卖不对称性进一步增强。根据模型预测均值构建投资者认可度因子，发现一致看多的股票组合预期收益最高，“争议看空”的股票组合预期收益最低，分歧度与认可度因子等权合成的复合因子RankIC和多头收益均有提升。

风险提示：借助机器学习构建的选股策略是历史经验的总结，存在失效的可能。机器学习存在过拟合的风险。本文回测暂未考虑交易费用。

正文

投资者分歧与资产定价

投资者分歧是推动交易的原因之一，对金融市场的资产定价具有重要意义，以往很多论文对投资者分歧开展了深入研究。Miller（1977）认为投资者分歧会造成股票价格过高，未来回报下降，原因是乐观投资者推高股价，而悲观投资者受到做空限制，对市场的影响力更弱。Diether等（2002）发现分析师盈利预测的分歧也会导致更低的股票未来收益。

由于信息来源不同和行为偏差等原因，投资者会产生对股价预期的分歧。但投资者分歧并不容易直接观测，Berkman等（2009）提出一些代理指标来间接反映这种分歧：

（1）历史盈利波动性。如果一家公司过去几年盈利的波动性很大，说明这家公司未来的盈利更难预测，投资者对公司的估值更容易产生分歧。这种方法的缺点是滞后性，无法反映近期市场分歧。

（2）公司年龄。年龄越大的公司具有更长的经营数据，而且一般已经进入成熟期，发展前景的确定性更强，因此投资者分歧更低。这种方法同样难以刻画近期市场观点。

（3）换手率。股票换手率越大，说明股票交易活跃，买卖双方的预期具有更大分歧，尽管股票交易并不完全是由分歧造成的。

（4）特质波动率。特质波动率衡量股票的非系统性风险和不确定性，不确定性会带来投资者分歧。

（5）分析师预测标准差。卖方分析师盈利预测的标准差能够反映不同分析师预期的分歧，不过分析师观点不一定会形成交易行为，而且股票覆盖度有限。

Bali等人于2023年在NBER上发表论文《Machine Forecast Disagreement》，旨在研究金融市场中的投资者信念分歧及其对股票未来收益的影响。论文提出一种新的投资者信念分歧的测量方法，利用不同机器学习模型来模拟投资者的异质性预测，称之为“机器预测分歧”（Machine Forecast Disagreement, MFD）。论文的主要贡献包括：提出了一种新的资产层面信念分歧测量方法；证明了MFD在解释个股截面收益方面的强大预测能力；探讨了MFD alpha的经济学基础，特别是卖空限制条件的影响。

论文使用来自Jensen等（2022）提供的数据集，包括股票回报和153个特征信息。样本涵盖1966年7月至2022年12月期间在NYSE、AMEX和NASDAQ交易的普通股。为了避免小盘和低流动股票的影响，剔除价格低于5美元的股票。研究采用10年滚动窗口估计随机森林回归模型，每个投资者被赋予一个特定的模型和特征子集。最后通过计算每只股票在每个月的投资者预测分歧的标准差来构建MFD。超参数设定包括：投资者数量为100，每个投资者的特征数量为76，决策树的最大深度为3，决策树的数量为2000，样本采样率为0.05，列采样率为0.05。

论文发现，MFD能够显著预测个股的未来收益，高MFD的股票未来收益显著低于低MFD的股票。按MFD分组的最高和最低十分位数股票的市值加权（等权）组合，其月度回报差异为1.14%（1.32%），具有很高的统计显著性。此外，MFD与分析师预测分歧（AFD）相比，表现出更强的预测能力和更高的数据覆盖率。进一步的分析表明，MFD alpha的产生与股票卖空成本和套利限制有关，在高卖空成本和高散户持有率的股票中，MFD alpha更为显著。论文还发现，MFD在股票盈利公告期间的预测能力更为明显，表明MFD捕捉到了由投资者信念分歧引起的股票价格错配。综上所述，该论文不仅提出了一种新的信念分歧测量方法，还揭示了其在股票定价中的重要作用。

本篇报告借鉴Bali等（2023）的研究，运用机器学习来模拟投资者分歧。将不同的特征集输入给多个机器学习模型，模拟投资群体接收差异化信息源、并产生不同投资预测的过程。最后，根据模型预测差异构建的分歧度因子，能够有效刻画投资者分歧，对股票未来收益具有显著的预测作用。

基于机器学习的分歧度因子

初步探索

华泰金工前期报告《基于全频段量价特征的选股模型》（2023.12.8）和《如何捕捉长时间序列量价数据的规律》（2024.3.14），利用日k线、周k线、月k线、分钟k线、逐笔成交和逐笔委托等数据，训练多个深度学习模型。这些模型对股票收益具有较强的预测能力，且相关性不高，能够初步模拟投资者分歧。

通过计算深度学习模型间的标准差，构建深度学习分歧度因子，并进行单因子测试。投资者分歧度越高，未来预期收益越低，因此在回测前先进行方向调整（下同）。单因子测试方法如下：

1．股票池：全A股，剔除ST股票，剔除每个截面期下一交易日停牌、涨停的股票。

2．回测区间：2017/1/4～2024/5/31。

3．调仓周期：周频，不计交易费用。

4．因子预处理：去极值、行业市值中性化、标准化。

5．测试方法：IC值分析，因子分5层测试。

测试结果如下所示。方向调整后的深度学习分歧度因子在分层回测中呈现了较好的单调性，第一组（分歧度最低的20%）收益明显高于其他组，第五组（分歧度最高的20%）收益明显低于其他组。

数据与方法

由多个深度学习模型构建的分歧度因子具有显著的选股效果，但模型训练成本较高，只能模仿少数投资者观点，难以大规模应用。参考Bali等（2023）的研究，我们采用树模型来提升预测效率。

输入特征为股票截面特征，包含估值、成长、财务质量、量价、一致预期等类别，共43个。为了模拟投资者接收差异化信息源，每个模型会随机选取20个特征进行训练，而非采用全部特征。预测目标是股票未来10个交易日的收益率。

模型采用LightGBM，数量为50个，即模拟50位投资者的预测观点。模型采用默认超参数，没有进行超参数寻优，以节省运算时间。模型每年重新训练一次，每次训练使用过去6年数据，按照7:3比例划分训练集和验证集。

最后，计算所有模型对同一交易日同只股票的预测值的标准差，构建机器学习分歧度因子。

分歧度因子回测

对机器学习分歧度因子进行单因子测试，测试方法与前文保持一致。机器学习分歧度因子同样具有较好的分层单调性。相比于深度学习分歧度，该因子的第一层超额收益接近，而RankIC明显提升，换手率大幅下降。

参数敏感性分析

机器学习的超参数可能对分歧度因子的计算产生影响，以下对几个参数进行敏感性分析，包括预测周期、投资者数量、特征数量和机器学习模型。

预测周期

不同预测周期构建的分歧度因子回测表现接近，其中预测10日收益率的因子RankIC和多头收益表现略好。一个明显的规律是，预测周期越长，TOP组合换手率越低，这是因为长线投资者的预测分歧在短期内变化不会太剧烈。

投资者数量

不同投资者数量构建的分歧度因子回测表现差异不大。随着投资者数量增加，RankIC有所提升，换手率有所下降。深度学习分歧度因子也验证了这一发现，由于投资者数量过少（8个深度学习因子），其RankIC偏低，换手率过高。

特征数量

特征数量对分歧度因子的回测表现具有一定影响。随机选取的特征数量越多，因子的RankIC和多头收益越低，而换手率越高。利用机器学习构建分歧度因子的逻辑是，通过随机选取特征集，模拟投资者接收差异化信息源。如果特征数量过多，投资者之间就难以产生预测分歧。

机器学习模型

不同机器学习模型构建的分歧度因子回测表现接近，其中LightGBM模型的RankIC和多头收益表现较好，XGBoost模型的换手率较低。

相关性分析

机器学习分歧度因子与常见量价因子相关性如下，其中与换手率和特质波动率的相关性较高，这两个因子也是文献中常用来刻画投资者分歧的代理指标。对比因子的多头超额收益，机器学习分歧度因子表现比换手率、特质波动率更加稳定，近期也没有出现大幅回撤。

影响因素分析

除了模型超参数外，其他因素也会对分歧度因子的表现产生影响，比如做空限制、动量和投资者认可度。

做空限制

如果股票容易做空，即使投资者分歧度高，悲观投资者同样能够充分表达观点，与乐观投资者分庭抗礼，股价虚高的可能性降低。机构持股比例可用来衡量个股的做空难易程度，机构持股比例高的股票做空相对容易，机构持股比例低的股票做空相对困难。

通过Wind获取个股每季度的机构持股比例，由于报告披露有一定的滞后性，为避免使用未来信息，1～4月份用去年三季报数据，5～8月份用一季报数据，9～10月份用半年报数据，11～12月份用三季报数据。

参考Fama和French（2015）提出的方法，沿着分歧度和机构持股比例两个维度将股票分成5x5的25宫格组合，计算每个组合的年化收益率。从左往右观察，分歧度越高，股票组合预期收益越低；从上往下观察，机构持股比例越高，股票组合预期收益越高。在机构持股比例低的股票池中分歧度因子的多空表现更好，特别是空头端，说明做空限制是分歧度因子的坚实基础。

动量

计算个股最近20个交易日涨跌幅，沿着分歧度和近期收益两个维度将股票分成5x5的25宫格组合，计算每个组合的年化收益率。从左往右观察，分歧度越高，股票组合预期收益越低；从上往下观察，当近期收益过高时，股票组合预期收益非常低，体现出反转效应。近期上涨的股票池中分歧度因子的多空表现更加显著，空头效应很强，而近期下跌的股票池中分歧度因子的分组收益不严格单调。如果股票近期下跌，说明悲观投资者的观点已经有所释放，观点分歧造成的买卖不对称性减弱；如果股票近期上涨，说明乐观投资者占据主导地位，观点分歧造成的买卖不对称性进一步增强。

投资者认可度

如果说标准差能够模拟投资者观点分歧，那么均值则可以刻画投资者认可度。计算所有模型对同一交易日同只股票的预测值的均值，构建认可度因子。该因子对未来收益具有正向的预测能力，机器学习中的集成学习也体现了这一思想。

沿着分歧度和认可度两个因子维度将股票分成5x5的25宫格组合，计算每个组合的年化收益率。从左往右观察，分歧度越高，股票组合预期收益越低；从上往下观察，认可度越高，股票组合预期收益越高，均与前文研究结论一致。投资者一致看多（认可度高，分歧度低）的股票组合收益最高，与常识相符；然而收益最低的却不是投资者一致看空（认可度低，分歧度低）的股票组合，而是“争议看空”（认可度低，分歧度高），并且认可度低的股票池中分歧度因子的多空收益更为显著。

将分歧度因子与认可度因子等权合成，得到复合因子的RankIC和多头收益均有提升。

总结

投资者分歧度越高，股票预期收益越低。Miller（1977）认为投资者分歧会造成股票价格过高，未来回报下降，原因是乐观投资者推高股价，而悲观投资者受到做空限制，对市场的影响力更弱。本文利用现有的多个深度学习因子，构建深度学习分歧度因子，验证了投资者分歧与股票未来收益的负相关性。样本空间为全A股，因子在2017/1/4～2024/5/31的回测期内周度RankIC均值为6.06%，分5层TOP组合年化超额收益率为9.75%，周频双边换手率为117.70%。

树模型能够高效模拟投资者分歧。本文使用50个LightGBM模型来模拟投资者的预测观点。输入特征为股票截面特征，包含估值、成长、财务质量、量价、一致预期等类别，共43个。每个模型会随机选取20个特征进行训练，以模仿投资者接收差异化信息源。最后，计算所有模型对同一交易日同只股票的预测值的标准差，构建机器学习分歧度因子。因子在相同回测期内周度RankIC均值提升至7.66%，分5层TOP组合年化超额收益率为9.71%，周频双边换手率下降至61.97%。

超参数选择对分歧度因子的影响基本不大。不同预测周期构建的分歧度因子回测表现接近，但预测周期越长，TOP组合换手率越低，因为长线投资者的预测分歧在短期内变化不会太剧烈。不同投资者数量构建的分歧度因子回测表现差异不大，但投资者数量设置过少可能会造成RankIC偏低和换手率偏高。特征数量对分歧度因子的回测表现具有一定影响，随机选取的特征数量过多会导致投资者之间难以产生预测分歧。LightGBM、XGBoost和CatBoost等不同机器学习模型构建的分歧度因子回测表现接近。

股票做空限制、动量和投资者认可度对分歧度因子具有显著影响。使用机构持股比例衡量个股的做空难易程度，机构持股比例低的股票池中分歧度因子多空表现更加显著，多空组合年化收益率从32.89%提升至54.05%，说明做空限制是分歧度因子的坚实基础。近期涨幅最大的股票池中分歧度因子的多空组合年化收益率高达63.04%，表明乐观投资者占据主导地位，观点分歧造成的买卖不对称性进一步增强。根据模型预测均值构建投资者认可度因子，发现一致看多的股票组合预期收益最高，“争议看空”的股票组合预期收益最低，分歧度与认可度因子等权合成的复合因子RankIC和多头收益均有提升。

风险提示

借助机器学习构建的选股策略是历史经验的总结，存在失效的可能。机器学习存在过拟合的风险。本文回测暂未考虑交易费用。

参考文献

[1] Miller E M. Risk, uncertainty, and divergence of opinion[J]. The Journal of Finance, 1977, 32(4): 1151-1168.

[2] Diether K B, Malloy C J, Scherbina A. Differences of opinion and the cross section of stock returns[J]. The Journal of Finance, 2002, 57(5): 2113-2141.

[3] Berkman H, Dimitrov V, Jain P C, et al. Sell on the news: Differences of opinion, short-sales constraints, and returns around earnings announcements[J]. Journal of Financial Economics, 2009, 92(3): 376-399.

[4] Bali T G, Kelly B T, Mörke M, et al. Machine Forecast Disagreement[R]. National Bureau of Economic Research, 2023.

[5] Jensen T I, Kelly B, Pedersen L H. Is there a replication crisis in finance?[J]. The Journal of Finance, 2023, 78(5): 2465-2518.

[6] Fama E F, French K R. A five-factor asset pricing model[J]. Journal of Financial Economics, 2015, 116(1): 1-22.