Py学习  »  机器学习算法

中国市场中怎样用机器学习来做股票投资?

量化先行者 • 2 年前 • 492 次点击  

摘要

文献来源:Leippold, M., Wang, Q. & Zhou, W. (2021). Machine-Learning in the Chinese Stock Market. Journal of Financial Economics.

推荐原因:随着机器学习在金融和经济领域的应用迅速兴起,越来越多的学者利用机器学习工具研究股票的截面和时间序列预测。而中国股票市场历史较短,制度依然处于不断完善的阶段,有着自身的特殊性。本文根据中国市场的特征构建了一个全面的股票收益预测因子集,并利用几大流行的机器学习算法进行实证分析。经过CSPA条件预测能力检验,作者发现神经网络在不同宏观经济条件下的表现都比较稳健,并且预测能力最强。在构建的因子集中,与市场流动性相关的因子重要性较高。考虑到中国市场的做空限制,作者分别构建了多空和多头投资组合。策略在2015年的暴跌中表现良好,并且在2020年初新冠疫情期间也没有受到严重影响。


1. 简介

截至2020年10月,中国股票市场总市值已经超过67万亿人民币,一跃成为世界第二大股票交易市场,仅次于美国。不仅如此,中国股票市场具有三个关键特点:

首先,与机构投资者主导的发达市场不同,中国股市由散户投资者主导。根据上海证券交易所2019年的数据,中国总共有2.145亿投资者,其中2.138亿是个人投资者,而只有70万是机构投资者。散户投资者的投机行为和短线交易可能导致换手率增加。这种特殊性造成了中国股市高度的波动性,可能会使股价与基本经济状况脱节。

其次,从制度的角度来看,中国金融体系的一个关键特征是它是由中央控制,以银行为主导的,并且存在一种独特的关系驱动模式(Allen et al., 2005)。因此,市场的自动修正机制受到政府导向的限制和影响(Mei et al., 2009)。

第三,中国市场的卖空历史有限,在2010年以前,中国投资者受到较为严格的卖空限制。许多学者都认为,卖空有助于市场定价,并能够使市场变得更加有效(Saffi和Sigurdsson,2011)。大多数关于西方市场的因子投资研究都依赖于多空策略,但这种策略对于中国市场来说并不容易实现。

作者构建了一个独特且全面的因子集,其中共有1160个预测指标,包括90个股票特征、11个宏观经济变量,以及一组行业哑变量。首先,作者先用与研究美国市场相同的方式构建了一组因子。然后,将一些因子调整为适应中国股票市场的因子。接下来,作者还为中国市场专门引入了一组因子。例如,加入了Pan等人(2015)引入的异常周转率(ATR),这个因子旨在捕捉股市中投机性交易的影响,有助于解释中国A股的定价过高现象。

本文以Gu等人(2020)的研究结论为基础,将广泛的机器学习方法与现代资产定价实证研究相结合。通过探索不同机器学习方法的预测能力,作者发现神经网络的样本外R2明显优于其他模型。在小型企业和非国有企业的子样本分析中,样本外R2特别大。此外,将样本外R2与美国市场的研究相比较,中国市场也显示出更大的可预测性。由于样本外R2会受到模型选择的影响,本文使用Li等人(2020)开发的统计测试方法来分析模型的条件预测能力,并比较模型在不同宏观经济环境中的表现。作者发现神经网络在这种新的统计测试下依然稳健,并且在预测能力方面表现最好。

在构建的因子集中,作者发现与市场流动性相关的因子重要性较高。除流动性之外,相比基本面因子,神经网络更偏向与动量和波动率相关的因子。作者还发现,国有企业子样本的样本外R2要小于非国有企业,这可能印证了国有企业信息不透明的名声(Piotroski等,2015)。最后,考虑到中国的做空限制,作者发现多头投资组合也可以提供可观的收益,在包括交易成本之后也依然如此。而且这种策略在2015年的暴跌中也表现良好,并且在2020年初的新冠疫情影响下也没有受到严重影响。


2. 数据和方法
本文从中国最大的金融数据提供商Wind数据库获得了所有在上海和深圳证券交易所上市的A股股票的每日和每月收益率。相应的季度财务报表数据来源于中国经济金融研究数据库(CSMAR)。数据样本涵盖了2000年1月至2020年6月期间交易的3900多只A股股票。同时,本文使用CSMAR数据库提供的中国一年期国债收益率作为无风险利率。

本文结合Green等人(2017)的因子设计,以及其他文献中针对中国市场特点设计的因子,建立了一个预测股票收益的大型因子库。库中收集了共94个特征指标,其中86个已在Green等人(2017)的文章中说明,4个是已被其他学者证实确定有效的中国特有因子,4个是表示上市企业所有权类型的二元变量,用于子样本分析。为了避免离群值的影响,本文参考Kelly等人(2019) 和Gu等人(2020)的方法对所有连续的个股因子进行逐期横截面排序,并映射到 [-1, 1] 区间内。在数据频率方面,有22个因子是每月更新一次数据,51个是每季度更新一次,6个是每半年更新一次,15个是每年更新数据。此外,本文根据中国证监会2012年发布的《上市公司行业分类指引》,加入了80个行业的哑变量。

除上述特征外,根据从CSMAR数据库和国家统计局网站下载的数据,本文构建了11个宏观经济预测因子。其中8个变量是基于Welch(2008)的变量定义,包括股息价格比(dp)、派息率(de)、收益价格比(ep)、账面市值比(bm)、 净股本扩张(nits)、 方差(svar)、利差(tms)和通货膨胀率(inflation)。其余三个包括月度换手率(mtr)、 M2增长率(m2gr)和国际贸易额增长率(itgr), 这些指标已被其他学者证实是有效的宏观经济预测指标。

本文总共研究了11种机器学习方法以及两个简单的线性模型,包括简单最小二乘法(OLS)回归,只使用规模、账面市值比和动量作为自变量的简单最小二乘法(OLS-3)回归,偏最小二乘法(PLS)回归,LASSO回归、Elastic Net回归,梯度提升回归树(GBRT),随机森林(RF),变量子样本聚合(VASA),以及一至五层的神经网络(NN1-NN5)。

本文使用基本的调参、模型测试和性能评估的方法。具体方法是,在保证时间顺序的前提下,将数据分为三个不相交的时期:训练集(2000-2008)、 验证集(2009-2011)和测试集(2012-2020)。为保证模型的稳定性,本文在预先设定的超参的基础上,使用训练集和验证集进行调参。根据验证集中的测试结果,选择使目标损失函数最小化的超参数。测试集包含了验证集之后12个月的数据,这些数据是样本外的,不会参与调参过程,用于检验模型性能。由于机器学习模型需要的算力较大,本文借鉴了Gu等人(2020)的样本分割方案,每年而非每月进行再调参,此时训练集将增加一年的数据,而验证集维持原来的大小,并向后滚动12个月。


3. 实证分析

首先,本文通过样本外R2来分析模型的预测性能,并讨论不同子样本的预测性。


3.1. 样本外的可预测性

与Gu等人(2020)的做法相似,本文使用样本外R2与他们对美国市场的研究结果进行直接比较。对于一个给定的模型S,样本外R2定义为:


3.1.1. 全样本分析

图 1 的表中第一行记录了全样本分析结果。

在全样本分析中,OLS模型的样本外R2为0.81%,这说明最简单的模型仍有一定的预测能力。OLS-3模型的预测能力略低于OLS模型(0.77% v.s. 0.81%),这表明仅靠三个因子(规模、账面市值比和动量)不足以发挥线性模型的所有预测能力。值得注意的是,OLS模型在中国股市的表现远优于美国股市。对这种差异的一个可能解释是,作者为Huber损失函数的超参设定了一个相对较小的值,这导致了对数据中极值的高鲁棒性。

对于包括PLS、LASSO和Enet在内的正则化模型,样本外R2直接反映了面对大量因子时降维的有效性。三种模型均将样本外R2提升到了1%以上,其中LASSO(1.43%)和Enet(1.42%)比PLS(1.28%)小有优势。这说明一些股票特征对于预测中国股市的月收益是冗余的。VASA的样本外R2 与正则化模型的较为接近,这可能是因为作者使用了带有线性子模型的VASA。树模型、GBRT和随机森林以及五种神经网络模型的样本外R2进一步提高到了2%以上。这反映了机器学习方法在捕捉预测因子之间的复杂交互作用上的优越性。与美国股市不同的是,当神经网络隐藏层增加时,样本外R2会增加,尽管这种改善对于四层以上的神经网络模型来说微不足道。

根据月度的样本外R2来看,机器学习技术在中国市场的可预测性远高于美国市场,其中GBRT的样本外R2是最高的,达到2.71%,几乎是Gu等人(2020)当时得到的最高样本外R2(NN4的0.40%)的七倍。即使是样本外R2最低的OLS-3模型,也几乎是美国市场最高样本外R2的两倍。作者推测,这可能是由于两个原因:首先,中国股市的散户投资者比例大,并且他们偏好小盘股。其次,中国股市受到普遍存在的国有企业的影响,而国有企业的信息透明度比非国有企业低。


3.1.2. 小盘股和大盘股

为了研究模型预测能力的潜在异质性,本文对小盘股(每月按流通股本排名后30%的股票)和大盘股(每月按流通股本排名前70%的股票) 进行子样本分析。图1的表中第二行和第三行展示了大盘股和小盘股子样本分别的样本外R2。结果表明,所有模型对小盘股都有更好的预测性能。其中GBRT似乎特别突出,最高的样本外R2为7.27%。

虽然模型对于小盘股的预测性能改善了,但对于大盘股的预测性能却降低了。所有模型的样本外R2均降低到了1%以下。然而除了个别正则化模型之外,神经网络表现出了相对稳定的性能。


3.1.3. 小股东和大股东

上述结果表明,机器学习方法可以有效地预测小盘股的月度收益。然而,目前还不清楚散户投资者是否对差异的产生发挥了重要作用。为了深入了解可预测性和散户投资者之间的联系,本文进一步进行了子样本分析。作者使用了CSMAR数据库中所有上市公司的流通A股的股东数量数据(这些数据是按季度报告的),以及相应的市值,然后通过计算每个股东的平均市值,即A.M.C.P.S.=总市值/股东数量,并根据70%的分界水平将所有股票分为两组。最后,通过研究这两组的样本外R2来研究模型的可预测性。

图1表中的第四行和第五行分别展示了前70%和后30%的股东平均市值的公司的样本外R2。总的来说,机器学习方法,特别是PLS、随机森林和神经网络,在小股东股票的样本中具有更好的预测性能,它们对小股东股票子样本的样本外R2明显大于大股东的样本外R2。同时, LASSO、 Enet和VASA在这两个子样本上的表现相似。OLS-3在小股东股票样本中产生的预测结果比大股东股票差得多, 这意味着传统的三因子模型对中国的小股东股票可能并不奏效。简而言之,尽管缺乏数据,准确识别每只股票的散户投资者比例是难以实现的,但每个股东的平均市值仍然可能是一个有用的代理变量,这有助于揭示模型预测性和散户投资者之间的关系。


3.1.4. 国有企业和非国有企业

本文分别研究了国有企业和非国有企业的股票收益。图1的最后两行结果显示,神经网络对这两个子样本都有较为稳健的正样本外R2。而树模型的结果是好坏参半,虽然它们在非国有企业股票中表现异常好,但在国有企业股票上的表现未能优于几类回归模型。

总的来说,国有企业和非国有企业股票的样本外R2与作者对小盘股和大盘股的分析结论相似,原因是中国的国有企业往往拥有巨大的市值,因为它们往往代表着银行、基础设施和军事等行业的龙头企业。因此,公司规模与国有企业和非国有企业股票的概念密切相关。对于国有企业来说,神经网络始终优于其他的模型。当比较可预测性的水平时,神经网络在国有企业子样本下的样本外R2更大。这一观察结果再次强调了国有企业的独特性,预测国有企业样本的股票收益似乎需要一种可以解释非线性影响的高度灵活的模型。这也许是由于中国国有企业的财务不透明性和股价信息量较低,因此预测它们的股票收益并不容易。


3.1.5. 年度可预测性

接下来,作者研究了模型在年度层面上的预测性能。图2展示了不同模型和子样本的每年样本外预测R2。作者发现,年度样本外R2高于月度样本的结果,这表明机器学习方法可以成功地分离出较长时间内的风险溢价。有趣的是,作者发现此时模型对大盘股样本的预测性能优于对小盘股样本的性能,而大盘股可预测性的提高可能是由于国有企业的可预测性的提高。此外,同样的情况也出现在股东平均市值的两个子样本中,所有的模型都在大股东的子样本中产生了更好的预测结果。这个结果与之前的结论相反,即模型对小盘股、小股东股票和非国有企业表现出更强的可预测性。对于这个结果,作者将短期可预测性,尤其是小盘股,归因于散户投资者在中国股市中的短期突出作用。对美国股市而言,当回测从月度转为年度时,小盘股样本的可预测性似乎大于大盘股,而中国市场则恰恰相反。这些结果揭示了中国市场和美国市场之间的显著差异,作者认为这主要是由于散户投资者短期具有较大影响力,以及政府举措可能对国有企业比较有利等原因。


3.2. 重要的预测因子

3.2.1. 宏观经济变量

本文首先探讨了所有模型中11个宏观经济变量和94个股票特征的变量重要性。对于一个特定模型,本文在每个训练样本中将给定预测因子的所有值设置为零,计算样本外R2的减少,并将它们的均值作为每个预测因子的单一重要性度量。

图3展示了11个宏观经济变量的相对变量重要性。对于PLS来说,衡量股票发行活动水平的ntis具有最大的变量重要性。自股市开放以来,中国一直采用审批制IPO,中国证监会经常在市场下跌时暂停或减少IPO,这使ntis在预测月度收益中发挥的重要作用变得合理。值得注意的是,ntis也是GBRT最重要的宏观经济变量,以及神经网络的第二个重要变量。此外,PLS还赋予infl、m2gr和itgr较大权重,说明这些宏观经济变量也有重要影响。

图3的结果表明,包括LASSO和Enet在内的线性模型强烈倾向于账面市值比(bm),但这个因子对PLS和VASA没有那么重要。此外,infl、ntis 和m2gr等因子在LASSO和Enet中也具有很高的优先级。与其他模型不同,VASA更倾向于收益价格比(ep),以及反映市场流动性(mtr)和波动率(svar)的因子。与其他回归方法相比,树模型GBRT和RF对宏观经济变量重要性的分布相对更均匀,说明这两种方法可以捕捉宏观经济变量和股票特征之间潜在的非线性相互作用。


图4汇总了每个宏观经济变量的重要性。总的来说,作者发现infl和ntis是预测中国股市每月收益的两个最重要的宏观经济变量,尤其是对神经网络而言。相比之下,股息价格比(dp)、市场波动率(svar)、每股总收益(ep)、利差(tms)和市场流动性(mtr)不那么重要。


3.2.2. 股票特征

关于整体变量重要性的排序,作者发现与市场流动性相关的股票特征在预测中国股市时最为重要,即流动性波动率(std_dolvol和std_turn)、零交易日(zerotrade)和非流动性指标(ill)是最显著的预测因素。其次是基本面指标和估值比率,如行业调整后的资产周转率变化(chaotia)、行业调整后的雇员变化(chempia)、 总市值(mve)、近期盈利增长次数(nincr)、行业调整后的利润率变化(chpmia)和行业调整后的市净率(bm_ia) 。第三组主要是风险指标,包括特异性回报波动率(idiovol)、 总回报波动率(volatility)和市场β(beta)。

异常周转率(atr)最初是由Pan(2015)等人引入的中国特异性因素,用来捕捉投机交易的影响,也在机器学习模型中发挥了重要作用。此外,Liu (2020)等人引入的趋势因素(er_trend)可以解释中国股票市场上价格和成交量的持续趋势,其总体变量重要性排名第四。值得注意的是,作者最初同时引入atr和er_trend,是为了适应中国股市上大量活跃的散户投资者对资产定价的影响。先前的研究已经证明了在因子模型中包含中国特殊因子的重要性,而在这里作者提供了进一步的证据,表明这些因子在更复杂的机器学习模型中也具有相当大的解释能力。

神经网络模型(NN1-NN5)、正则化线性模型(PLS、lasso、Enet)和VASA突出了类似的预测因子的重要性。树模型GBRT和RF比其他预测模型更重视divo、rd和divi。作者推测,这种差异是由于树模型在构建决策树时随机选择了股票特征的一个子集。这样一来,像divo、rd和divi这样的预测因子在某些决策树中可能会变得相当重要,从而与整个树模型更加相关,而它们在其他模型中发挥的作用却很小。

本文对变量重要性的时间变化也很重视。作者发现,正则化线性模型,包括PLS、LASSO和Enet,共享一组相似的预测因子,其中流动性指标和基本面指标是两组重要的因子。LASSO通常选择大约20个预测因子,而Enet选择了大约35个预测因子,这表明许多特征实际上是冗余的。PLS的变量重要性只有很小的时间变化,相比之下,LASSO和Enet选择的预测因子中只有大约三分之二在不同时期具有稳定性。值得注意的是,特别是对于LASSO而言,2015年前后的变量重要性似乎存在差距,这表明股市可能发生了结构性变化。

最后,神经网络模型(NN1-NN5)偏向于流动性变量、基本面指标、估值比率和中国特有的因子,包括异常周转率(atr)、趋势因子(er_trend)和前10名股东所有权(top10holderrate)。与其他模型相比,神经网络在变量重要性上有更大的时间变化,这表明它们可以检测并解释不同预测因子预测能力的结构性缺陷。作者将这一发现归因于神经网络模型的灵活性和适应性,特别是当它们经过了充分的数据微调和训练后更为有效。


3.3. 条件预测能力检验(CSPA)

使用样本外R2进行模型选择在实践中可能不是很合理,因为一些预测模型的样本外样本外R2很接近,但在实际中的表现非常不同。作为另一种模型的选择,作者首先使用了Hansen(2005)的无条件优势预测能力(USPA)检验。然而,在作者的分析中,作者注意到Hansen(2005)测试本身仍然不能区分一些预测模型的性能,Gu(2020)等人使用的Diebold和Mariano(1995)检验也是如此。为了解决这个问题,作者使用Li(2020)等人的条件优势预测能力(CSPA)检验进一步研究了模型的条件预测能力。这使作者能够比较机器学习方法在不同宏观经济环境下的性能。

图5展示了在USPA和CSPA测试下特定模型被拒绝的次数。USPA测试结果表明,简单OLS模型和改进的OLS-3模型表现较差,被拒绝总次数最多。GBRT、RF、NN3、NN4和NN5模型的无条件预测性能均优于它们的替代模型,但USPA测试未能区分它们的性能。因此,作者也比较了CSPA的测试结果。作者观察到NN1、NN4和NN5的CSPA测试拒绝总次数最小。尽管包括RF和GBRT在内的树模型也表现良好,但当以市场层面的股票方差为条件时,它们比较容易被拒绝,而NN4和NN5可以在相同的比较中通过检验。此外,NN4和NN5在大多数宏观经济条件下表现都非常良好。因此,CSPA测试使作者能够更全面地区分VASA、NN2和正则化线性模型的预测性能,提供统计证据,表明这些模型不如NN4和NN5的统计证据。


4. 投资组合分析

4.1. 组合类型

作者考虑了两种类型的机器学习投资组合。第一个是多空投资组合。在每个月底,每种模型都会产生样本外股票预期收益,然后作者根据预测的收益将股票分类为十分位数,并每月使用价值权重构建投资组合。虽然多空投资组合是评估机器学习方法投资组合水平性能的有用工具,但由于严格的卖空限制,它很难在中国股市中实现。因此,作者也考虑了只持有多头的投资组合,它只持有前十分之一的股票。

图6展示了价值加权的多空和多头投资组合的样本外表现。为了便于比较,作者还展示了等权投资组合的表现。在平均预期月度收益、夏普比率和其他指标方面,所有的机器学习投资组合都优于OLS-3投资组合和等权投资组合。研究结果表明,机器学习技术,特别是神经网络模型,有利于投资组合的构建。

对于多空组合,作者在中国股市获得的夏普比率明显高于Gu(2020)等人在美国市场得到的结果。由于交易限制,多空策略几乎不可行,因此作者在解释这些结果时非常谨慎。不过多头投资组合的夏普比率最高为1.76,仍高于美国市场的多空策略。

图7和图8展示了通过两种的方法构建的投资组合的累积收益率曲线。


4.2. 排除小盘股

作为稳健性检查,作者基于大盘股子样本重复了之前的投资组合分析。这样做有三个主要原因:首先,中国股市的小盘股有较高的价格波动性,这使得投资者很难找到合适的买入点。其次,如Liu(2019)等人所说的,中国规模底部30%的股票经常遭受因中国的IPO限制而产生的所谓的壳价值问题。第三,总体而言,大型股票的流动性水平较高,价格波动性较低,因此受中国10%限价水平的影响较小。

图9展示了结果。大盘股的机器学习投资组合的表现与全样本相似。然而,由于排除了小盘股,所有的投资组合都取得了较低的平均月度收益率、夏普比率、标准差和极端的负月度收益率。不过机器学习方法仍然占据主导地位,神经网络表现最好,其次是正则化的线性模型和树模型。这些结果证实了机器学习方法在中国股市上也具有出色的投资组合层面的预测能力。


4.3. 国有企业的表现

政策可能会通过各种方式对国有企业的业绩产生促进作用,例如,更容易获得银行贷款、宽松的监管和赋税减免。然而,国有企业高度集中的国家所有权、财务不透明度和低信息量的股价,以及公司治理机制的缺乏,都可能会加剧这些公司的崩溃风险。在图9中,作者展示了多空和多头投资组合的结果。

鉴于国有企业大多是大规模公司,作者比较了图10和图9中的结果。首先,就夏普比率而言,国有企业多空策略的表现远远高于大盘股组合,尤其是基于神经网络的组合。对于NN5,作者得到的夏普比率为4.12,而大盘股组合的夏普比率为2.70。对于多头投资组合,作者注意到等权投资组合确实显示了国有企业股票的下跌风险大于大盘股(也包括国有企业)。然而,利用国有企业回报的可预测性,作者可以将多头策略的最大回撤减少到大大低于大盘股组合的水平。


4.4. 交易成本

为了评估投资组合的实际表现,必须将交易成本纳入分析。对于中国市场,A股交易的成本主要由三个部分组成:佣金、印花税和滑点。与佣金和印花税相比,滑点需要更仔细的研究,因为由于流动性问题,在不影响市场价格的情况下,按预先规定的价格执行所有交易往往是很困难的。在中国股市,2012年机构投资者的佣金在5bps左右,之后迅速下降。近年来,散户投资者的佣金通常为2-3bps,机构投资者的佣金甚至更低。自2008年以来,印花税设定为10bps,并向卖家单方面征收。

作者考虑了两种交易方案来量化滑点的大小。第一种方案依赖于某个月第一个交易日前30分钟的时间加权平均价格(TWAP),因为本文假设订单在每分钟开始时被平均分割并实施。因此,滑点是TWAP和开盘价之间的相对差异。同样,第二个是估计了成交量加权平均价格(VWAP),作者根据20天移动均线计算每分钟间隔的交易量,并与预测交易量成比例执行订单。此外,作者通过计算交易股票交易量的5%来提供市场容量的粗略估计。平均而言,TWAP和VWAP与开盘价格的总偏差约为10bps。在一些罕见的情况下,如2015年中国股市动荡,随着股市开盘后迅速上涨或下跌,滑点可能会相当大。然而,在这种情况下,买卖滑点可能是相同的,这可能在一定程度上减少投资者面临的实际滑点。事后计算表明,25bps可能是对正常时期中国股票市场交易成本的合理估计。然而,考虑到在某些极端情况下,滑点可能高于10bps。


4.5. 限价规则

每日限价规则被广泛应用于世界各地的证券交易所,特别是在新兴市场。中国市场对在主板和二板上市的常规股票的每日定价限制为10%(自2020年8月以来在二板上市的股票为20%),对特别处理(ST)股票实行5%的价格限制,对在科创板上市的股票实行20%的价格限制。鉴于本文的预测范围是一个月的远期回报,而不是日收益,主要结果只会受到价格限制规则的轻微影响。为了探讨其对投资组合表现的影响,本文继续进行如下操作。在每个再平衡日,排除以涨停价收盘的股票,并将卖出计划推迟到价格非跌停价的日期。经过处理后,组合收益和夏普比率仍然很高。例如,对于NN4,夏普比从1.78下降到1.70。因此,总的来说,本文的结果对于价格限制规则的加入仍然是稳健的。


5. 结论

本文研究了几类流行的机器学习方法在中国股市上的预测能力。最关键的因素是基于流动性的因子,价格动量类因子只起到了次要作用。股票市场需要多年的时间来创造鼓励基本面投资的环境。虽然中国股市正朝着这个方向发展,但目前的研究结果表明,基本面因子在这些模型中并非最重要的因子。此外,散户投资者的短期行为在较短的投资期限内有实质的可预测性,特别是对小盘股。同时,由于政策在中国市场中发挥着十分重要的作用,国有企业的可预测性在较长期内有大幅提高。本文的投资组合分析表明,短线高可预测性优势可以转化为多空投资组合的高夏普比率。在2015年中国股市大跌的时间段,神经网络和VASA仍然有强劲的表现。由于在中国市场上做空股票是难以实现的,本文也分析了多头投资组合,发现其表现仍然稳健。总的来说,本文证实了机器学习可以(甚至更加)成功地应用于与美国市场完全不同的市场。



往期链接



海外文献推荐:因子选股类

向下滑动查看往期链接

第205期:哪些选股因子具有行业配置能力?

第200期:分析师预测与企业盈余管理

第185期:左尾动量:股票市场坏消息的不充分反应

第179期:价值股与成长股的久期——差异没有想象的那么大

第177期:Smart beta多因子构建的方法论:混合与整合

第174期:解决规模效应的问题

第173期:2018-2020年的量化危机:被大盘成长逼入绝境

第171期:Smart beta与多因子组合的最优混合

第170期:通胀错觉和股票价格

第164期:Smart beta 策略中的“肉”在哪里?

第163期: 从实体经济角度对股市未来长期收益进行预测

第160期:因子的两种类型:基于因子组合的收益分解

第157期:在分散化收益的视角下Smart Beta是否仍然Smart

第154期:异象策略的相关性结构

第144期:价值因子已死?

第142期:ESG投资:从罪恶股到Smart Beta

第135期:货币政策敞口因子MPE

第134期:横截面与时间序列因子模型比较

第125期:现金流久期因子

第118期:使用深度神经网络提升时间序列动量策略

第116期:更高的因子有效性评价标准

第108期:分析师的共同覆盖——动量溢出效应的根源

第99期:低PE,成长,利率:对估值的再思考——最聪明的投资回收期

第98期:低波动需要很少的交易

第97期:机器学习时代的回测原则

第95期:防御性质的因子择时

第90期:收益预测性:来自中美两国供应链的证据

第89期:盈利,留存收益,账面市值比在股票横截面收益中的作用

第87期:因子大陆上的爱丽丝梦游:纠缠因子投资的三大谬误

第79期:不确定性、动量和盈利能力

第77期:因子动量与动量因子

第71期:短期的Beta还是长期的Alpha

第70期:SmartBeta与多因子组合的最优配置

第63期:劳动杠杆与股票收益的截面效应

第62期:利用CART决策树选股

第60期:学术研究毁了因子的预测结果吗?

第59期:策略回测效果如何评估?

第58期:ESG能够提高新兴市场投资的风险调整后收益

第56期:盈余公告收益及标准化预期外盈利

第54期:六因子模型与解决价值因子冗余

53 期:Shiller P/E与宏观经济环境

52 期:微观领先于宏观?非流动性对股票收益和经济活动的预测能力

第50期:因子如何复合——自上而下及自下而上的指数构建方法

第50期:分析报告的可读性与股票收益

第49期:风格在债券投资中的应用

第49期:盈利指标的紧缩指数

第48期:HML 因子中的细节

第46期:市值效应的事实与流言

第43期:机器学习与资产定价

第43期:价值投资的事实和流言

第40期:因子择时是与非

第39期:质优股与垃圾股

第38期:隔夜收益与特定企业股票的投资情绪

第37期:因子选择的新指标

第36期:一种新的公允周期调整市盈率(CAPE)预测方法

第35期:因子投资模型增强:基于深度学习来预测基本面数据

第34期:工匠阿尔法:风格投资的应用

第33期:风格投资与机构投资者

第31期:因子正交与系统性风险分解

第31期:情景基本面,模型与主动管理

第30期:消化异象:一种投资方法

第29期:风格投资、联动性与股票收益可预测性

第28期:期估值因子的风险来源于哪里?由PB 分解得来的证据

第28期:基于波动率管理的投资组合

第26期:收益的可预测性

第25期:价格影响还是交易量:为什么是Amihud(2002)度量

第25期:金融危机期间企业社会责任的价值

第24期:股票流动性和股价暴跌风险

第22期;估计Beta

第22期:价值、规模、动量、股利回报以及波动率因子在中国A股市场的表现

第19期:恐慌指数v.s.规模因子

第18期:调整因子在对收益率解释中的表现

第15期:改进的动量模型

第15期:利润质量研究

第13期:股票市场波动性与投资学习

第13期:社会责任共同基金的分类及其绩效的衡量

第13期:因子择时风险导向模型

第10期:利用信息因子解释回报

第10期;异质现金流和系统性风险

第9期:“打赌没有β”投资策略研究

第9期:利用条件信息理解投资组合的有效性

第8期:因子择时模型

第8期:优化价值

第7期:动量崩溃

第7期:动量因子及价值因子在投资组合中的运用的实证研究

第7期:后悔的神经证据及其对投资者行为的影响

第6期:持续过度反应和股票回报的可预测性

第6期:五因子资产定价模型在国际市场上的检验

第5期:价值的另一面:毛盈利能力溢价

第5期:卖空比例与总股票收益

第4期:巨变的贝塔:连续型贝塔和非连续型贝塔

第4期:全球、本地和传染的投资者情绪

第4期:投资者更关注哪些因子?来自共同基金资金流的证据

第4期:总资产增长率与股票截面收益率的实证

第3期:Beta套利

第3期:前景理论与股票收益:一个实证研究

第3期:趋势因子:投资时限的信息能获得收益?

第3期:时变的流动性与动量收益

第2期:CAPM新视角:突尼斯和国际市场基于copula方法的验证

第2期:资本投资,创新能力和股票回报

第2期:风暴来临前的平静

第2期:资本投资,创新能力和股票回报

第1期:三因子与四因子模型对比与动量因子的有效性检验

第1期:五因子资产定价模型

第1期:多资产组合中的动量因子影响

第1期:基于插值排序标准化变量法和复杂变量的平衡分离树的多因子选股模型





海外文献推荐:资产配置类

          向下滑动查看往期链接

第193期:债券收益下限与资产配置:债券在资产配置中所扮演的角色将于何时受到危及?

第188期:ESG的Alpha,Beta和Sigma:更好的Beta,额外的Alpha

第187期:货币政策的非对称效应

第156期:资产配置vs.因子配置——我们能否构建一类两者兼顾的策略

第151期:利用新闻情绪动量进行战术性资产配置

第143期:关于低风险投资的事实与误区

第141期:利用先锋核心+卫星策略指引

第126期:利用Fama-French五因子模型的alpha进行行业轮动

第123期:行业收益的可预测性:使用机器学习方法

第122期:Capital Group 2020年市场展望

第65期:通过VaR Black-Litterman模型构建FOF投资绝对收益组合

第56期:利用低风险现象增强Black-Litterman 模型:来自韩国市场的证据

第56期:波动率模型以及波动率的程式化特征实证

第54期:放大市场异象

53期:风险平价组合与其他资产配置方法的比较探索

第51期:关于公式化价值投资方法的事实

第48期:对风险配置策略的再思考

第41期:投资组合再平衡管理的另一类方法-叠加期权卖出合约

第38期:Smart Beta 策略怎么会出错?

第27期:风险因子的风险平价

第27期:桥水基金对风险平价和全天候策略的一些思考

第26期:协方差矩阵的非线性压缩:当Markowitz遇见Goldilocks

第24期:考虑寿命风险的多变量战略资产配置模型

第19期:稳定性风险调整后的投资组合

第17期:推动多因子世界中的战略资产配置

第17期:用更高阶矩衡量组合分散性

第16期:将因子暴露映射到资产配置

第14期:风险平价股票组合的转售价值

第12期:构造有效收入组合

第12期:投资组合中股票数量是否会影响组合表现

第11期:对冲基金收益优化投资组合

第5期:集中投资与全球机构投资者业绩



海外文献推荐:事件研究类

          向下滑动查看往期链接


第147期:政治事件投资组合

第146期:信息传播速度与卖方研究行业

第138期:心情Beta与股票收益的季节性

第119期:节假日前的公告效应

第115期:粘性预期与盈利异象

第96期:规模效应隐藏于日历效应之中

第47期:工业用电量与股票收益率

第45期:预测中国股票市场的股灾

第40期:IPO 批准对现有股票的影响:来自中国的证据

第21期:低频调仓、收益率自相关性和季节性

第8期:机构投资者和股票拆分的信息产生理论 

第6期:季节性收益

第6期:可预测的行为、利润和关注

第6期:盈余公告与系统性风险






海外文献推荐:投资者行为类

         向下滑动查看往期链接


第186期:情绪交易与对冲基金收益

第183期:投资决策频率对长期投资结果的影响

第180期:隔夜收益与特定公司的投资者情绪

第167期:决策疲劳和启发式分析师预测

第161期:收益预期是如何形成的?——截面上的趋势外推

第159期:估计分析师预期偏差新方法——投资者是否过度依赖分析师预期

第153期:谷歌搜索量与个人投资者交易者行为

第137期:股票高收益同步性意味着怎样的价格信息含量?

第129期:“懒惰”的投资者——不可忽视的财报措辞变化

第128期:高频交易竞争

第105期:投资者情绪对于异象的解释是否源于“伪回归”?

第85期:原油期货市场的知情交易

第78期:高频报价:买价和卖价的短期波动性

第57期:数据提供者的信息中介角色    

第55期:分析师的重新覆盖与市场反应不足

第42期:卖方研究在经济不景气时期更有价值吗?

第33期:公司债市场收益的共有因子

第23期:媒体关注与消费者投资行为之间的因果关系

第20期:高频交易之间的影响

第20期:是什么使得股价移动?基本面 vs. 投资者认知

第18期:短期机构交易的表现

第16期:坏习惯和好方法

第11期:状态变量、宏观经济活动与个股截面数据的关系

第10期:条件夏普比率

第9期:强制清算,减价出售与非流动性成本

第7期:买方与卖方谁发起交易

第7期:后悔的神经证据及其对投资者行为的影响

第7期:排名效应和交易行为:卖出最差的和最好的,忽略其余的

第6期:持续过度反应和股票回报的可预测性

            

            

            







海外文献推荐:择时策略类

         向下滑动查看往期链接


第184期:市盈率、商业周期与股票市场择时

第166期:时间序列因子择时与横截面因子配权的新方法

第136期:因子溢价与因子择时:一个世纪的数据验证

第106期:宏观经济的风险对因子收益的影响

第86期:哪种趋势指标是你的朋友

第76期:商品期货的特质动量

第32期:行业表现能预测股市走势吗

第14期:几类择时策略的比较




海外文献推荐:公司金融类

         向下滑动查看往期链接


第204期:媒体报道和投资效率

第182期:以整合法量化ESG投资

第152期:识别导致价值/成长溢价的预期偏差效应:一种基本面分析方法

第150期细节决定成败:ESG数据的差异性与责任投资的意义

第145期预期管理与股票收益率

第103期:全球化风险溢价

第72期:独立董事的价值

第23期:经济周期、投资者情绪和高成本的外源融资

第12期:世界各地的资本结构决策:哪些因素重要

第11期:财务风险有多重要?

第3期:机构投资者对公司透明度和信息披露的影响





海外文献推荐:基金研究类

         向下滑动查看往期链接


第199期:主题基金值得炒作吗

第197期:共同基金的alpha分解:选股与赋权

第194期:基金费率能降到多低?

第192期:小样本下的共同基金筛选

第175期:机器学习能用于基金组合构建吗?

第169期:持股的创新偏好与共同基金业绩研究

第162期:COVID-19期间共同基金的业绩表现与资金流动

第155期:双重调整的共同基金业绩评估

第148期:长期任职的基金经理的业绩表现

第140期:价值平均策略、美元成本平均策略以及随机投资方式的收益对比——基于多场历史数据的实证检验

第139期:投资组合集中度与基金绩效

第133期:使用机器学习法推理基金配置

第132期:晨星债基风格箱构建方法论

第130期:什么时候基金管理技能更有价值?

第121期:使用期权对公募基金的益处

第120期:共同基金业绩,管理团队与董事会

第113期:基于DEA方法的共同基金业绩预测

第109期:只有艰难时期的赢家才能持续

第100期:便宜不一定好:论高费率共同基金的优越表现

第94期:基金经理是否具有市场流动性择时能力

第92期:波动率与主动基金管理者能力

第85期:主动ETF或将何去何从

第83期:基金经理的运气与技能

第75期:ETF的战争从未停止

第74期:风格中性FOF:分散投资还是成本重负

第73期:基于APB指标的共同基金业绩评估

第68期:弱市赢家方能恒强:对冲基金再不同市场下的表现持续性

第67期:美国ESG基金发展概览

第64期:基金的alpha源自基金经理的管理能力吗?

第52期:美国目标日期基金市场的成败之争

第51期:买方分析师的能力与角色研究

第47期:下滑轨道内部应该如何配置

第46期:时变的基金经理管理能力

第44期:一个有效的下行风险衡量指标下的FOF 策略

第42期:趋势跟踪策略在目标日期基金中的应用

第41期:基金经理的个人特征与业绩     

第39期:风格中性的基金中基金:分散化还是锁定权重?

第37期:如何设计目标基金?

第34期:市场情绪与技术分析的有效性:来自对冲基金的证据

第32期:目标日期基金需要更好的分散化

第30期:一种新的衡量基金经理能力的方式

第29期:基金真的交易越多赚的越多么?

 




      海外文献推荐:其他

         向下滑动查看往期链接


第203期:高收益债券适合主动管理

第181期:大美国战后经济周期实证研究

第178期:关于大宗商品投资的再思考

第176期:指数期权套利中的提前平仓策略

第172期:风险恐惧情绪在商品期货市场中的定价作用

第165期:商品期货价值投资


关注我们

风险提示:本报告内容基于相关文献,不构成投资建议。

注:文中报告节选自天风证券研究所已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。

证券研究报告

《天风证券-金融工程:海外文献推荐第206期》

对外发布时间

2022年1月6日

报告发布机构

天风证券股份有限公司

(已获中国证监会许可的证券投资咨询业务资格)

本报告分析师

吴先兴 SAC 执业证书编号:S1110516120001

点击“赞”或“在看”,及时获取最新推送


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/125476
 
492 次点击