社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【华泰金工林晓明团队】周期理论与机器学习资产收益预测——华泰金工市场周期与资产配置研究

华泰金融工程 • 7 年前 • 1634 次点击  

摘要

基于资产周期状态与市场表现的关系规律,采用机器学习挖掘预测逻辑


本文首先介绍美林时钟等宏观择时模型,分析其根据经济周期状态的划分进行资产配置的原理,同时指出其应用于中国等新兴市场投资时遇到的挑战。其次,简要回顾华泰金工周期系列研究基于市场统一周期规律提出的周期三因子资产定价模型,以及机器学习挖掘市场规律的原理。最后,采用机器学习的方法发现资产所处的周期状态与其未来市场表现的内在逻辑,实现对资产收益排序的概率预测,并通过对全球市场和中国市场的实证研究,证明该方法对指导资产配置的有效性。


市场周期运动的主导特征是基于资产周期状态预测其未来表现的基础

       

美林时钟模型为宏观择时到资产配置的投资实践提供了较为清晰的思路和扎实的理论依据,具有启发意义。但美林投资时钟模型并不是一个实时、定量的交易策略,其有效与否的关键在于对经济周期状态的判断是否正确。华泰金工周期系列研究通过傅里叶变换、联合谱估计等信号处理方法,发现并证实了市场中广泛存在42个月、100个月和200个月左右的共同周期。以此为基础,提出了华泰量化投资时钟“周期三因子定价与资产配置模型”。通过计算金融资产同比序列与其周期三因子的回归拟合值、拟合值的增加值等,实现对资产周期状态比较精确且全面的测度。

 

机器学习能有效挖掘资产周期状态与未来表现间的内在逻辑


资产收益率分布的不对称性或导致对资产短期收益表现的确定性预测结果出现与实际的偏差,概率结果比确定性结果常常更为有效。同比序列受短期噪声影响小,适合作为周期状态“特征变量”的计算基础。机器学习模型能以概率方法建立起资产同比周期状态与未来表现间的非线性联系,并给出收益排序的概率预测;仿真测试证明本文机器学习模型对挖掘上述联系的有效性。此外,为避免模型对参数选择的敏感性,本文引入了集成学习法,计算多种可行参数组合的预测结果,采用“少数服从多数”的原则,平均后确定最终结果,降低模型对参数依赖,更全面有效的利用历史规律。

 

实证结果证明周期理论与机器学习的研究方法具有不同市场的普适性

    

基于周期理论和机器学习方法预测结果的资产配置实证显示,策略应用于全球和中国市场均有较好表现。与基准的等权配置模型相比均有明显提升,充分证明了机器学习能够挖掘市场周期规律并实现更加有效的预测。由于市场周期规律的普遍存在,机器学习挖掘投资规律的方法也具有普适性。本文方法应用于全球股债资产配置,在2004年1月至2018年3月的样本区间集成学习综合各种参数集的预测结果,取得年化20.5%,最大回撤14.1%,夏普比1.36的表现;应用于中国大类资产配置的表现也明显好于基准。

                                                                         

风险提示:本文基于华泰金工周期系列研究对全球各类经济金融指标长达近百年样本的实证检验结果,确定周期长度。然而市场存在短期波动与政策冲击,就每轮周期而言,暂无法判断具体长度。周期长度只是估计值,可能存在偏差;历史规律存在失效风险。


本文研究导读


Brinson等人(1986)的研究指出,有效的大类资产配置是投资成功的关键。2004年,美林时钟的提出,为从宏观择时到资产配置的研究提供了理论依据。然而,美林时钟由于对周期状态的判断、以及对周期状态与资产价格之间映射关系的构建缺乏定量标准,在应用于美国以外的市场如中国等新兴市场时有效性受到挑战。华泰金工提出周期三因子资产定价模型,实现对资产周期状态的定量测度。在此基础上,本文融合机器学习方法,提出一种根据资产所处的周期状态预测其收益表现的定量方法。

本文将在第一部分介绍以美林时钟为代表的宏观择时模型并回顾华泰周期三因子定价模型。美林时钟由美国投行美林证券于2004年提出,其核心思想——经济具有周期性,在不同经济周期下配置合适的资产以获取投资回报,很好地补充了其他大类资产配置模型对宏观经济研究的不足,将经济周期与资产配置策略动态地联系起来,为投资者提供了从经济周期分析到资产配置的研究框架。在对1973年至2004年美国市场数据的实证检验中,该模型很好地诠释了历史上美国大类资产轮动的规律,但其应用于现阶段的中国市场投资时似乎并不十分有效。究其原因,可能有以下两点:一是美林时钟仅通过经济增长和通货膨胀来识别经济周期的市场分析逻辑在中国等新兴经济体并不完全适用;二是其对宏观经济状态和金融资产价格之间映射关系的构建缺乏定量的标准。

华泰金工在美林时钟所提出的研究框架下,引入信号处理手段,对金融经济系统周期状态和金融资产价格进行量化测度。本系列研究首先通过信号处理、时间序列分析、统计分析等手段,发现并证明了金融经济系统普遍存在三大共同周期,即42个月左右的基钦周期,100个月左右的朱格拉周期和200个月左右的库兹涅茨周期,这三大周期对各项金融经济指标普遍具有较强的解释力度,使得基于周期的量化资产配置成为可能。进一步,提出周期三因子资产定价模型:通过对多项金融资产和宏观经济指标的周期相位分析,推断系统所处的周期状态,进而预测系统中各指标和资产价格未来的涨跌变化。相比于传统宏观择时模型的定性分析,该模型为周期状态的识别和资产价值的判断提供了定量的测度方法,且对全球各项金融资产具有普遍的适用性。



然而,周期三因子模型也有其局限性。一是该模型仅能得出对资产同比的预测,而不能得出对下期收益的直接观点;二是该模型直接应用于资产配置时,对指标的选择较为敏感。针对这两个问题,本文采用机器学习方法,模仿经济学家基于经济周期状态预测资产投资机会的决策过程,并充分发挥机器学习挖掘历史规律的优势,实现对下一期资产收益排序的预测。在前期研究中我们发现,资产同比序列所处的周期状态与资产下期收益间存在密切的联系,但该联系并非简单的一一映射。本文采用机器学习中的多分类器之Softmax函数,以资产所处周期状态作为确定下期收益的先行指标,将资产的收益表现与这些先行指标做回归,从而得出关于资产下期收益的概率性预测。这种概率性预测不直接提供关于资产收益的精确数值,但是可以较为准确地给出资产周期状态和收益排序之间的关系。为了降低模型对指标选取的依赖性,本文选取Bagging集成学习方式,综合使用多种先行指标集得出预测结论,以“少数服从多数”的预测原则,提高了模型的稳定性。至此,本文完成了对周期三因子模型的改进,提出一种基于机器学习方法的资产收益表现的量化预测方法。该方法的原理和应用步骤将在本文第二部分具体说明。

本文第三部分对上述量化预测方法的有效性进行实证检验,并应用该方法对未来的资产价格变化方向进行预测。实证检验发现,该策略对全球大类资产配置和中国的大类资产配置均有较好的表现,较线性预测方法有明显提升。本文方法应用于全球股债资产配置的实证,在2004年1月至2018年3月样本区间,集成学习综合各种参数集的预测结果,取得年化20.5%,最大回撤14.1%,夏普比1.36的表现;而直接应用线性预测逻辑的策略结果仅能达到年化收益率7.1%,最大回撤22.5%。这充分证明了机器学习方法能够深入挖掘市场周期规律并实现有效的资产收益预测。最后,应用以上研究,本文给出2018年下半年的资产配置建议。


市场周期运动的主导特征是基于资产周期状态预测其未来表现的基础


2004年,美林证券提出宏观择时研究的基石——美林时钟模型,为宏观择时到资产配置的研究提供了较为清晰的思路和扎实的理论依据,对大类资产宏观择时的研究具有启发意义。但美林投资时钟模型并不是一个实时、定量的交易策略,其有效与否的关键在于对经济周期状态的判断是否正确。因此,美林时钟作为大类资产宏观择时研究的基石,虽然提供了逻辑合理的框架,但其框架中最为核心的经济周期的判断以及宏观经济与金融资产价值间映射关系缺乏定量判断标准,这就导致了美林时钟模型在指导中国等新兴市场的投资时面临挑战。

受到美林时钟模型的启发,以及考虑其存在的完善空间,华泰金工周期系列研究通过傅里叶变换、联合谱估计等信号处理方法,证明了全球主要国家市场变量,包括股票市场指数、债券指数、大宗商品指数等资产价格数据,以及CPI、PPI等宏观经济变量普遍存在42个月,100个月和200个月左右的三个共同周期。并且,进一步的实证研究发现,42个月,100个月和200个月左右的周期信号能够比较准确的判断市场运动方向,并对资产的未来表现有较好的预测作用。以此为基础,进一步提出了华泰量化投资时钟“周期三因子定价与资产配置模型”。通过从多项金融资产和宏观经济指标中提取三个周期信号(或称“周期三因子”信息),推断系统所处的周期状态,从而预测系统中各指标和资产价格未来的涨跌变化。相比于传统宏观择时模型的定性分析,该模型对周期的识别和对资产价值的判断更具有实践价值,对全球各项金融资产具有普遍的适用性。

“美林时钟”关于经济周期状态与资产配置的分析逻辑
2004年,美国投行美林证券(Merrill Lynch)发表了《The Investment Clock》一文,文中通过对美国超过30年的数据统计分析,提出了将资产轮动及行业策略与经济周期联系起来的资产配置模型,美林投资时钟由此正式走入大家的视野。



美林投资时钟的主要原理是根据经济增长趋势和通货膨胀趋势,将经济周期划分为复苏、过热、滞胀、衰退四个阶段,将资产类别划分为债券、股票、大宗商品和现金四大类,并分别给出了每个周期阶段适合的投资标的:

在衰退阶段(低GDP+低CPI),经济增长率低于潜在增长率,市场需求疲软,产出缺口持续扩大,超额的生产能力和下跌的大宗商品价格使得通胀率更低。政府不得不采取宽松的货币政策(减息)及积极的财政政策(减税)以刺激经济增长。此时,收益率曲线急剧下行,债券是最佳选择。

在复苏阶段(高GDP+低CPI),刺激政策开始起作用,GDP增长率加速,产出缺口缩小,因为空置的生产能力还未耗尽,通胀率还在继续下行。而周期性的生产能力扩充强劲,需求端回暖加上生产成本下行,企业盈利能力大幅上升,这个阶段投资股票是最佳选择。

在过热阶段(高GDP+高CPI),经济增长率超过潜在经济增长率,市场需求旺盛,企业开始面临产能约束,企业生产能力增长减慢,导致通胀抬头。中央银行加息以求将经济拉回到可持续的增长路径上来,使得收益率曲线上行,债券表现往往较差。经济活动的过热以及较高的通货膨胀使大宗商品成为收益最高的资产。

在滞涨阶段(低GDP+高CPI),经济增长率依然超过潜在增长率,但呈减速趋势,产出正缺口逐渐减小,而通胀仍然处于上行阶段。企业成本日益上升,为了保持盈利不得不提高产品价格,导致价格上涨并进一步推升通胀,企业业绩开始出现停滞甚至下滑,股价上涨乏力。而通胀位于高位导致利率也维持高位,这就限制了债券市场的回暖步伐。此时持有现金才是最佳选择。

美林投资时钟的核心贡献在于指出了经济波动具有周期性,而且通过数据实证表明,如果能在不同经济周期运行状态下配置合适的资产/行业,可以获得显著的超额回报。但美林投资时钟模型并不是一个实时、定量的交易策略,其有效与否的关键在于对经济周期的判断是否正确。因此,美林时钟作为大类资产宏观择时研究的基石,虽然提供了逻辑合理的框架,但其框架中最为核心的经济周期的判断以及宏观经济与金融资产价值间映射关系缺乏定量判断标准,这就导致了美林时钟模型在指导投资时存在挑战。比如它只针对经济周期和货币周期做出投资某种大类资产的判断,没有考虑当期资产本身的价格水平是否合适,容易出现高回撤风险;再比如在后危机时代,各个国家央行频频调整货币政策,试图改变经济下行的趋势,美林时钟模型往往不能及时反映货币政策变动可能引发的市场方向短期变化,导致其有效性降低;既往研究中关于经济周期的划分以及大类资产收益率的测算口径均没有统一的标准,因此针对资产轮动现象的解释具有一定主观性,等等。根据已有的研究和检验结果来看,美林时钟模型在美国市场的表现要好于在中国等其他市场的表现。

美林时钟对大类资产宏观择时的研究具有启发意义,但宏观择时研究仍面临许多挑战,包括经济周期的确定,经济周期与资产表现的关系规律等。自美林时钟提出后,学者们从未停止对经济周期识别、宏观经济与资产价格映射关系的探索,然而传统的研究由于缺乏有效的数据挖掘分析工具,往往很难取得大的突破。

华泰金工周期系列研究实现对资产周期状态更加精确全面的测度
通过对美林时钟的分析,我们可以发现:传统的宏观择时方法是建立在经验性地对经济周期数据与资产收益率映射关系进行研究的基础之上的。因此,传统的宏观择时方法存在两方面不足:一是模型预测结果过于依赖经验性的经济周期划分方式,二是缺乏定量的针对宏观经济状态与金融资产价值映射关系的研究。不同的人依据不同标准,很有可能会划分出不同的周期状态;即便对于周期有大致统一的认识,关于周期状态与具体资产收益表现的对应关系也难以定量刻画。这种基于经济周期状态判断的资产轮动规律并不是十分稳定可靠。正因如此,我们才需要正视金融经济系统的复杂性,引入信号处理、机器学习、统计等数据挖掘工具,实现对资产周期状态更加精确且全面的测度。

华泰金工“周期系列研究” 通过傅里叶变换、 联合谱估计等信号处理方法, 证明了全球主要国家市场变量,包括股票市场指数、 债券指数、 大宗商品指数等资产价格数据,以及CPI、 PPI 等宏观经济变量普遍存在 42 个月, 100 个月和 200 个月左右的三个共同周期。这三个周期的长度和古典经济学研究中的基钦周期、朱格拉周期、库兹涅茨周期基本一致,且通过大量市场数据均得以验证。 根据华泰周期系列深度报告《金融经济系统周期的确定》的研究结果,对于大多数经济金融指标,周期三因子能够解释同比序列 70%以上的波动。下表展示了 17 个全球主要市场指数同比序列的周期三因子线性回归模型的拟合结果,可以看到,对于绝大多数指数,其周期三因子回归模型的可决系数 均在 70%以上,说明模型能够准确的把握资产同比序列的历史走势,且能对其未来的走势起到一定的预测作用。

因此,我们提出了“全球金融经济体由统一的三周期驱动”的核心假设,并开启了经济周期与资产配置研究的全新视角,即华泰量化投资时钟“周期三因子模型” ——将 42 个月、100 个月、200 个月的短周期、中周期、长周期抽象为三因子,用以解释资产价格的运动变化,并预测未来走势。 在华泰周期系列深度报告《周期三因子定价与资产配置模型》中,我们通过量化周期三因子定价模型形成关于资产收益率的观点,不同于 CAPM 等模型直接对资产的价格进行预测,量化周期三因子模型着眼于资产价格同比序列中蕴含的周期信号,通过发掘周期信号与资产收益的关系规律,形成对资产下期走势的预测观点。

然而,周期三因子模型也有其局限性。一是该模型仅能得出对资产同比的预测,而不能得出对下期收益的直接观点;二是应用该模型指导资产配置时,配置结果对于模型中的参数变化较为敏感。针对这两个问题,下文将采用机器学习方法模仿经济学家基于经济周期状态预测资产投资机会的决策过程,并充分发挥机器学习挖掘历史规律的优势,实现对下一期资产收益排序的预测。 


机器学习挖掘资产周期状态与其未来市场表现的内在逻辑,实现对收益排序的概率预测

本节将对文章所提出的资产收益预测的方法进行详细的阐述。首先,我们以二分类的逻辑回归为例介绍机器学习的基本原理:机器学习模型实际上是通过一种非线性的方式,建立起特征变量X与因变量Y所属类别之间的联系(在资产收益的预测上,我们将某种资产收益排序是否第一定义为一种类别,比如有两种资产:股票、债券,当股票涨幅排序第一时,定义为市场状态属于类别1;当债券涨幅排序第一时,定义为市场状态属于类别2,以此类推。如果预测的资产类别有N种,那么就是多元分类的问题,相应的市场状态就有N类)。接着,分析和验证了资产同比序列的周期状态能够作为衡量资产未来收益的特征变量;与此同时,由于资产短期收益率分布的有偏性,我们认为基于线性回归模型的资产收益确定性预期结果不能有效预测资产未来表现,概率预期结果相较于确定性结果更具有实际应用价值。


本研究考虑根据现有信息,对于资产未来表现的概率预期结果进行估计,而以逻辑回归为代表的机器学习分类模型能够在给定特征变量X的前提下,变量Y属于类别的概率估计。然而,逻辑回归仅能处理二元分类问题,为了实现同时配置多类资产的目标我们需要采用多元分类方法。

 

Softmax模型(Soft+Max,读者可以从其命名方式大致猜到这是一个概率模型)是逻辑回归的多元扩展,该模型能够有效的处理多种类别的分类问题,并给出变量Y属于每个类别的概率估计。进一步,为了避免Softmax模型对参数选择的敏感性可能导致的模型过拟合,我们引入了集成学习策略,对于不同的单一模型结果进行集成,以降低模型参数依赖的前提下更全面有效的把握和利用历史规律。


机器学习的基本原理:以二元分类的逻辑回归为例

在华泰金工人工智能系列报告之一《人工智能选股框架及经典算法简介》中,我们对机器学习的各类基本方法进行了详细的阐述,具体细节本文不再赘述。为帮助读者更好的把握本文脉络,这里我们仅以逻辑回归为例,对于机器学习的基本原理进行简单的介绍。

 

逻辑回归是机器学习中最常见的监督学习方法之一,可以看作线性回归在分类变量问题上的推广。在线性回归中,我们建立起了特征变量X同连续变化的因变量Y之间的线性相关关系。例如,我们希望能用股票的市盈率因子预测收益率,选取沪深300成分股2016年底的市盈率以及2017年一季度涨跌幅。对市盈率TTM取倒数,进行中位数去极值和标准化处理,得到EP因子,相关数据如下图表所示。可以看到,利用线性回归方法,我们可以找到一条直线:

该直线能够反映出因变量Y与特征变量X之间的变化趋势。根据下图,市盈率越低,EP因子越大,那么股票越有可能上涨。



然而,线性回归的基本假设之一为:因变量Y连续变化,例如,在上例中股票收益率涨跌幅为连续变化变量。然而,很多时候我们并不需要预测股票下个月具体的涨跌幅,而是希望预测股票下个月会上涨还是下跌。换言之,我们面对的是“分类”问题,而非“回归”问题,即自变量Y的取值范围并非某个区间,而是若干个离散的类别变量。特别的,对于二元分类问题,自变量Y的取值范围为{0,1} 。同样以上文利用市盈率预测股票涨跌为例,这里选取沪深300成分股2017年一季度的涨跌幅排名前50名和后50名的个股,计算2016年底的市盈率EP因子。将涨幅前50的个股定义为类别y=1,跌幅前50的个股定义为类别y=0。下文左图展示了线性回归的结果,可以看到,线性回归对于二元类别变量的拟合效果较差:图形中的红点与蓝点代表已发生的事实,红点代表2017年一季度涨跌排名前50的股票,那么它的估计值应当尽量接近1;反之,蓝点则应当尽量接近0,而线性回归,只是“一条线”,他的拟合能力有限。且自变量Y的估计值并不具有实际的含义:可能出现大于1或者小于0的预测值,当出现这样的数值时,我们无法判断股票属于涨跌排名前50或涨跌排名后50的概率。



与线性回归不同,逻辑回归能够建立起因变量Y属于某一特定类别的概率同特征变量X之间的非线性关系,具体模型如下:


上文右图展示了对市盈率预测股票涨跌例子的逻辑回归拟合结果,图中灰色曲线为拟合曲线,曲线的参数根据历史数据估计得到。可以看到,对于给定的特征变量X(即EP因子),因变量Y的估计值均在[0,1]区间之内,为因变量属于类别1的概率估计,该曲线的拟合能力明显好于线性回归:通过参数的估计,可以使得已发生的事实尽量的落入相应的类别数值1或0,且Y具有很好的概率含义。

 

综上,在逻辑回归中,我们根据已知的“特征变量”X和“标签”Y ,通过历史数据“训练”得到一个反映两者内在非线性关系的模型。如果这种关系规律在未来一段时间内能够延续,那么任意给出一个股票当前时刻的EP因子X,我们就可以“预测”该股票未来时刻的上涨或者下跌的概率,即得到

的估计值。根据已有的特征和标签历史数据训练模型,使用特征变量在未来时刻的估计值对标签进行预测,是机器学习最核心的两个环节。


周期状态“特征变量”的选择:周期三因子同比序列拟合值与拟合值的增加值

根据上文对于机器学习原理的简单介绍,在确定所用的机器学习模型之前,我们首先需要根据问题选择合适的特征变量X和因变量Y。由于与资产表现直接相关的变量为资产的收益率,因变量Y的选择范围较窄,为资产的收益率指标或者该指标衍生出的连续或离散类别变量,后文会对因变量Y的选择进行详细分析。本节重点分析并确定特征变量X的选择。

 

由于我们分析的对象为资产收益率,即价格环比,因此直觉上最理想的方式是直接提取资产环比序列的三周期状态作为特征变量X。然而,研究发现由于环比序列本身容易受到短期噪声的冲击,其波动中包含了大量不可解释的部分,通过高斯滤波获取的三周期状态稳定性较差,据此得到的三个周期状态对其自身外推预测的解释力也较低,难以预测资产未来短期表现。因此,本文认为根据资产环比序列得到的资产周期状态的估计值不适宜作为特征变量,具体分析详见附录一。

 

另一方面,回顾华泰金工深度报告的研究结果,在资产配置策略的构建中,多数使用当期的基于周期三因子同比序列拟合值的增加值(即当期同比序列拟合值减去上期同比序列拟合值)作为资产未来表现的评价指标,增加值越大则认为资产未来表现越好。且根据资产当期同比增加值大小确定资产配置比例的策略取得了较好的回测效果,我们认为同比序列周期状态适宜作为把握资产未来短期收益的“先行指标”。而同比增加值可以作为描述周期状态的特征变量。

 

在先前的研究中我们在多数情况下仅考虑了当期的同比增加值,然而,本文认为当期同比增加值只是内在逻辑的一种局部反映,不能够从整体角度把握资产周期状态与未来表现间的内在逻辑。

 

具体而言,利用周期三因子定价模型生成的滞后期和领先期同比拟合值的增加值同样与资产未来短期收益率之间存在相关关系。下图表以沪深300指数为例,展示了不同期同比增加值与指数当月(t),未来第1个月(t+1)和未来第2个月(t+2)收益率之间的相关系数。t 月领先 L 期同比增加值定义为 t+L 月同比序列的周期三因子拟合值与 t+L-1 月同比序列的周期三因子拟合值的差值:



为 t 时刻周期三因子定价方程参数的估计值,本文利用历史50个月的数据对于定价方程参数进行估计。


下表给出了沪深300指数不同期同比增加值同未来收益率的相关关系汇总。可以看到,不同领先滞后期的同比增加值序列对于沪深300指数当月收益率、未来第1个月收益率和未来第2个月收益率的解释力度不同,且存在较大差异。例如,对于当月收益率,当期同比增加值与其相关系数最大,达到了0.1369,也即当期同比增加值能够解释当月收益率波动的13%左右,相关系数其次为领先1期和领先2期同比增加值。对于未来第1月和未来第2月收益率,与之相关性最高的同比增加值指标分别为滞后2期和领先2期指标。值得关注的是,对于未来每期收益率,除了其对应期同比增加值与之存在较高相关性的同时,仍存在其它期同比增加值同样能较好的对收益率的运行趋势进行解释,因此,本文认为,如若想进一步把握资产收益率未来的走势,需要在模型中同时考虑多期同比增加值。



另一方面,上表结果显示,对于沪深300指数,不同期同比增加值同未来月收益率之间的相关系数较低,最大相关度远小于1,仅有0.1369。这说明,仅仅依赖同比增加值这一个指标无法准确的把握资产未来走势。根据先前研究结果,资产价格衍生序列中同比序列与对数价格序列的各个周期分量之间存在稳定的领先滞后关系。例如,对于基钦周期,同比序列的42个月基钦周期分量领先于对数价格序列的该周期分量约4至6个月;对于朱格拉周期和库兹涅茨周期,同比序列的100个月和200个月周期分量与对数价格序列相应的周期分量间同样存在稳定的相位关系。



根据华泰金工周期系列研究之《市场拐点的判断方法》,同比序列42个月高斯滤波得到的正弦分量的高点的出现时刻总落后于价格序列正弦分量的高点,如上图表中左图给出了上证综指同比序列和价格序列的42个月高斯滤波结果。此外,通过交叉谱分析的方式(右图),我们可以精确的得到上证综指的同比序列与价格序列的基钦周期分量间的相位差约为4.51个月。因此,本文认为通过周期三因子定价模型构造的同比序列的领先期和滞后期的拟合值同样能够对预测资产未来的短期表现起到指导作用,是资产周期状态与未来表现间内在逻辑的另一个局部反映。

 

综上所述,本文判断当期同比增加值仅是周期状态同资产表现间内在逻辑的一种局部反映,其它领先滞后期同比增加值和各期同比序列的拟合值同样能部分的反映资产未来短期的表现。因此,我们初步选择各期同比增加值和同比序列拟合值作为全面反映资产周期状态的特征变量,特征变量的具体选择我们将在后文实证部分进一步分析。


短期收益率预测:概率结果比确定性结果更有效

本节我们主要分析资产表现预测问题中因变量Y的选择。由于资产未来收益率同资产表现直接相关,这里我们只需要确定因变量Y的具体形式:Y为连续型变量,例如收益率值,则模型利用特征变量X对于Y的取值进行估计,给出确定性的预期结果;或Y为离散的类别变量,例如不同资产收益率的相对排序,则模型给出给定特征变量X的条件下Y属于某一特定类别的概率预测结果。我们将论证,在资产收益率分布有偏的前提下,概率结果比确定性结果更为有效。

 

确定性预测能够对未来可能发生事件的给出确定性预期。具体而言,假设t时刻有可能发生若干个事件,确定性预测将综合目前现有信息,对于t时刻发生第几个事件作出判断。传统的线性回归方法能够给出确定性预期结果。以未来资产表现趋势判断为例,线性回归利用资产收益率Y在外生条件X下的条件均值代表了收益率Y在未来时刻的期望值,并通过比较不同资产未来时刻的预期值给出资产的未来表现排序,进而给出未来表现最好资产的判断。

 

概率预测旨在根据现有信息,对未来特定时刻每个事件的发生概率进行估计。具体而言,对于资产未来表现问题,即根据现有外生条件X,给出资产收益率Y未来大小情况的概率分布。

 

对于前文基于同比序列周期状态的资产配置策略,其本质是将当期基于周期三因子的同比序列拟合值的增加值作为未来环比序列期望的估计值,并根据资产未来一期环比序列期望的大小资产进行排序,所给出的资产表现结果本质为确定性预测结果。如果我们认为资产收益率是服从正态分布的,那么环比序列的期望值是资产未来表现的良好衡量指标,即资产收益率期望越大,则下期越有可能表现最好,那么此时确定性预测结果足以准确反映资产未来的预期表现。

 

然而,实际中资产收益率往往不服从标准的正态分布,其真实分布大多数情况下是非对称的,而在很多情况下,资产收益率分布的不对称性会导致仅仅依靠收益率期望值的大小对资产未来表现进行排序是不合理的,具体的分析详见附录二。

 

本研究对于17个全球主要资产指数的收益率分布的偏度进行了进一步的分析,结果如下表所示。其中,针对每个资产指数本文对于该指数收益率的偏度分布进行了估计,并在图表中表明了该估计分布的上97.5%和下2.5%分位点对应的区间。若0在该区间之外,说明在95%的置信度下该指数收益率分布的偏度显著异于0,即该指数收益率分布存在不对称性。可以看到,进行分析的全部17个资产指数中15个指数的偏度显著不为0,其中泛欧总回报指数收益率分布的偏度显著大于0,而上证综指、标普500、富时100等14个指数收益率分布的偏度显著小于0,仅有美国总回报指数和CRB食品现货指数收益率的分布无法判断拒绝原假设。



因此,我们可以在一定程度上断定,对于绝大多数资产指数,其收益率分布大概率存在不对称的现象,则根据上文分析,基于确定性预期结果的资产表现判断可能出现偏差,概率预期结果比确定性预期结果更适合资产短期收益率预测。

 

综上所述,本文考虑根据现有信息,对资产未来表现的概率预期结果进行估计,即根据t时刻N项资产的已知信息,给出t+1时刻每项资产收益率取得最好表现的概率估计:


机器学习:通过挖掘资产周期规律与其市场表现的内在逻辑预测其收益排序

Softmax 回归(或者叫做多项逻辑回归)是逻辑回归(Logistic)在多分类问题上的推广。在逻辑回归中,其本质是利用逻辑函数建立起外生因变量与类别之间的关联关系,并对具体类别的发生概率进行估计。但由于逻辑函数形式的限制,逻辑回归能够处理的类别个数仅为2,而在实际应用中,我们常常需要同时分析多类资产的未来表现。Softmax回归将逻辑函数推广为Softmax函数,它能将一个含任意实数的K维实数空间的向量“压缩”到空间中,使每一个元素的范围都在[0,1]之间,并且所有元素的和为1,从而使Softmax回归能够对多维的分类问题进行建模。


基于Softmax函数的多维性质,Softmax回归能够处理类别数目多于2的情况,且同样能够给出具体类别的发生概率的估计值,在多项线性判别分析,朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。

 

在本文讨论的资产未来表现预期的问题中,Softmax模型能够建立下一个时刻资产 i 在N项资产中表现最好的概率同自变量g(即基于资产三周期当前状态构造的指标)的相关关系,具体形式如下:


其中表示根据时刻的信息,对未来时刻因变量属于第k类(即)概率的估计。Softmax方法正是建立起特征变量g同因变量y属于某具体类别的概率间的相关关系为模型待估参数,同线性回归中回归系数的类似,可以通过历史数据进行估计。本文所用Softmax模型的具体形式以及估计方式详见附录三。

 

需要特别说明的是,在Softmax回归中,特征变量既可以通过将Softmax模型同神经网络结合,利用神经网络提取特征的方式得到;也可以根据历史经验积累,人工选择同分类结果具有较强相关关系的先行指标作为特征输入。由于本文回测中采用大类资产的月度数据,因此数据规模有限,很难训练出复杂的特征提取神经网络;同时,根据华泰金工周期系列的研究成果,我们已经验证了很多指标与资产未来的表现存在一定的相关性,例如基于周期三因子模型得到的同比拟合值的增加值、与同比序列领先期和滞后期拟合值等等。因此我们选择在模型中放弃复杂的特征提取层,直接将先行指标作为Softmax模型的输入。



集成学习:避免对参数选择的敏感性,更全面有效地利用历史规律


根据上文所述,本文利用Softmax模型,建立起了不同资产周期三因子状态同其未来短期表现间的相关关系。然而,根据不同先行指标组合所训练出的Softmax模型的效果可能存在差异,换句话说,Softmax模型对资产未来表现判断的准确性依赖于先行指标组合的选择。后文实证部分的结果可以验证该现象:例如,对全球股债细分资产指数,根据领先1期、滞后1期和滞后5期同比增加值和同比拟合值指标训练出的Softmax模型效果最好;但根据领先1期、当期和滞后5期指标训练出的模型结果最差,其对应的资产组合收益与基准的等权策略相当;相反,对全球大类资产等权指数,根据领先1期、当期和滞后5期指标训练出的Softmax取得了最优的表现。

由于所用指数数据长度较短,因此我们很难将数据分成数据量同时满足指标集合选取和回测精度要求的两部分。如果我们不对数据进行划分,根据资产回测的精度确定该资产最优的先行指标组合,则会造成Softmax模型的过拟合。而Softmax模型的过拟合将使得其在训练数据集外不能很好的拟合数据,即对未来的数据缺少适应性,使得模型预测结果的置信度下降。

因此,为了避免上述问题,本文引入集成学习的方法,从而减少Softmax模型的预测结果对先行指标集合选择的依赖,降低过拟合出现的可能。本文采用的集成学习方法为Boot strap aggregating (简称Bagging)。随机森林算法(Random Forest)就是一种典型的Bagging集成学习方法,该算法正是通过Bootstrap方法对原始数据集进行采样,并根据采样集训练并得到彼此存在差异的决策树;最终的出结果是利用“少数服从多数”的原则对每个决策树给出的分类结果进行集成。



本文所用的Softmax-集成学习方法的流程图如上图所示。首先,对于确定的主要特征指标范围,我们依次选择可能的指标组合构建先行指标集合,并利用历史数据训练不同依赖于先行指标集合的单一Softmax模型。在模型集成阶段,本文利用加权平均的方式对每个Softmax模型给出的概率预测结果进行汇总,其中,集成中对每个模型结果赋予的权重相同,均为1/M 。可以看到,该预测结果不依赖于先行指标集合的选择,下文实证部分将对集成学习方法的有效性做进一步分析和验证。


实证分析:周期理论与机器学习的研究方法具有对不同市场的普适性


根据上文所述,本研究拟利用已知的与资产收益率相关的先行指标作为Softmax模型的输入,以代替复杂的特征提取网络。通过分析和比较15对共30个主要特征指标对Softmax模型回测准确度的影响,本文将先行指标的范围确定为:当期同比增加值与同比拟合值、滞后1期同比增加值与同比拟合值、滞后5期同比增加值与同比拟合值和领先1期同比增加值与同比拟合值。


进一步,本文利用仿真生成的模拟数据,通过分析Softmax模型在仿真数据可预测方差比例和分类准确率的相关关系,验证了Softmax模型能够有效的挖掘资产三周期状态同其未来预期表现间的内在逻辑。同时,本文对全球大类资产等权指数、全球股债资产指数与中国大类资产指数分别进行了分析和基于Softmax模型回测结果的资产配置,利用市场历史数据的回测结果验证了所提模型在真实市场环境中把握多类资产未来表现的有效性。


实证部分的最后,我们利用周期状态的外推延拓性质,对各类资产未来的周期状态进行预测;并利用预期的三周期状态构建先行指标集合作为Softmax模型的输入,根据模型输出的概率结果对各类资产未来的表现进行预期和判断。Softmax模型结果显示,2018年5月至12月,债券资产预期表现占优,需谨防风险资产下行。


预测先行指标的选择:“特征变量”组合的方式与原因分析


华泰金工周期系列研究结果显示,全球主要经济金融指数存在着42个月、100个月和200个月左右的周期因子,指数衍生序列的部分波动可由其内在的周期状态解释。于此同时,通过上文的分析,我们发现基于资产周期三因子定价模型计算而得的各期同比增加值对资产未来短期表现均存在一定的解释力度;另一方面,根据华泰金工周期系列报告《市场拐点的判断方法》,资产的同比序列和价格序列的基钦周期分量间存在稳定的领先滞后关系,同比序列的基钦周期分类领先价格序列约4至6个月,因此,我们认为根据周期三因子得到的领先和滞后期同比序列拟合值同样对资产收益率存在一定解释力度。


综上所述,本文将主要特征指标的范围初步确定为当期同比增加值与同比拟合值、领先1期至领先6期同比增加值与同比拟合值、滞后1期至滞后8期同比增加值与同比拟合值15对共30个指标:

其中 表示领先期的同比序列拟合值,在本研究中,资产t时刻的同比拟合值根据同比序列周期三因子定价模型拟合并外推延拓得到,模型中参数根据资产历史50个月同比序列值估计;表示领先期的同比增加值,由相邻两期同比拟合值做差计算而得。


对每一对主要特征指标,将其作为Softmax模型的输入,并利用动态回测的方式分析该Softmax模型的准确率(即每一期预测结果与真实结果间的差异),选择回测准确率最高的若干个主要指标对构成Softmax模型的先行指标集合。其中,本文采用的回测准确率评价指标为Top1Hit,Top2Hit和Top3Hit,分别表示回测中预测中表现最好的资产实际排名第一、第二和第三的比例。上述三个指标的取值范围为0至1(100%),取值越大表示模型准确度越高,预测能力越强;对于理想模型,上述三指标的取值均为1。

具体先行指标集合选取步骤:




先行指标集合选择的流程图如下图所示:

      

值得一提的是,为了避免后文大类资产回测和资产配置分析中存在使用未来数据的可能[1],本文中,先行指标集合确定中所使用的数据为中国股票市场的6大板块指数,该指数根据申万一级行业数据等权合成。根据不同的主要特征指标在板块数据回测中的准确率表现确定先行指标集合,进而在全球大类资产等权指数、全球股债细分资产和中国大类资产中进行回测与资产配置表现分析。利用板块数据确定先行指标集合的原因在于如下两个方面:首先,我们认为先行指标的选取规律在于资产衍生序列(同比、环比、对数价格序列)内在的数理逻辑,其本质源于资产衍生序列互相之间的相关关系,而与序列来源于何种资产无关。因此,我们能够从某类特定资产中挖掘到较优的先行指标集合,且在其它资产中表现稳定。另一方面,由于本文所用数据为月度,数据长度较短,无法将数据拆分为长度同时满足参数选取和回测的两部分。下午实证结果表明,根据板块数据选取的先行指标集合在其它三类资产回测中表现同样优异,为上述分析提供了有力的支持。


下图展示了基于上述15对主要特征指标构建的Softmax模型针对板块等权指数的回测准确率表现。可以看到,总体而言领先1期、当期、滞后1期和滞后5期同比增加值与同比拟合值的回测准确率最高,Top1Hit均超过了25%,高于基准的16.67%,Top2Hit和Top3Hit也均在一定程度上高于基准准确率。其中,当期和滞后1期主要特征指标的Top1Hit最高,达到了26.3%;领先1期特征指标的Top3Hit最高,达到63.5%;滞后5期的准确率较为平均,但基于同比序列同价格序列的基钦周期分量间存在稳定的4.5个月相位差的结论,本文认为滞后5期的同比序列拟合值能够在一定程度上反映资产未来表现,因此将该特征指标纳入先行指标集合中。

综上所述,本文将Softmax模型的先行指标的范围确定为:当期同比增加值与同比拟合值、滞后1期同比增加值与同比拟合值、滞后5期同比增加值与同比拟合值和领先1期同比增加值与同比拟合值。


仿真测试:机器学习在挖掘资产周期状态与未来表现逻辑关系具有效性


周期三因子定价模型的基础来源于资产服从周期几何布朗运动模型的假设。资产价格的几何布朗运动模型由保罗·萨缪尔森在 1965 年提出,在该模型中,资产价格的变动可以分解为固定趋势的漂移项和固定波动的布朗运动之和。周期几何布朗运动模型是对基础模型的改进,其放松了几何几乎布朗运动模型中漂移趋势固定不变假设,认为该趋势会随时间增长周期性波动:

根据伊藤引理,资产t时刻的收益率可以表示为:


其中服从标准正态分布。

可以看到,在周期几何布朗运动模型的假设下,资产 t 时刻的表现可以分解为三个部分:常数项、周期项和随机波动项,且由于常数项对于方差的计算不产生影响,因此资产收益率波动中可预期部分完全取决于资产所处的周期状态。 

本文所提出的基于周期三因子模型和 Softmax 的资产收益表现预测方法本质是挖掘资产三周期状态同资产未来预期表现间的内在逻辑, 如果随着资产收益率方差中可被周期三因子解释部分的比例的提升, Softmax 模型预测准确率有显著的提升,则认为 Softmax 方法能够有效的挖掘资产周期状态与未来表现间的内在逻辑。 

因此,本研究利用仿真方法在不同资产收益率可解释部分比例下生成若干条价格轨迹数据,并测试 Softmax 在该仿真数据下的回测准确率表现,进而分析该方法对于挖掘资产周期状态与未来表现间逻辑的有效性。根据周期几何布朗运动模型,可解释方差比例同随机项误差项的大小反向相关,因此本研究通过调整 的大小来调整可解释方差比例。


对于每个随机波动项 ,随机生成 10 组资产价格集合,每组资产价格集合包括 7 只资产长度为 400 的价格序列,每只资产的价格序列根据周期几何布朗运动模型独立生成,模型参数如上文所示。


基于上文结果,先行指标集合包括4对指标:当期同比增加值与同比拟合值、滞后1期同比增加值与同比拟合值、滞后5期同比增加值与同比拟合值和领先1期同比增加值与同比拟合值。本文首先依次选择3对指标作为Softmax模型的输入,从而构建了4个基于不同先行指标的模型,利用仿真生成的数据测试不同模型在不同可解释方差比例下的回测准确率结果,得到结果如下表所示:



其中,Softmax-[-5 -1 0]表示输入先行指标为滞后5期、滞后1期和当期同比增加值和同比拟合值的Softmax模型,其余同理。可以看到,对上述4个单一Softmax模型,随着可解释方差比例的上升,模型回测准确率也随之提升;当可解释方差达到79.02%时,模型的Top1Hit均超过了50%,Top3Hit超过了90%,进一步当可解释方差比例大于90%时,上述模型的Top3Hit均达到95%以上,表现最好的模型Softmax-[-5 -1 0]预测结果实际排名第一的百分比也达到约75%。由于可解释方差比例完全由资产的周期三因子决定,因此单一Softmax模型回测准确率验证了模型对挖掘资产周期状态与未来表现间逻辑的有效性。

 

进一步,本文同样对集成学习模型进行了仿真测试,从而分析集成的Softmax模型对于挖掘内在逻辑的有效性。集成学习模型仿真测试结果汇总如下表所示:



策略回测:基于机器学习预测结果的资产配置策略业绩优势明显


根据上文仿真测试结果,对于仿真数据,Softmax模型能够有效挖掘资产三周期状态同未来表现间的内在联系,即利用Softmax模型能够给出资产未来表现排序的概率预测结果。本节将就全球股债指数和中国大类资产指数的历史数据,采用基于周期三因子的Softmax方法进行回测,进而分析该方法对资产未来收益预测的有效性。

         

为了更好的展示回测效果,本文设计了基于Softmax模型输出结果的资产配置策略,通过比较基于Softmax结果的资产配置策略与基准策略净值曲线与风险收益指标的差异,分析和评价Softmax模型在预测资产未来短期表现的效果。具体而言,如果基于Softmax预测结果的资产组合的主要风险收益指标均优于基准策略,这说明该策略有更高的概率配置未来表现较好的资产,即Softmax模型能够有效的把握资产的未来短期表现。


基于Softmax模型输出结果的资产配置策略具体步骤如下:

步骤一:动态预测。在每个时刻t,利用资产前90期历史数据构建Softmax模型,并对于t时刻的资产表现进行预测;

步骤二:基于动态预测结果的资产配置。基于t时刻资产表现的Softmax预测结果,对于概率最高的资产下期配置比例为100%,其余资产配置比例为0。

本研究设计了单指标策略作为基于Softmax模型资产配置策略的对照,单指标策略的具体步骤如下:

步骤一:动态预测。在每个时刻t,利用资产前90期历史数据构建周期三因子模型,并对t时刻资产领先期、当期和滞后期同比进行估计,据此计算各阶同比增加值;

步骤二:基于同比增加值估计得资产配置。的资产配置比例为100%,其余资产配置比例为0。

单指标策略的具体细节详见华泰金工周期系列深度报告《周期三因子定价与资产配置模型》,在此不再赘述。


在下文每一部分回测中,我们首先根据基于机器学习的资产配置策略回测结果,分析其与基准的等权配置策略和上述单指标策略在各项风险收益指标的表现差异,验证Softmax模型能够有效的把握周期状态和资产表现的内在逻辑;进而利用集成学习方法对单一Softmax模型的预测结果进行整合,分析集成学习-Softmax模型的回测表现,从而验证上文观点:集成学习能够有效挖掘周期状态与资产表现关联关系的同时,降低模型对先行指标选取的依赖性。


全球主要股债细分资产指数实证结果

首先,我们对全球主要股债细分资产指数利用基于周期三因子的Softmax方法进行回测分析。本文所采用的全球主要股债指数包括10个细分资产指数,具体如下表所示。其中选取包括上证综指,标普500在内的7个主要股票市场指数作为股票指数代表,选取美国总回报指数(U.S. aggregate total return value),泛欧总回报指数(Pan-European aggregate total return index value)和中国总回报指数(China aggregate Total Return index value)作为全球债券指数代表。数据的起止时间为2004年1月至2018年3月,数据采集频率为月度。

根据上文结果,我们初步选择了滞后5期、滞后1期、当期和领先1期的同比增加值和同比拟合值共4对主要特征指标用于构建Softmax模型输入的“先行指标”集合。下文依次选择3对主要特征指标构建单一Softmax模型,共计4个Softmax模型用于全球主要股债指数资产配置回测。

 

回测的方式为动态预测,回测区间为2012年5月至2018年3月。在每个时刻t,利用历史90个月的数据训练Softmax模型,并根据模型的预测结果调整资产配置比例。单一Softmax模型的回测结果如下图表所示:


        

其中,Softmax-[-5 -1 0]表示构建该模型的先行指标集合为滞后 5 期、滞后 1 期和当期的同比增加值和同比拟合值。当期-单指标策略表示依据资产当期同比增加值大小对确定资产配置比例的单指标策略,滞后 1 期、滞后 5 期-单指标策略同理。信息比率计算中的基准参照策略为等权配置策略。


可以看到,基于上述4个单一Softmax模型结果的资产配置策略的年化收益率均超过了基准的等权配置策略。其中,模型Softmax-[-5 -1 1]的年化收益率最高,达到了20.67%,夏普比率超过了基准的等权配置策略且最大回撤与基准策略相当。同时,上述4个单一Softmax模型的年化收益率、夏普比率和信息比率均超过了各个单指标策略,这说明单一Softmax模型在挖掘资产周期状态同未来表现间内在逻辑的有效性。


然而,基于上述四个单一Softmax模型预测结果的资产配置策略的回测结果仍存在一定差异,例如,模型Softmax-[-5 0 1]模型回测结果的最大回撤达到了28.3%,为所有模型中最高,且其年化收益率仅为11.34%,略低于基准的等权配置策略,甚至低于某些单一的细分资产,这说明该Softmax模型未能有效的对资产未来表现进行判断。

 

上述四个单一Softmax模型间的唯一差异在于先行指标集合的选取。为了降低Softmax模型结果对于先行指标选取的依赖,本研究采用了集成学习的方式,在每个时刻t,对于基于不同先行指标集合的单一Softmax模型给出的预测结果进行加总,进而输出集成后的预测结果;同时根据集成的资产表现的预测结果进行资产配置。集成学习-Softmax模型的回测结果如下图表所示:


其中Softmax-Bagging表示基于集成学习-Softmax模型资产配置策略的回测结果。可以看到,基于集成学习模型的资产配置策略能够在保持与基准等权配置策略最大回撤水平相当的条件下提升资产组合的年化收益率和夏普比率。且通过结果的集成,Softmax-Bagging模型的回测年化收益率均优于上述4个单一模型结果,且最大回撤和夏普比率同样为各个模型中最优,这说明集成学习模型不仅能消除单一模型对于指标选取的依赖,降低过拟合,同样也存在改进模型结果的潜力。


全球大类资产等权指数实证结果

进一步,我们对全球主要大类资产的等权指数利用基于周期三因子的Softmax方法进行回测分析。这里,我们将全球主要大类资产分为了股票、债券和大宗商品,并选择了17个指数作为上述三个大类资产的代表,具体如下表所示:


值得一提的是,由于本研究回测所采用的数据频率为月度,因此数据长度非常有限。对于Softmax模型,其带估计参数theta数量与待分类类别数目N呈二次正相关关系,因此,若分类类别数目过大,则根据有限的训练样本长度得到的参数的估计值稳定性较差,且与真实值之间存在较大偏误。该偏误会对于模型对资产未来表现预期的准确性产生负面影响。

 

然而,本文认为上述精确性下降的本质原因在于训练样本数目的不足,并不能作为Softmax模型能否有效挖掘周期三因子状态和资产表现内在联系的判断依据。因此,本文在对于全球大类资产指数进行回测时,首先将不同类别的细分资产指数进行等权合成,生成了股票、债券和大宗商品3个等权指数,进而利用Softmax模型对3个等权指数进行回测。其中,将上证综指,标普500,富时100等7个主要股票市场指数等权合成为股票资产等权指数;将CRB食品现货,CRB食用油现货等7个CRB指数等权合成为大宗商品资产等权指数;选取美国总回报指数(U.S. aggregate total return value),泛欧总回报指数(Pan-European aggregate total return index value)和中国总回报指数(China aggregate Total Return index value)等权合成债券等权指数。数据的起止时间为2004年1月至2018年3月,数据采集频率为月度。经过上述指数合成操作,我们将资产的类别从17降低到3,满足了目前数据长度下Softmax模型的训练样本需求。

 

与全球主要股债指数资产配置的回测方式相同,我们选择滞后5期、滞后1期、当期和领先1期的同比增加值和同比拟合值共4对主要特征指标用于构建Softmax模型输入的“先行指标”集合。回测中依次选择3对主要特征指标构建单一Softmax模型,共计4个Softmax模型用于全球主要股债指数资产配置回测。回测的方式为动态预测,回测区间为2012年5月至2018年3月。在每个时刻t,利用历史90个月的数据训练Softmax模型,并根据模型的预测结果调整资产配置比例。单一Softmax模型的回测结果如下图表所示: 



可以看到,基于上述4个单一Softmax模型结果的资产配置策略的年化收益率均超过了基准的等权配置策略。其中,模型Softmax-[-5 -1 0]的年化收益率最高,达到了12.17%。这同样说明单一Softmax模型在挖掘资产周期状态同未来表现间内在逻辑的有效性。然而,与上节全球股债细分指数资产配置回测结果相比,单一Softmax模型对于大类资产等权指数的配置效果没有明显优于单指标策略。本研究认为,上述差异的不显著主要在于进行配置的资产种类较少(仅有股票、债券和大宗商品三类),Softmax模型由于引入概率预期结果的优势在资产种类较少的情况下不能完全体现,因此其对于资产表现判断的准确度与单指标策略差距不大。


然而,基于上述四个单一Softmax模型预测结果的资产配置策略的回测结果同样仍存在一定差异,例如,模型Softmax-[-1 0 1]回测效果不佳,其年化收益率同基准的等权策略相当,但波动率和最大回撤等风险指标上不如基准的等权策略,甚至低于某些单一的等权指数。

 

另一方面,与全球主要股债细分资产指数回测结果相比,表现最好的单一Softmax模型所依赖的先行指标集合存在差异。具体而言对于全球主要股债细分资产指数,建立在滞后5期、滞后1期和领先1期同比增加值和同比拟合值的模型Softmax-[-5, -1, 1]表现最好,而在资产等权指数的回测中,模型Softmax-[-5 -1 0]取得了最为突出的回测效果。因此,基于Softmax模型预测结果的资产配置策略回测效果依赖于先行指标集合的选取,且对于不同的大类资产指数,取得最优效果的先行指标集合存在差异。

 

为了降低Softmax模型结果对于先行指标选取的依赖,本研究采用了集成学习的方式,在每个时刻t,对于基于不同先行指标集合的单一Softmax模型给出的预测结果进行加总,进而输出集成后的预测结果;同时根据集成的资产表现的预测结果进行资产配置。集成学习-Softmax模型的回测结果如下图表所示:



其中Softmax-Bagging表示基于集成学习-Softmax模型资产配置策略的回测结果。可以看到,集成学习模型在全球大类资产等权指数配置的回测中同样能够超过等权配置策略的年化收益率。



中国主要大类资产指数实证结果

最后,我们将回测分析关注的焦点转移回中国市场,对中国的主要资产指数利用基于周期三因子的Softmax方法进行回测分析。本文所采用的中国主要大类资产指数包括股票、债券和大宗商品共三大类8个细分指数,具体如下图表所示。其中,选取沪深300,中证500和中证1000分别作为大中小盘股票资产的代表;选取中债综合财富指数代表中国债券市场指数;选取南华工业品指数,南华农产品指数,南华金属指数和南华能化指数作为中国大宗商品市场指数的代表。数据的起止时间为2005年1月至2018年3月,数据采集频率为月度。



与全球主要股债指数和全球大类资产等权指数资产配置的回测方式相同,我们选择滞后5期、滞后1期、当期和领先1期的同比增加值和同比拟合值共4对主要特征指标用于构建Softmax模型输入的“先行指标”集合。回测中依次选择3对主要特征指标构建单一Softmax模型,共计4个Softmax模型用于全球主要股债指数资产配置回测。

 

回测的方式为动态预测,回测区间为2011年9月至2018年3月。在每个时刻t,利用历史70个月的数据训练Softmax模型,并根据模型的预测结果调整资产配置比例。单一Softmax模型的回测结果如下图表所示:



可以看到,对于上述8个中国主要大类资产指数,基于上述4个单一Softmax模型结果的资产配置策略的回测年化收益率全部超过了基准的等权配置策略,其中,模型Softmax-[-5 0 1]的年化收益率最高,达到了20.11%,且其最大回撤同样为所有资产配置策略中最低,仅为16.76%;与此同时,该策略的夏普比率同样优于基准策略。于此同时,在进行配置的资产种类较多的情况下,基于单一Softmax模型的资产配置策略的各项风险收益指标均超过了单指标策略,显示出单一Softmax模型在挖掘资产周期状态同未来表现间内在逻辑的有效性。


然而,基于上述四个单一Softmax模型预测结果的资产配置策略的回测结果仍存在一定差异,例如,模型Softmax-[-5 -1 0],Softmax-[-5 -1 1]和Softmax-[-1 0 1]虽然取得了超过基准策略的年化收益率,但其最大回撤均达到了31.69%,超过了基准策略,为所有模型中最高;其中,模型Softmax-[-1 0 1]的夏普比率为上述4个基于Softmax预测结果的资产策略中最低,其结果劣于基准的等权配置策略,说明该Softmax模型未能有效的对资产未来表现进行判断。

 

另一方面,与全球大类资产等权指数回测结果相比,表现最好的单一Softmax模型所依赖的先行指标集合存在差异。具体而言,对于全球大类资产等权指数,建立在滞后5期、滞后1期和当期同比增加值和同比拟合值的模型Softmax-[-5 -1 0]表现最好,而在中国主要大类资产的回测中,模型Softmax-[-5 0 1] 取得了最为突出的回测效果。因此,我们同样的到了结论:基于Softmax模型预测结果的资产配置策略回测效果依赖于先行指标集合的选取,且对于不同的大类资产指数,取得最优效果的先行指标集合存在差异。

 

为了降低Softmax模型结果对于先行指标选取的依赖,本研究同样采用了集成学习的方式,在每个时刻t,对于基于不同先行指标集合的单一Softmax模型给出的预测结果进行加总,进而输出集成后的预测结果;同时根据集成的资产表现的预测结果进行资产配置。集成学习-Softmax模型的回测结果如下图表所示:



其中Softmax-Bagging表示基于集成学习-Softmax模型资产配置策略的回测结果。可以看到,集成学习模型在中国大类资产等权指数配置的回测中同样能够在保持与基准等权配置策略最大回撤水平相当的条件下提升资产组合的年化收益率和夏普比率。



2018年下半年的资产表现排序的预测结论

根据前文所述,我们利用机器学习中的Softmax方法,深度挖掘周期状态与资产收益之间的内在联系。同时通过仿真数据和真实资产数据的回测分析,验证了Softmax方法把握该内在联系的有效性。本节将利用周期的外推延拓性质,对于资产未来的周期状态进行预测;并将资产周期状态的预期结果作为Softmax模型的输入,根据模型输出的概率结果对于资产未来表现进行判断。

 

根据周期三因子定价模型,资产每个时刻的周期状态可用正弦序列表示,其相位状态是关于时间的线性函数。因此,对于任意时刻T,如果我们已知资产的周期频率w 和相位信息,我们可以得到未来任意时刻T+n周期状态相位信息的估计值:


该性质称为周期因子的外推延拓性质。利用延拓后的周期相位信息,我们可以得到未来任意时刻资产周期状态的估计值(在T时刻已知的信息下),进而可以计算上文提到的各类先行指标的估计值。将上述估计值作为当期Softmax模型的输入,则可得到Softmax模型对于资产未来任意时刻表现的预期。

具体而言,在时刻T,基于周期三因子的外推延拓性质,我们可以得到任意大类资产周期三因子状态在未来T+n时刻的预期值,进而得到评价T+n时刻每类资产预期收益的先行指标;基于时刻T之前的历史数据,我们可以对于不同的先行指标输入的Softmax模型;将先行指标作为训练完毕的Softmax模型的输入,可以计算未来每个时点各项资产取得最好表现的概率估计值,依据该估计值对于资产未来的表现进行预测和排序。

利用上述方法,下文依次对于全球大类资产等权指数、全球主要股债细分资产指数和中国主要细分资产指数2018年5月至2018年12月的表现进行预测。下图表展示了全球大类资产等权指数2018年5月至12月的预期表现汇总:



2018年5月至12月全球大类资产等权指数预期表现结果显示:代表债券大类资产的债券等权指数指数表现最强,且随着时间的推移,债券指数表现超过股票和大宗商品等权指数的概率越高,说明在未来一段时间债券资产存在较大的投资机会。大宗商品等权指数的预期概率变化范围不大;上半年股票资产仍存在一定的投资机会,但随后其评分显著下降,18年9月后预期表现不如大宗商品,这与先前报告 “大宗商品未来或将高位震荡,风险主要来源于股票市场” 的观点不谋而合。

 

进一步,本文根据全球主要股债细分资产指数的历史数据,对于10只股票和债券资产的代表指数2018年5月至12月的预期表现进行分析。可以看到,仅从全球股债市场看,未来8个月中债券大类资产的优势更加明显,具体而言,代表中债资产的中国总回报指数综合表现最好,其表现最优的概率最高达到了0.597,为所有细分资产中最高;泛欧总回报在18年后期有较好表现,其取得最优表现的概率在18年9月至11月一度小幅超过了中国总回报指数。股票细分资产中,上证综指在18年5月至6月存在一定投资机会,随后该指数的概率估计值显著下降;其余指数表现最优的概率值均未超过10%。



最后,本文利用中国主要细分资产指数的历史数据训练Softmax模型,对于8只代表指数2018年5月至2018年12月的预期表现进行预测。可以看到,对于中国主要细分资产,2018年下半年债券资产的预期表现依然强势。代表债券资产的中债综合财富指数的评价值在2018年6月超过股票资产后,一直呈上涨趋势。股票资产在2018年5至6月或仍存一定投资价值,代表大盘股的沪深300指数的评价值在5、6月仍然超过40%,代表小盘股的中证1000指数的评价值在5月也接近10%;随后,股票细分资产指数表现最优的概率显著下降,预期成为市场风险的主要来源。




风险提示

本文基于华泰金工周期系列研究对全球各类经济金融指标长达近百年样本的实证检验结果,确定周期长度。然而市场存在短期波动与政策冲击,就每轮周期而言,暂无法判断具体长度。周期长度只是估计值,可能存在偏差;历史规律存在失效风险。


免责申明

本报告仅供华泰证券股份有限公司(以下简称“本公司”)客户使用。本公司不因接收人收到本报告而视其为客户。

 

本报告基于本公司认为可靠的、已公开的信息编制,但本公司对该等信息的准确性及完整性不作任何保证。本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,本公司可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。本公司不保证本报告所含信息保持在最新状态。本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。

 

本公司力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成所述证券的买卖出价或征价。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,本公司及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。

 

本公司及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,本公司及其所属关联机构可能会持有报告中提到的公司所发行的证券头寸并进行交易,也可能为之提供或者争取提供投资银行、财务顾问或者金融产品等相关服务。本公司的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。

 

本报告版权仅为本公司所有。未经本公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公司版权。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“华泰证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。本公司保留追究相关责任的权力。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。

 

本公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。

全资子公司华泰金融控股(香港)有限公司具有香港证监会核准的“就证券提供意见”业务资格,经营许可证编号为:AOK809

©版权所有2018年华泰证券股份有限公司



    






































































今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/XsE7R0L0Ka
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/12781
 
1634 次点击