上文右图展示了对市盈率预测股票涨跌例子的逻辑回归拟合结果,图中灰色曲线为拟合曲线,曲线的参数根据历史数据估计得到。可以看到,对于给定的特征变量X(即EP因子),因变量Y的估计值均在[0,1]区间之内,为因变量属于类别1的概率估计,该曲线的拟合能力明显好于线性回归:通过参数的估计,可以使得已发生的事实尽量的落入相应的类别数值1或0,且Y具有很好的概率含义。
综上,在逻辑回归中,我们根据已知的“特征变量”X和“标签”Y ,通过历史数据“训练”得到一个反映两者内在非线性关系的模型。如果这种关系规律在未来一段时间内能够延续,那么任意给出一个股票当前时刻的EP因子X,我们就可以“预测”该股票未来时刻的上涨或者下跌的概率,即得到

的估计值。根据已有的特征和标签历史数据训练模型,使用特征变量在未来时刻的估计值对标签进行预测,是机器学习最核心的两个环节。
周期状态“特征变量”的选择:周期三因子同比序列拟合值与拟合值的增加值
根据上文对于机器学习原理的简单介绍,在确定所用的机器学习模型之前,我们首先需要根据问题选择合适的特征变量X和因变量Y。由于与资产表现直接相关的变量为资产的收益率,因变量Y的选择范围较窄,为资产的收益率指标或者该指标衍生出的连续或离散类别变量,后文会对因变量Y的选择进行详细分析。本节重点分析并确定特征变量X的选择。
由于我们分析的对象为资产收益率,即价格环比,因此直觉上最理想的方式是直接提取资产环比序列的三周期状态作为特征变量X。然而,研究发现由于环比序列本身容易受到短期噪声的冲击,其波动中包含了大量不可解释的部分,通过高斯滤波获取的三周期状态稳定性较差,据此得到的三个周期状态对其自身外推预测的解释力也较低,难以预测资产未来短期表现。因此,本文认为根据资产环比序列得到的资产周期状态的估计值不适宜作为特征变量,具体分析详见附录一。
另一方面,回顾华泰金工深度报告的研究结果,在资产配置策略的构建中,多数使用当期的基于周期三因子同比序列拟合值的增加值(即当期同比序列拟合值减去上期同比序列拟合值)作为资产未来表现的评价指标,增加值越大则认为资产未来表现越好。且根据资产当期同比增加值大小确定资产配置比例的策略取得了较好的回测效果,我们认为同比序列周期状态适宜作为把握资产未来短期收益的“先行指标”。而同比增加值可以作为描述周期状态的特征变量。
在先前的研究中我们在多数情况下仅考虑了当期的同比增加值,然而,本文认为当期同比增加值只是内在逻辑的一种局部反映,不能够从整体角度把握资产周期状态与未来表现间的内在逻辑。
具体而言,利用周期三因子定价模型生成的滞后期和领先期同比拟合值的增加值同样与资产未来短期收益率之间存在相关关系。下图表以沪深300指数为例,展示了不同期同比增加值与指数当月(t),未来第1个月(t+1)和未来第2个月(t+2)收益率之间的相关系数。t 月领先 L 期同比增加值定义为 t+L 月同比序列的周期三因子拟合值与 t+L-1 月同比序列的周期三因子拟合值的差值:

为 t 时刻周期三因子定价方程参数的估计值,本文利用历史50个月的数据对于定价方程参数进行估计。
下表给出了沪深300指数不同期同比增加值同未来收益率的相关关系汇总。可以看到,不同领先滞后期的同比增加值序列对于沪深300指数当月收益率、未来第1个月收益率和未来第2个月收益率的解释力度不同,且存在较大差异。例如,对于当月收益率,当期同比增加值与其相关系数最大,达到了0.1369,也即当期同比增加值能够解释当月收益率波动的13%左右,相关系数其次为领先1期和领先2期同比增加值。对于未来第1月和未来第2月收益率,与之相关性最高的同比增加值指标分别为滞后2期和领先2期指标。值得关注的是,对于未来每期收益率,除了其对应期同比增加值与之存在较高相关性的同时,仍存在其它期同比增加值同样能较好的对收益率的运行趋势进行解释,因此,本文认为,如若想进一步把握资产收益率未来的走势,需要在模型中同时考虑多期同比增加值。

另一方面,上表结果显示,对于沪深300指数,不同期同比增加值同未来月收益率之间的相关系数较低,最大相关度远小于1,仅有0.1369。这说明,仅仅依赖同比增加值这一个指标无法准确的把握资产未来走势。根据先前研究结果,资产价格衍生序列中同比序列与对数价格序列的各个周期分量之间存在稳定的领先滞后关系。例如,对于基钦周期,同比序列的42个月基钦周期分量领先于对数价格序列的该周期分量约4至6个月;对于朱格拉周期和库兹涅茨周期,同比序列的100个月和200个月周期分量与对数价格序列相应的周期分量间同样存在稳定的相位关系。

根据华泰金工周期系列研究之《市场拐点的判断方法》,同比序列42个月高斯滤波得到的正弦分量的高点的出现时刻总落后于价格序列正弦分量的高点,如上图表中左图给出了上证综指同比序列和价格序列的42个月高斯滤波结果。此外,通过交叉谱分析的方式(右图),我们可以精确的得到上证综指的同比序列与价格序列的基钦周期分量间的相位差约为4.51个月。因此,本文认为通过周期三因子定价模型构造的同比序列的领先期和滞后期的拟合值同样能够对预测资产未来的短期表现起到指导作用,是资产周期状态与未来表现间内在逻辑的另一个局部反映。
综上所述,本文判断当期同比增加值仅是周期状态同资产表现间内在逻辑的一种局部反映,其它领先滞后期同比增加值和各期同比序列的拟合值同样能部分的反映资产未来短期的表现。因此,我们初步选择各期同比增加值和同比序列拟合值作为全面反映资产周期状态的特征变量,特征变量的具体选择我们将在后文实证部分进一步分析。
短期收益率预测:概率结果比确定性结果更有效
本节我们主要分析资产表现预测问题中因变量Y的选择。由于资产未来收益率同资产表现直接相关,这里我们只需要确定因变量Y的具体形式:Y为连续型变量,例如收益率值,则模型利用特征变量X对于Y的取值进行估计,给出确定性的预期结果;或Y为离散的类别变量,例如不同资产收益率的相对排序,则模型给出给定特征变量X的条件下Y属于某一特定类别的概率预测结果。我们将论证,在资产收益率分布有偏的前提下,概率结果比确定性结果更为有效。
确定性预测能够对未来可能发生事件的给出确定性预期。具体而言,假设t时刻有可能发生若干个事件,确定性预测将综合目前现有信息,对于t时刻发生第几个事件作出判断。传统的线性回归方法能够给出确定性预期结果。以未来资产表现趋势判断为例,线性回归利用资产收益率Y在外生条件X下的条件均值代表了收益率Y在未来时刻的期望值,并通过比较不同资产未来时刻的预期值给出资产的未来表现排序,进而给出未来表现最好资产的判断。
概率预测旨在根据现有信息,对未来特定时刻每个事件的发生概率进行估计。具体而言,对于资产未来表现问题,即根据现有外生条件X,给出资产收益率Y未来大小情况的概率分布。
对于前文基于同比序列周期状态的资产配置策略,其本质是将当期基于周期三因子的同比序列拟合值的增加值作为未来环比序列期望的估计值,并根据资产未来一期环比序列期望的大小资产进行排序,所给出的资产表现结果本质为确定性预测结果。如果我们认为资产收益率是服从正态分布的,那么环比序列的期望值是资产未来表现的良好衡量指标,即资产收益率期望越大,则下期越有可能表现最好,那么此时确定性预测结果足以准确反映资产未来的预期表现。
然而,实际中资产收益率往往不服从标准的正态分布,其真实分布大多数情况下是非对称的,而在很多情况下,资产收益率分布的不对称性会导致仅仅依靠收益率期望值的大小对资产未来表现进行排序是不合理的,具体的分析详见附录二。
本研究对于17个全球主要资产指数的收益率分布的偏度进行了进一步的分析,结果如下表所示。其中,针对每个资产指数本文对于该指数收益率的偏度分布进行了估计,并在图表中表明了该估计分布的上97.5%和下2.5%分位点对应的区间。若0在该区间之外,说明在95%的置信度下该指数收益率分布的偏度显著异于0,即该指数收益率分布存在不对称性。可以看到,进行分析的全部17个资产指数中15个指数的偏度显著不为0,其中泛欧总回报指数收益率分布的偏度显著大于0,而上证综指、标普500、富时100等14个指数收益率分布的偏度显著小于0,仅有美国总回报指数和CRB食品现货指数收益率的分布无法判断拒绝原假设。

因此,我们可以在一定程度上断定,对于绝大多数资产指数,其收益率分布大概率存在不对称的现象,则根据上文分析,基于确定性预期结果的资产表现判断可能出现偏差,概率预期结果比确定性预期结果更适合资产短期收益率预测。
综上所述,本文考虑根据现有信息,对资产未来表现的概率预期结果进行估计,即根据t时刻N项资产的已知信息,给出t+1时刻每项资产收益率取得最好表现的概率估计:

机器学习:通过挖掘资产周期规律与其市场表现的内在逻辑预测其收益排序
Softmax 回归(或者叫做多项逻辑回归)是逻辑回归(Logistic)在多分类问题上的推广。在逻辑回归中,其本质是利用逻辑函数建立起外生因变量与类别之间的关联关系,并对具体类别的发生概率进行估计。但由于逻辑函数形式的限制,逻辑回归能够处理的类别个数仅为2,而在实际应用中,我们常常需要同时分析多类资产的未来表现。Softmax回归将逻辑函数推广为Softmax函数,它能将一个含任意实数的K维实数空间的向量“压缩”到空间
中,使每一个元素的范围都在[0,1]之间,并且所有元素的和为1,从而使Softmax回归能够对多维的分类问题进行建模。
基于Softmax函数的多维性质,Softmax回归能够处理类别数目多于2的情况,且同样能够给出具体类别的发生概率的估计值,在多项线性判别分析,朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。
在本文讨论的资产未来表现预期的问题中,Softmax模型能够建立下一个时刻资产 i 在N项资产中表现最好的概率同自变量g(即基于资产三周期当前状态构造的指标)的相关关系,具体形式如下:

其中
表示根据时刻的信息,对未来时刻因变量属于第k类(即
)概率的估计。Softmax方法正是建立起特征变量g同因变量y属于某具体类别的概率间的相关关系
为模型待估参数,同线性回归中回归系数
的类似,可以通过历史数据进行估计。本文所用Softmax模型的具体形式以及估计方式详见附录三。
需要特别说明的是,在Softmax回归中,特征变量
既可以通过将Softmax模型同神经网络结合,利用神经网络提取特征的方式得到;也可以根据历史经验积累,人工选择同分类结果具有较强相关关系的先行指标作为特征输入。由于本文回测中采用大类资产的月度数据,因此数据规模有限,很难训练出复杂的特征提取神经网络;同时,根据华泰金工周期系列的研究成果,我们已经验证了很多指标与资产未来的表现存在一定的相关性,例如基于周期三因子模型得到的同比拟合值的增加值、与同比序列领先期和滞后期拟合值等等。因此我们选择在模型中放弃复杂的特征提取层,直接将先行指标作为Softmax模型的输入。

集成学习:避免对参数选择的敏感性,更全面有效地利用历史规律
根据上文所述,本文利用Softmax模型,建立起了不同资产周期三因子状态同其未来短期表现间的相关关系。然而,根据不同先行指标组合所训练出的Softmax模型的效果可能存在差异,换句话说,Softmax模型对资产未来表现判断的准确性依赖于先行指标组合的选择。后文实证部分的结果可以验证该现象:例如,对全球股债细分资产指数,根据领先1期、滞后1期和滞后5期同比增加值和同比拟合值指标训练出的Softmax模型效果最好;但根据领先1期、当期和滞后5期指标训练出的模型结果最差,其对应的资产组合收益与基准的等权策略相当;相反,对全球大类资产等权指数,根据领先1期、当期和滞后5期指标训练出的Softmax取得了最优的表现。