1. 引言
时间序列预测在资产定价、风险管理和算法交易等关键决策过程中发挥着至关重要的作用。然而,金融市场的非平稳性以及现有研究在数据集和评估指标方面的局限性,阻碍了先进时间序列模型在金融领域的有效应用。具体来说,现有研究多使用具有简化统计特性的数据集,且传统评估指标如MSE和MAE侧重于点对点准确性,忽略了时间相关性,难以全面评估模型在金融场景下的实际表现。为此,本文提出了FinTSBridge框架,通过构建新的金融数据集、设计多视角预测任务、开发新型评估指标(如msIC和msIR)以及进行策略模拟与评估,旨在弥合先进时间序列模型与现实世界金融应用之间的差距,为金融时间序列预测提供更全面、更可靠的评估体系。
通过引入新的数据集、评估指标和预测任务,FinTSBridge旨在弥合先进时间序列模型与金融市场遇到的复杂挑战之间的差距。我们的工作强调了金融时间序列预测中相关性感知方法的重要性,最终推进了AI驱动的金融领域的发展。我们的主要贡献可以概括如下:
• 构建了三个经过策划的金融数据集,以反映多样化的现实市场动态:
- 全球股票市场指数(GSMI):20个指数(2005-2024),捕捉跨市场依赖性和波动性制度。
- 高频期权指标(OPTION):CSI 300 ETF期权的分钟级隐含波动率和希腊字母(2024),模拟日内市场微观结构。
- 比特币期货-现货动态(BTCF):小时级价格-成交量序列(2020-2024),捕捉加密货币市场的领先-滞后效应。
- 对来自近期研究工作的十多个领先时间序列预测模型在金融时间序列上的性能进行了验证,以展示它们在该领域的实际可行性。
- 开发了两个新的评估指标,msIC(平均序列相关性)和msIR(相关性稳定性比率),作为对传统指标如MSE和MAE的补充,以更好地捕捉时间相关性和非平稳性下的稳健性。
- 针对这些数据集设计了特定的金融任务,例如指数投资组合优化、择时交易和BTC期货多空策略,以评估预测模型的实用性能和潜在应用。
2. 相关工作
2.1 时间序列预测模型
最近的时间序列预测进展集中在通过多尺度分解、注意机制优化、轻量级架构和表示学习创新来增强模型能力。基于分解的方法仍然是处理非平稳信号的基础。例如,Autoformer(Wu等人,2021a)开创了自相关驱动的周期性检测,用自适应分解取代了传统的移动平均,而FEDformer(Zhou等人,2022)利用傅里叶-小波混合频谱分析实现了多分辨率频率分解。在此基础上,非平稳Transformer(Liu等人,2022)引入了动态平稳化模块,在应用注意机制之前学习对非平稳输入进行归一化,显著提高了对分布变化的稳健性。这些方法突出了频域分析和时间建模之间的协同作用。
为了解决Transformer的计算瓶颈,研究人员开发了稀疏注意变体:Informer(Zhou等人,2021)通过基于KL散度的概率稀疏注意和token选择将二次复杂度降低,而Crossformer(Zhang & Yan,2023)设计了分层跨分辨率注意,以捕捉跨时间尺度的依赖性。Koopa(Liu等人,2023a)完全避开了注意,提出了时变Koopman动态系统,通过线性算子对潜在状态演化进行建模。同时,轻量级架构挑战了传统智慧-DLinear(Zeng等人,2023)证明,对于趋势和残差分量的解耦线性投影可以胜过复杂模型,而TSMixer(Chen等人,2023)和TimeMixer(Wang等人,2024a)分别采用纯MLP架构和混合频率-时间算子,以在准确性和计算成本之间取得平衡。
表示学习突破进一步扩展了建模能力。TimesNet(Wu等人,2023)通过周期-相位折叠将1D序列转换为2D时间矩阵,使得2D卷积能够同时捕捉周期内和周期间模式。PatchTST(Nie等人,2023)引入了受视觉Transformer启发的通道独立补丁,通过重叠段学习局部时间嵌入。iTransformer(Liu等人,2024)通过将变量视为token,时间点视为特征,颠覆了传统架构,增强了多变量依赖建模。MICN(Wang等人,2023)采用多尺度扩张卷积金字塔来分层提取局部周期性特征。互补技术如RevIN(Kim等人,2021)通过双向实例归一化解决分布变化,而TiDE(Das等人,2023)将时间编码与密集残差连接集成起来,以实现高效的长程预测。这些创新共同推进了三个核心原则:1)频率-时间分析的混合,2)信号处理理论指导下的战略简化,3)通过归一化和分布对齐的系统稳健性增强。
2.2 与金融任务相关的研究
最近在金融时间序列预测方面的进展越来越多地采用多视野预测框架,以捕捉不断变化的市场动态。与传统方法不同,后者侧重于单步预测(例如,预测下一步价格或涨跌趋势,如(Ding等人,2015;Abe & Nakayama,2018;Kraus & Feuerriegel,2017;Sun等人,2023;Li等人,2024)),最近的时间序列方法如(Liu等人,2024;Wu等人,2023;Liu等人,2023a)采用序列到序列架构来预测汇率时间序列的多步轨迹,这有助于理解未来的时间动态,但也给预测带来了挑战。尽管大型模型和强化学习方法在金融时间序列预测中越来越受欢迎(Nie等人,2024;Li等人,2024;Zong等人,2024),但小型模型和有监督学习方法在金融时间序列预测中的潜力尚未得到充分探索。在尖端模型和金融时间序列任务之间建立桥梁非常重要。
尽管端到端预测方法在时间序列领域越来越受欢迎,但在金融数据集中引入协变量作为预测的一部分是必要的。这些协变量提供了时间序列本身所不具备的时间变化信息,这给模型带来了捕捉变量间信息的挑战。此外,不同的时间序列尺度可能导致不同的预测性能和协变量的依赖性。在金融时间序列中,难以预测的现象或不在低频时间序列中出现的现象可能在高频时间序列中表现出可预测性。因此,构建一个涵盖不同频率、金融工具和变量类型的时间序列数据集具有重要价值,因为它有助于全面评估金融时间序列预测能力。
2.3 资产价格的可预测性
股票价格预测确实具有挑战性,但并非完全不可能。这一点从量化对冲基金机构的长期工作中得到了证实,这些机构不断从历史数据集中挖掘预测指标和模式,以应对不断变化的市场环境,实现超额回报。此外,一些基于有效市场假说(EMH)的研究表明,股票市场并不一定是之前认为的半强形式或强形式效率,这将阻止基于可用历史信息预测未来价格变动(Miller等人,1970;Malkiel,2003)。相反,许多市场通常介于半强和弱形式效率之间(Lo & MacKinlay,1988),而(Efficiency,1993)验证了股票市场中的动量效应,即过去表现良好的股票可能在未来继续表现良好,从而挑战了弱形式有效市场假说。(Fama & French,1996)讨论了多因子模型对资产定价异常的解释力,间接表明了市场效率水平。此外,技术的进步显著提高了数据处理能力,从而提高了预测模型的性能。这种发展带来了以前仅基于历史数据的模型所无法获得的数据处理能力和预测性能(Brogaard & Zareei,2023;Leippold等人,2022;Gu等人,2020;Feng等人,2020;Barberis等人,2005)。
3. 数据集策划
目前关于长期时间序列预测的研究主要集中在八个主流数据集上(Wu等人,2023;Chen等人,2023;Liu等人,2024;2023a;Zeng等人,2023;Nie等人,2023)。其中,有五个与电力相关,其余三个与天气、交通和汇率相关。尽管汇率数据属于金融领域,但由于汇率数据的非平稳和非周期性特征(Liu等人,2023b),它通常被忽视或被疾病领域的ILI数据集所取代,这使得它比其他表现出显著周期性和平稳性的时间序列数据更难预测。
虽然一些最先进的时间序列模型在主流数据集上展示了强大的长期预测能力,但它们缺乏解决现实世界时间序列问题复杂性的稳健性(Tan等人,2024;Bergmeir,2024a;b;c)。为了更好地研究这些现实世界的挑战,我们提出了三个金融时间序列数据集。
3.1 数据来源
我们构建了三个金融时间序列数据集:GSMI、OPTION和BTCF,每个数据集代表金融学的不同子领域。GSMI数据集包括全球股票市场的20个主要指数,记录了这些指数近20年(2005年至2024年)的每日价格和交易量数据。OPTION数据集包括中国金融市场的CSI 300ETF期权,包含了与看涨和看跌期权的风险相关的变量。BTCF数据集包含比特币现货和永久合约的小时频率数据,有助于了解现货-合约滞后关系,并促进多空交易策略(Bulun,2020;Narayanasamy等人,2023)。在表1中,我们介绍了这三个金融时间序列数据集的统计属性,更多细节见下文。
3.2 数据预处理方法
由于原始数据中许多变量的价值变化幅度存在显著差异,因此需要适当的数据预处理。然而,目前尚无统一且一致的处理资产价格序列的解决方案,预处理方法需要根据特定任务和要求构建。对于GSMI和BTCF数据集,由于它们的频率分别为每日和每小时,我们使用高-开-低-收价格来帮助捕捉数据的信息。为此,我们考虑应用对数变换,同时保留这些变量之间的相对变化模式。
假设资产收盘价格系列由以下公式给出:
其中 表示第 个时间步的收盘价格,且
。让第 个时间步的收盘价格变化为:
然后 ,这导致:
因此,经过对数变换后,我们构建:
然后,减去初始 导致:
此时,构建的对数价格系列可以被视为价格变化的累积和,转换后的序列仅依赖于前一个状态的价格变化,表现出加法属性。
同样,对于给定的资产最高价格系列:
其中 表示第 个时间步的最高价格。让第 个时间步的最高价格相对于上一个收盘价格的变化为:
然后 。因此,最终的对数变换对于最高价格系列为:
这不仅使得最高价格系列表现出加法属性,而且还保留了最高价格和收盘价格之间的相对关系,因为它们的差异可以表示为:
其中我们有:
这完全由第 个时间步的价格决定。此外,我们在转换后的序列中添加了一个常数项100,以锚定累积变化的基线,并防止对数价格系列中出现负值。最终的预处理价格变为:
其中 表示转换后的价格系列,而 可以是开、高、低或收盘价格系列中的任何一个。
对于交易量系列:
对数变换方法是:
这有助于避免交易量为零时对数计算中的错误。
3.3 预处理的可视化
在图2中,我们提供了GSMI数据集中20个指数收盘价格和交易量序列在预处理前后的比较。在预处理之前,这些指数价格序列表现出较大的波动和不同的幅度,使得横截面比较具有挑战性。交易量序列的时间变化更加不稳定,跨指数比较交易量尤其困难。预处理后,价格和交易量序列都保持在相同的量级范围内,价格系列锚定到一个统一的初始基线,增强了累积变化的可比性和一致性。
我们还提供了预处理前后GSMI数据集中Volume-Price系列变化的全面分析,以显示其在数据规模对齐和跨变量保留关键模式方面的有效性。
4. 新的评估指标
尽管主流时间序列预测工作在顶级会议上通常采用基于误差的方法,例如MSE和MAE作为模型预测的评估指标,但当应用于金融时间序列时,这些指标面临重大挑战。一个简单的例子是表2中的Naive模型,它直接将输入序列的最后一个观察值作为预测值,在Exchange数据集上实现了非常低的预测误差(我们在附录B.5中提供了详细分析)。这引发了对金融时间序列预测评估的关键问题,表明应引入基于相关性的指标以及预测误差,因为它们对于现实世界的金融应用至关重要。尽管传统的资讯系数和资讯比率指标(Treynor & Black,1973;Grinold & Kahn,2000)可以衡量单步单变量预测中的时间相关性,但它们无法评估多变量多步预测。为了解决这一局限性,我们提出了多步IC和多步IR,分别缩写为msIC和msIR。
msIC衡量的是预测时间序列的真值和预测值之间的相关系数。具体来说,对于由B个样本组成的输入数据,表示为 ,其中 是样本数量, 是序列长度, 是变量数量,通过神经网络 映射后,我们得到 ,其中 , 是预测范围。msIC用于衡量预测时间序列 和真实时间序列 之间的时间相关性。具体来说,我们计算每个样本和每个变量沿时间维度的排名相关系数,然后对B和C维度进行平均,得到最终值。
对于第 个样本和第 个变量,预测时间序列的排名相关系数由以下公式给出:
其中 和 是第
个样本和第 个变量的时间序列。然后, 表示为:
尽管msIC有效地反映了预测和真实时间序列之间的相关性,但它并没有考虑到时间序列的时变分布所导致的时间波动。因此,我们还构建了msIR来捕捉这一方面。具体来说,对于第 个样本,跨通道相关性可以表示为:
并且 保持严格的时序顺序。这些值的标准差由以下公式给出:
其中 。最后, 计算为:
msIR反映了模型实现的有效相关性(由msIC表示)与时间序列动态变化所引起的相关性“噪声”(由msIC序列的标准差反映)之间的比率。较高的值表明模型在不同样本中实现高且稳定的相关性(大的msIC和小的标准差),这意味着在时间预测性能上具有更好的可靠性。较低的值可能表明,尽管模型在某些样本中表现良好(在某些点上有大的msIC),但在不同样本中存在高变异,这反映了模型的可靠性或稳定性较差。
5. 实验
为了弥合现实世界的金融时间序列数据与尖端时间序列模型之间的差距,我们采用了超过10种先进的时间序列模型,并在三种金融时间序列场景中进行了广泛的实验测试:多变量到多变量预测、多变量到单变量预测和多变量到部分预测。这些时间序列模型包括:TimeMixer(Wang等人,2024a)、Koopa(Liu等人,2023a)、iTransformer(Liu等人,2024)、PSformer(Wang等人,2024d)、TiDE(Das等人,2023)、PatchTST(Nie等人,2023)、DLinear(Zeng等人,2023)、Stationary(Liu等人,2022)、TSMixer(Chen等人,2023)、TimesNet(Wu等人,2023)、FEDformer(Zhou等人,2022)、Autoformer(Wu等人,2021a)、Crossformer(Zhang & Yan,2023)、Transformer(Vaswani,2017)、Informer(Zhou等人,2021),以及一个Naive模型。
通过设计与现实世界金融应用一致的预测任务和评估协议,我们的工作为当前SOTA时间序列模型在现实金融环境中的表现提供了全面的基准。此外,我们引入了AI驱动方法的深入见解,以推进金融时间序列预测。详细的实验设置和补充分析记录在附录B.1中。
5.1 多变量到多变量预测
设置。多变量任务的多元预测在时间序列预测实验中广泛使用,例如天气预报或电力预测。我们对三个数据集上的16个时间序列模型在这些任务上的表现进行了广泛评估,考虑到金融时间序列的非平稳性和低信噪比,以及交易日的特点。对于每个数据集,我们选择了四个不同的预测长度 ,每个任务运行5次,以确保实验的稳健性。我们使用MSE和MAE作为指标来衡量预测值和实际值之间的误差,并使用msIC和msIR作为指标来衡量时间序列相关性。
结果。表3显示了这些模型在每个数据集上的平均表现,完整的实验结果详见表9。从模型比较中可以看出,没有一个模型在每个数据集的每个指标上表现出绝对优势;然而,比较优势确实存在。其中,PSformer、TimeMixer、TiDE和PatchTST在大多数任务中表现出竞争力,PSformer在12个实例中实现了最佳表现。值得注意的是,尽管早期的模型,如Transformer和FEDformer,在误差指标上不具竞争力,但在某些数据集上,它们在相关性指标上表现出竞争力,提供了模型评估的另一个维度。Naive模型,它只是重复输入时间序列的最后一个值,几乎缺乏预测相关性,但其误差指标保持在较低水平,甚至超过了一些尖端的时间序列模型。这种现象在非平稳和非周期性时间序列预测中广泛观察到。
5.2 多变量到单变量预测
设置。多变量预测单变量时间序列是时间序列预测中的一个重要实验设置,具有广泛的实际应用。我们不仅从时间序列预测的角度评估模型性能,还根据不同金融数据集的应用场景构建了各种投资策略,例如择时交易和多空交易,并评估这些模型在投资策略中的表现。
结果。在表10和表11中呈现的性能评估中,Naive模型在大多数情况下保持了较低的MSE和MAE损失。此外,PSformer、PatchTST和DLinear表现出相对较小的损失。Naive模型在GSMI和BTCF数据集上实现了最低的误差指标,这与预测价格序列的难度较高有关。在相关性指标方面,PSformer、Stationary和DLinear表现出更强的竞争力。总体而言,PSformer在12个指标中表现最佳或第二佳。虽然评估指标有效地展示了模型的预测性能,但图8直观地展示了模型在GSMI上的市场择时表现,表4量化了不同模型之间策略统计指标的对比。更多单变量实验和相关讨论,请参见附录B.3。这些结果提供了模型性能对比和金融领域潜在应用的更广泛视角。
5.3 多变量到部分预测
设置。部分变量的多变量预测目前不是时间序列预测的主流实验设置。然而,(Wang等人,2024c)讨论了这一实际场景的重要性。在这项工作中,我们将GSMI数据集中的20个指数的收盘价格设定为目标变量进行预测。我们评估了模型在GSMI数据集上的表现。此外,我们构建了一个投资组合选择策略,并在同时持有不同数量的指数时回测回报表现。
结果。表12和表13显示了预测部分变量的表现。在误差指标方面,Naive和PatchTST模型表现更好,而PSformer和Informer表现出更好的相关性指标。从图10中的投资组合选择回测图来看,没有一个模型在不同数量的指数持有情况下始终实现最高的累计回报。然而,在大多数情况下,这些模型的累计回报高于20个指数的平均回报曲线,并且随着持有指数数量的减少,这种趋势变得更加明显。
6. 结论
本研究弥合了先进时间序列预测模型与实际金融应用之间的差距。我们构建了专门的金融数据集,捕捉了全球指数、衍生品和加密货币市场的不同市场动态,通过msIC和msIR指标量化了多步预测任务中的时间相关性。此外,广泛的策略评估和可视化验证了先进模型在实际金融部署中的有效性和潜力。未来的工作将探索将大型基础模型和基于代理的系统与更广泛的金融时间序列分析任务相结合。