在时间序列预测 (Time Series Forecasting, TSF) 这一重要领域,传统方法往往侧重于模式提取和直接数值映射,而可能忽略了对时序动态和上下文依赖的显式推理过程。近期,中国科学技术大学的研究团队通过一项名为 TimeReasoner 的广泛实证研究,探索了新兴的“慢思考”大语言模型(LLMs)在时间序列预测任务中的推理能力,尤其是在零样本(zero-shot)场景下的潜力。这项研究为理解和利用LLMs进行结构化时序推理开辟了新视角。

【论文标题】
Can Slow-thinking LLMs Reason Over Time? Empirical Studies in Time Series Forecasting
【论文地址】
https://arxiv.org/abs/2505.24511
【代码仓库】
https://github.com/realwangjiahao/TimeReasoner
研究动机
图1: 研究背景
时间序列预测(TSF)是金融、能源、医疗等众多领域的基石性任务,其核心目标是基于历史观测和辅助信息预测目标变量的未来轨迹。尽管现有方法(从经典统计模型到现代深度学习)已取得显著成效,但它们大多遵循“快思考”范式,即通过单步推断直接映射输入到输出,缺乏中间的、显式的推理步骤。
与此同时,具备多步推理能力的“慢思考”大语言模型(如ChatGPT-01, DeepSeek-R1)在不同领域展示了令人印象深刻的性能 。这启发了一个关键问题:“慢思考”大语言模型能否有效地对时间模式进行推理,以支持时间序列预测,即便是在零样本的情况下? 为此,研究团队提出了TimeReasoner,将TSF重新表述为一个条件推理任务,系统性地探究LLMs在时序数据中的推理行为。
模型方法
图2: TimeReasoner 框架图
TimeReasoner 将时间序列预测构建为一个条件推理问题,其中LLM通过解释结构化的自然语言提示来生成预测。其核心框架(如图2所示)包含以下关键组成部分:
1. 混合指令 (Hybrid Instructions)
为了支持有效的时序推理,TimeReasoner 采用多模态提示,结合了:
- 原始尺度时间序列 (Raw time series in original space):直接使用未经归一化的原始数据,保留数值的真实幅度和波动信息,便于模型理解绝对值和真实世界变化。
- 时间戳特征 (Timestamp feature):引入原始时间戳,使模型能够识别绝对时间位置(如特定日期或小时)和相对模式(如周期性或时间间隔),这对于时序推理至关重要。
- 上下文特征描述 (Contextual feature descriptions):提供自然语言描述的上下文信息,如领域知识和通道特定语义,帮助LLM将数值数据与现实世界含义对齐,增强任务相关性和可解释性。
2. 推理策略 (Reasoning Strategies)
TimeReasoner 探索了三种不同的推理范式,以评估“慢思考”LLMs的能力:
- 单次推理 (One-Shot Reasoning):LLM对给定输入执行一次全面的推理过程,内部完成所需的多步逻辑,并直接输出完整的预测结果集。
- 解耦推理 (Decoupled Reasoning):LLM的目标是生成一个全面的输出,但其过程是解耦的。模型生成部分思考,进行反思,然后继续,在单次推理中形成“生成-反思-生成”的循环,以实现更精细的多步推理。
- 滚动推理 (RollOut Reasoning):LLM增量式地生成预测,每一步产生结果的一部分。这个过程涉及多个迭代轮次,每个输出都作为下一个输出的上下文,使模型逐步构建最终的完整结果。
研究团队在多个公开的TSF基准数据集(如ETT, Exchange, Wind, AQ, NASDAQ, VitalDB)上对TimeReasoner进行了广泛评估,并与多种深度学习基线模型及其他基于LLM的方法进行了比较。评估指标采用MSE和MAE。
图3:TimeReasoner 与基线方法性能对比
1. 实验效果
研究团队在多个公开的TSF基准数据集(如ETT, Exchange, Wind, AQ, NASDAQ, VitalDB)上对TimeReasoner进行了广泛评估,并与多种深度学习基线模型及其他基于LLM的方法进行了比较。评估指标采用MSE和MAE。
2. 窗口大小影响
- 预测窗口:与其他方法类似,随着预测窗口长度的增加,TimeReasoner的预测误差(MSE)也随之上升,表明长期预测更具挑战性 。
- 回溯窗口:MSE与回溯窗口长度之间存在非单调关系。初始增加L有助于性能提升,但过长的历史信息可能引入噪声或不相关数据,反而降低性能。
图4:不同预测窗口和回溯窗口长度下的性能变化
3. 针对缺失值的鲁棒性评估
TimeReasoner在处理包含缺失值的原始输入时展现了一定的鲁棒性。实验对比了不同缺失值处理策略(不插补、None占位符插补、线性插补),结果表明使用线性插补填充缺失值时,模型仍能取得出色的预测结果。完全移除缺失条目则会导致显著性能下降,凸显了保留完整时序结构的重要性。
4. 混合指令关键组件分析
- 时间戳:移除时间戳会导致性能大幅下降,表明TimeReasoner严重依赖时间信息(包括绝对和相对时间戳)进行准确预测。
- 上下文信息:上下文信息(如领域知识)的效果具有领域依赖性。在某些数据集(如Wind)上能显著提升性能,但在其他数据集(如NASDAQ)上影响甚微。
- 归一化
:实验表明,TimeReasoner在未归一化的原始时间序列数据上表现更优,直接利用原始时序模式和内在数据特征可能更有利于模型推理。
图5:混合指令关键组件消融分析
5. 推理参数与策略
- 温度参数 (Temperature):模型性能与温度参数呈非线性关系,在适中的温度下达到最佳,过低或过高均会导致性能下降。
- 基础LLM选择:对比不同基础LLM(如DeepSeek-R1, GPT-ol mini等),DeepSeek-R1在本研究的实验中表现最佳。
- 推理策略对比
:One-Shot推理在各种预测窗口下均表现良好;RollOut推理在较短预测窗口(48, 96)上表现最佳;而随着预测窗口延长,Decoupled推理凭借其内部优化机制,在更长序列上展现出更高的稳定性和准确性。
图6:不同推理策略的预测结果比较
图7:(左):温度参数对预测效果的影响;(右):不同LLM基座下的预测表现6. 推理过程与案例分析
TimeReasoner的内部推理过程大致可分为三个阶段:数据分析与模式识别、预测策略评估、反思与上下文评估。此外,推理过程中使用的Token数量(代表推理深度)与预测性能(以MSE衡量)相关,更高的Token数通常对应更低的MSE。案例研究(如图8所示)清晰展示了LLM如何模仿人类专家进行“慢思考”推理,先分析数据模式,然后进行详细分析,确定使用模型,最终得到预测结果。
图8:TimeReasoner 推理过程案例分析
本研究通过TimeReasoner框架,深入探讨了“慢思考”大语言模型在时间序列预测中的推理能力。主要结论包括:
- TSF新范式:将时间序列预测重新表述为条件推理任务,利用LLMs进行结构化推理。
- 框架设计:提出了包含混合指令(原始序列、时间戳、上下文描述)和多种推理策略(One-Shot, Decoupled, RollOut)的TimeReasoner框架 。
- 零样本潜力:实验证明,LLMs具备强大的零样本预测性能,能够捕捉时序动态并生成可解释的推理路径。
- 行为洞察:系统分析了不同设置(窗口长度、缺失数据、Prompt组件、推理参数)对LLM预测行为的影响。
尽管是初步探索,这项研究为LLMs在时序领域的推理行为提供了重要洞见,强调了其潜力与局限性 。研究团队希望这项工作能催化更多关于基于推理的预测范式的研究,为更可解释和泛化的TSF框架铺平道路。
想要了解更多资讯,请扫描下方二维码,关注机器学习研究会
转自:数据派THU