想要了解更多资讯，请扫描下方二维码，关注机器学习研究会图片转自：新智元

在时间序列预测 (Time Series Forecasting, TSF) 这一重要领域，传统方法往往侧重于模式提取和直接数值映射，而可能忽略了对时序动态和上下文依赖的显式推理过程。近期，中国科学技术大学的研究团队通过一项名为 TimeReasoner 的广泛实证研究，探索了新兴的“慢思考”大语言模型（LLMs）在时间序列预测任务中的推理能力，尤其是在零样本（zero-shot）场景下的潜力。这项研究为理解和利用LLMs进行结构化时序推理开辟了新视角。

【论文标题】
Can Slow-thinking LLMs Reason Over Time? Empirical Studies in Time Series Forecasting

【论文地址】
https://arxiv.org/abs/2505.24511

【代码仓库】
https://github.com/realwangjiahao/TimeReasoner

研究动机

时间序列预测（TSF）是金融、能源、医疗等众多领域的基石性任务，其核心目标是基于历史观测和辅助信息预测目标变量的未来轨迹。尽管现有方法（从经典统计模型到现代深度学习）已取得显著成效，但它们大多遵循“快思考”范式，即通过单步推断直接映射输入到输出，缺乏中间的、显式的推理步骤。

与此同时，具备多步推理能力的“慢思考”大语言模型（如ChatGPT-01, DeepSeek-R1）在不同领域展示了令人印象深刻的性能。这启发了一个关键问题：“慢思考”大语言模型能否有效地对时间模式进行推理，以支持时间序列预测，即便是在零样本的情况下？ 为此，研究团队提出了TimeReasoner，将TSF重新表述为一个条件推理任务，系统性地探究LLMs在时序数据中的推理行为。

模型方法

TimeReasoner 将时间序列预测构建为一个条件推理问题，其中LLM通过解释结构化的自然语言提示来生成预测。其核心框架（如图2所示）包含以下关键组成部分：

1. 混合指令 (Hybrid Instructions)

为了支持有效的时序推理，TimeReasoner 采用多模态提示，结合了：

原始尺度时间序列 (Raw time series in original space)：直接使用未经归一化的原始数据，保留数值的真实幅度和波动信息，便于模型理解绝对值和真实世界变化。
时间戳特征 (Timestamp feature)：引入原始时间戳，使模型能够识别绝对时间位置（如特定日期或小时）和相对模式（如周期性或时间间隔），这对于时序推理至关重要。
上下文特征描述 (Contextual feature descriptions)：提供自然语言描述的上下文信息，如领域知识和通道特定语义，帮助LLM将数值数据与现实世界含义对齐，增强任务相关性和可解释性。

2. 推理策略 (Reasoning Strategies)

TimeReasoner 探索了三种不同的推理范式，以评估“慢思考”LLMs的能力：

单次推理 (One-Shot Reasoning)：LLM对给定输入执行一次全面的推理过程，内部完成所需的多步逻辑，并直接输出完整的预测结果集。
解耦推理 (Decoupled Reasoning)：LLM的目标是生成一个全面的输出，但其过程是解耦的。模型生成部分思考，进行反思，然后继续，在单次推理中形成“生成-反思-生成”的循环，以实现更精细的多步推理。
滚动推理 (RollOut Reasoning)：LLM增量式地生成预测，每一步产生结果的一部分。这个过程涉及多个迭代轮次，每个输出都作为下一个输出的上下文，使模型逐步构建最终的完整结果。

实验分析

研究团队在多个公开的TSF基准数据集（如ETT, Exchange, Wind, AQ, NASDAQ, VitalDB）上对TimeReasoner进行了广泛评估，并与多种深度学习基线模型及其他基于LLM的方法进行了比较。评估指标采用MSE和MAE。

1. 实验效果

2. 窗口大小影响

预测窗口：与其他方法类似，随着预测窗口长度的增加，TimeReasoner的预测误差（MSE）也随之上升，表明长期预测更具挑战性。
回溯窗口：MSE与回溯窗口长度之间存在非单调关系。初始增加L有助于性能提升，但过长的历史信息可能引入噪声或不相关数据，反而降低性能。

3. 针对缺失值的鲁棒性评估

TimeReasoner在处理包含缺失值的原始输入时展现了一定的鲁棒性。实验对比了不同缺失值处理策略（不插补、None占位符插补、线性插补），结果表明使用线性插补填充缺失值时，模型仍能取得出色的预测结果。完全移除缺失条目则会导致显著性能下降，凸显了保留完整时序结构的重要性。

4. 混合指令关键组件分析

时间戳：移除时间戳会导致性能大幅下降，表明TimeReasoner严重依赖时间信息（包括绝对和相对时间戳）进行准确预测。
上下文信息：上下文信息（如领域知识）的效果具有领域依赖性。在某些数据集（如Wind）上能显著提升性能，但在其他数据集（如NASDAQ）上影响甚微。
归一化 ：实验表明，TimeReasoner在未归一化的原始时间序列数据上表现更优，直接利用原始时序模式和内在数据特征可能更有利于模型推理。

5. 推理参数与策略

温度参数 (Temperature)：模型性能与温度参数呈非线性关系，在适中的温度下达到最佳，过低或过高均会导致性能下降。
基础LLM选择：对比不同基础LLM（如DeepSeek-R1, GPT-ol mini等），DeepSeek-R1在本研究的实验中表现最佳。
推理策略对比 ：One-Shot推理在各种预测窗口下均表现良好；RollOut推理在较短预测窗口（48, 96）上表现最佳；而随着预测窗口延长，Decoupled推理凭借其内部优化机制，在更长序列上展现出更高的稳定性和准确性。

6. 推理过程与案例分析

TimeReasoner的内部推理过程大致可分为三个阶段：数据分析与模式识别、预测策略评估、反思与上下文评估。此外，推理过程中使用的Token数量（代表推理深度）与预测性能（以MSE衡量）相关，更高的Token数通常对应更低的MSE。案例研究（如图8所示）清晰展示了LLM如何模仿人类专家进行“慢思考”推理，先分析数据模式，然后进行详细分析，确定使用模型，最终得到预测结果。

总结

本研究通过TimeReasoner框架，深入探讨了“慢思考”大语言模型在时间序列预测中的推理能力。主要结论包括：

TSF新范式：将时间序列预测重新表述为条件推理任务，利用LLMs进行结构化推理。
框架设计：提出了包含混合指令（原始序列、时间戳、上下文描述）和多种推理策略（One-Shot, Decoupled, RollOut）的TimeReasoner框架。
零样本潜力：实验证明，LLMs具备强大的零样本预测性能，能够捕捉时序动态并生成可解释的推理路径。
行为洞察：系统分析了不同设置（窗口长度、缺失数据、Prompt组件、推理参数）对LLM预测行为的影响。

尽管是初步探索，这项研究为LLMs在时序领域的推理行为提供了重要洞见，强调了其潜力与局限性。研究团队希望这项工作能催化更多关于基于推理的预测范式的研究，为更可解释和泛化的TSF框架铺平道路。

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：数据派THU