A Survey of Reasoning and Agentic Systems in Time Series with Large Language Models

ArXiv URL: http://arxiv.org/abs/2509.11575v1
作者: Wen-Chih Peng; Tien-Fu Chen; Defu Cao; Haixin Wang; Jeehyun Hwang; Yan Liu; Yidan Shi; Ching Chang; Wei Yang; Wei Wang
发布机构: National Yang Ming Chiao Tung University; University of California; University of Southern California

引言

时间序列数据在金融、医疗、能源等领域无处不在，推动了监控、预测和决策等关键应用的发展。然而，许多新兴应用如个性化医疗、自适应风险管理等，要求模型不仅能预测，还能解释其输出、进行因果推理和决策。这突显了时间序列分析对结构化和可靠推理能力的迫切需求。

大型语言模型（LLMs）的出现是一个转折点。它们能够展现逐步推理、阐明因果假设，并与外部工具和环境交互。当被整合到智能体（Agent）系统中时，LLMs获得了规划、反思和持续适应的能力，将时间序列建模从静态预测转变为交互式和解释性的过程。

基于此，本文将时间序列推理（Time Series Reasoning, TSR）定义为：大型语言模型在处理带时间索引的数据时，显式执行结构化推理程序的一类方法，这些方法可能通过多模态上下文和智能体系统得到增强。本文的核心贡献在于：

提出首个系统性分类体系：围绕推理拓扑（执行结构）和主要目标（任务意图）两个互补的轴线构建，并辅以描述控制流、执行者、模态、知识访问和LLM对齐方案的属性标签。
提供综合性回顾：不仅分析了研究论文中的方法模式，还对数据集、基准、综述等辅助性工作进行了分类，展示了它们如何支持和塑造时间序列推理领域的发展。
明确开放性问题：重点指出了在评估、多模态融合、知识增强、长上下文推理、效率、智能体控制以及因果推断等方面的挑战，为该领域的下一阶段研究规划了蓝图。

论文分类体系概览

背景与分类体系

时间序列推理的定义

时间序列推理 (Time Series Reasoning, TSR) 指的是在处理带时间索引的数据时执行显式推理程序的方法。这些方法越来越多地由大型语言模型（LLMs）和多模态LLMs实现，它们能够清晰地表达推理轨迹、与外部工具交互，并作为自主智能体运行。

本文提出的分类体系包含三个互补的组成部分：

推理拓扑 (Reasoning Topology)：指定推理的执行结构。
主要目标 (Primary Objective)：阐明推理过程的主要意图。
属性标签 (Attribute Tags)：描述如控制流、执行者、模态和对齐等辅助属性。

其中，推理拓扑和主要目标是互斥的：每篇论文根据其核心结构和评估重点，被精确分配一个拓扑和一个目标。相比之下，属性标签是非互斥的，一篇论文可以同时拥有多个标签。

按论文类型划分的数量统计

推理拓扑

本文识别出三种互斥的推理拓扑，它们代表了从简单到复杂的推理复杂度谱系：直接推理、线性链式推理和分支结构推理。

推理拓扑图示

直接推理 (Direct Reasoning)

这是最简单的执行形式：单步推理或工具调用，没有任何中间推理轨迹。模型直接从输入跳到输出，例如直接生成预测或分类标签。这种方式效率最高，但可解释性、鲁棒性和处理复杂任务的能力有限，通常作为基线或在对透明度要求不高的场景中使用。

线性链式推理 (Linear Chain Reasoning)

通过引入一系列顺序排列的推理步骤来扩展直接推理。每一步都依赖于前一步的输出，形成一个逻辑进程（例如，分步预测）。这种结构使中间状态变得明确、可观察，从而提供了比直接推理更好的可解释性和模块化。然而，它仅限于单一路径，缺乏探索多重假设的灵活性。

分支结构推理 (Branch-Structured Reasoning)

在这种拓扑中，推理轨迹可以在单次执行中分支成多个路径。分支可能源于模型并行或顺序地探索不同的假设、计划或解释。这使得系统能够进行探索、自适应修正早期步骤、重用中间结果，甚至通过反馈循环或跨分支操作来整合信息。与线性链式推理相比，它更为灵活和强大，但也带来了控制分支增长、处理反馈循环等挑战。

主要目标

主要目标定义了推理过程的最终目的。本文将目标分为四大类，这为比较方法提供了另一个维度：不仅看它们“如何”推理，也看它们“为何”推理。

主要目标的详细分类

传统时间序列分析

涵盖直接建模时间动态的预测性和描述性任务，是时间序列推理的基础。

预测 (Forecasting)：将预测视为一个显式的推理过程，而不仅仅是数值外推。
分类 (Classification)：通过结构化提示或逐步推理将时间序列映射到语义类别。
异常检测 (Anomaly Detection)：利用推理来判断异常点，例如通过对比候选解释。
分割 (Segmentation)：结合统计线索与可解释规则来划分序列。
多任务 (Multiple Tasks)：统一的推理框架同时处理多个目标。

解释与理解

强调生成人类可解释的见解，而非原始预测。

时间序列问答 (Temporal Question Answering)：解析关于时间信号的问题，并提供基于证据的答案。
解释性诊断 (Explanatory Diagnostics)：连接观察到的结果与根本原因，生成诊断性叙述。
结构发现 (Structure Discovery)：生成并提炼描述时间序列依赖关系的解释性结构，如因果元组或符号规则。

因果推断与决策

关注于在时间环境中对干预及其结果进行推理。

自主策略学习 (Autonomous Policy Learning)：模型直接从时间状态中推导和执行动作策略。
辅助决策支持 (Advisory Decision Support)：系统提供有理有据的建议或“假设”分析，以协助人类决策者。

时间序列生成

关注直接创建或修改时间数据。

条件化合成 (Conditioned Synthesis)：将提示或规范映射为时间动态，确保合成序列遵循预期的模式。

属性标签

属性标签是用于捕获额外属性的轻量级、非互斥描述符，分为四类。

控制流操作符

描述推理过程在步骤间的组织方式。

任务分解 (Task Decomposition)：显式地将问题分解为子问题或子计划。
验证与批判 (Verification and Critique)：存在一个明确的步骤来评估候选输出或中间推理。
集成选择 (Ensemble Selection)：显式比较多个候选推理轨迹或预测，并根据规则（如投票、排序）选择最终结果。

控制流操作符图示

执行智能体

指明在执行过程中负责执行推理步骤的实体。

工具使用 (Tool Use)：模型在推理过程中调用外部资源，如搜索引擎或求解器。
智能体 (Agents)：这是一个分类标签，记录推理时是否存在自主智能体（0=无，1=单个，M=多个协作）。

执行智能体图示

信息源

捕获超出原始时间序列本身的输入。

多模态输入 (Multimodal Inputs)：将时间序列与其他模态（如自然语言、图像）结合。
知识访问 (Knowledge Access)：通过检索模块、搜索引擎或数据库等方式整合外部信息。

信息源图示

LLM对齐机制

指定LLM如何被训练或调整以在时间序列任务上执行推理。这是一个分类标签，包含四种机制：

提示 (Prompting)：使用冻结模型，通过指令或少量示例进行引导。
监督微调 (Supervised fine-tuning)：在有标签的时间序列推理任务上训练模型。
强化或偏好对齐 (Reinforcement or preference alignment)：使用基于反馈的目标（如RLHF）来调整模型。
混合方法 (Hybrid approaches)：结合监督微调和强化/偏好对齐。

直接推理

直接推理是分类体系中最基本的推理拓扑。在此设置中，模型在单一步骤内将时间序列输入直接映射到输出，而不生成或暴露任何中间推理轨迹。这种方法虽然简单高效，但在可解释性和处理复杂任务方面能力有限。尽管如此，它在近期工作中仍被广泛采用，尤其是在直接的预测、异常检测或描述性问答任务中。

以下是直接推理方法按其主要目标的组织：

传统时间序列分析
- 预测:
  - LLMTIME [Gruver et al. (2023)], CiK [Williams et al. (2025)], DP-GPT4MTS [Liu et al. (2025a)], TEMPO [Cao et al. (2024a)], NNCL-TLLM [Bogahawatte et al. (2024)], CMLLM [Zhu et al. (2025)], Hybrid-MMF [Kim et al. (2024)], Tang et al. (2025)
- 分类:
  - HiTime [Tao et al. (2024)], HeLM [Belyaeva et al. (2023)], FinSrag [Xiao et al. (2025a)]
- 异常检测:
  - Zhou & Yu (2025)
- 分割:
  - MedTsLLM [Chan et al. (2024)]
- 多任务:
  - ChatTime [Wang et al. (2025a)]
解释与理解
- 时间序列问答:
  - Chat-TS [Quinlan et al. (2025)], ChatTS [Xie et al. (2025)], ITFormer [wang et al. (2025)], Time-MQA [Kong et al. (2025a)]
- 解释性诊断:
  - GEM [Lan et al. (2025)], Time-RA [Yang et al. (2025b)], Momentor [Qian et al. (2024)]
- 结构发现:
  - RealTCD [Li et al. (2024b)]
因果推断与决策
- 自主策略学习:
  - GG-LLM [Graule & Isler (2024)]

传统时间序列分析与直接推理

在这类任务中，模型充当一个单步映射器，将时间输入（可带有附加上下文）转换为预测、类别标签或异常区间等输出。

预测

LLMTIME: 将预测问题重构为对文本化数字的下一Token生成。
CiK: 在一个上下辅助的基准上评估直接提示，以结构化形式一次性输出概率预测。
TEMPO: 将趋势、季节性和残差分解，用特定提示预测各分量，最后相加得到预测结果。
NNCL-TLLM: 通过最近邻选择学习到的提示，输入到部分调整的LLM中生成预测。

异常检测

Zhou & Yu (2025): 提示LLM从文本化序列或绘图图像中一步返回异常区间，发现图像输入通常优于文本输入。

分割

MedTsLLM (2024): 将上下文文本和信号片段（如ECG）连接到冻结的LLM中，通过线性投影输出嵌入来生成分割掩码或边界点。

解释与理解与直接推理

这类方法的主要产物是自然语言答案、基本原理或因果解释，它们都是通过单步推理从时间序列中派生出来的。

时间序列问答

Chat-TS: 扩展LLM词汇表以包含离散的时间序列Tokens，并在多模态指令数据集上训练，以实现混合时间序列-文本的直接问答。
ChatTS: 开发了一个多模态LLM，通过合成QA生成和分阶段微调来整合时间序列和文本，支持对趋势、季节性、异常和因果查询进行单步解释性推理。

解释性诊断

GEM: 对齐ECG波形、图像和文本，通过微调LLM，可以生成带有临床医生风格解释的诊断报告。
Time-RA: 引入了一个以推理为中心的大型多模态异常检测数据集RATs40K，模型可在单次传递中生成“观察-思考-行动”式的基本原理。

因果推断与决策与直接推理

自主策略学习

GG-LLM: 提出了一个面向人类感知的机器人任务规划框架，其中一个冻结的LLM在一次提示后对候选交互进行评分，下游规划器使用这些分数来引导机器人，从而减少对人类的干扰。

直接推理中的属性标签

控制流操作符: 任务分解、验证和集成选择在直接推理中很少被采用。
执行智能体: 工具使用几乎不存在，且所有流程都以非智能体方式运行。
信息源: 多模态输入相当普遍，例如将时间序列与文本、图像或视频结合。知识访问则几乎不存在。
LLM对齐机制: 仅提示和监督微调都被广泛采用。没有出现仅强化学习或混合对齐的机制。

线性链式推理

线性链式推理表示执行过程遵循一个单一、有序的步骤序列，并且在轨迹中没有分支。模型可以显式分解任务、调用一次工具或检索，并可选地执行一次性的验证，但它不会维护多个并发的假设或进行“批判-修正”的迭代循环。这种拓扑结构在保留直接推理大部分简单性的同时，增加了一些温和的结构，可以改善基础和数值稳定性，同时仍然避免了分支结构系统的延迟和复杂性。

以下是线性链式方法按其主要目标的组织：

传统时间序列分析
- 预测:
  - TimeReasoner [Wang et al. (2025c)], RAF [Tire et al. (2024)], TimeRAG [Yang et al. (2024)], Time-R1 [Luo et al. (2025)], Yu et al. (2023)
- 分类:
  - TableTime [Wang et al. (2025d)], VL-Time [Liu et al. (2025c)], ZARA [Li et al. (2025e)], TimeMaster [Zhang et al. (2025b)], Chow et al. (2024), REALM [Zhu et al. (2024)]
- 异常检测:
  - VLM4TS [He et al. (2025)], LLMAD [Liu et al. (2025e)], Dong et al. (2024), SIGLLM [Alnegheimish et al. (2024)], SLEP [Wang et al. (2026)], LEMAD [Ji et al. (2025)]
- 多任务:
  - LTM [Hao et al. (2025)], Ravuru et al. (2024)
解释与理解
- 时间序列问答:
  - Tan et al. (2025), TG-LLM [Xiong et al. (2024)]
- 解释性诊断:
  - TempoGPT [Zhang et al. (2025a)], TSLM [Trabelsi et al. (2025)], Xu et al. (2025a)
因果推断与决策
- 自主策略学习:
  - FinAgent [Zhang et al. (2024a)], FINMEM [Li et al. (2024a)], Open-TI [Da et al. (2024)]
- 辅助决策支持:
  - SocioDojo [Cheng & Chin (2024)]
时间序列生成
- 条件化合成:
  - GenG [Zhou et al. (2024)], Joshi (2025)

传统时间序列分析与线性链式推理

在线性链式推理下进行传统的时间序列分析，通常会实现一个脚本化的序列，如“分析 → (检索) → 预测”或“检测 → 验证 → 决策”，同时保持单一路径执行。

预测

TimeReasoner: 将时间序列预测视为一个深思熟虑的推理过程，使用结构化提示让LLMs在生成预测之前先分析模式，这是一个固定的线性序列。
RAF: 引入一个检索增强框架，为数据集构建特定数据库，检索最相关的时间片段，并将其整合到预测过程中。
TimeRAG: 提出一种基于检索的方法，将时间序列切片成代表性片段，检索相似历史，并将其重编程为自然语言提示，供冻结的LLM使用。