A Comprehensive Survey on World Models for Embodied AI


面向具身智能的世界模型综合综述

核心概念与数学基础

核心概念

世界模型(World Models)作为环境动态的内部模拟器,其功能建立在三个核心支柱之上:

数学形式化

本文将智能体与环境的交互形式化为一个部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)。在每个时间步 \(t\),智能体接收观测 \(o_t\) 并执行动作 \(a_t\),而真实状态 \(s_t\) 保持不可见。世界模型通过一步滤波后验(one-step filtering posterior)推断出一个学习到的隐状态 \(z_t\),该后验假设前一时刻的隐状态 \(z_{t-1}\) 已经总结了所有相关的历史信息。最后,使用 \(z_t\) 来重构当前的观测 \(o_t\)。

模型的关键组件定义如下:

\[\begin{array}{ll} \text{Dynamics Prior:}&p_{\theta}(z_{t}\mid z_{t-1},a_{t-1})\\ \text{Filtered Posterior:}&q_{\phi}(z_{t}\mid z_{t-1},a_{t-1},o_{t})\\ \text{Reconstruction:}&p_{\theta}(o_{t}\mid z_{t}) \end{array}\]

基于马尔可夫假设,观测和隐状态的联合分布可以分解为:

\[p_{\theta}(o_{1:T},z_{0:T}\mid a_{0:T-1}) = p_{\theta}(z_{0})\prod_{t=1}^{T}p_{\theta}(z_{t}\mid z_{t-1},a_{t-1})p_{\theta}(o_{t}\mid z_{t})\]

由于真实后验分布难以计算,本文引入一个时序分解的变分分布 \(q_φ\) 来近似:

\[q_{\phi}(z_{0:T}\mid o_{1:T},a_{0:T-1})=q_{\phi}(z_{0}\mid o_{1})\prod_{t=1}^{T}q_{\phi}(z_{t}\mid z_{t-1},a_{t-1},o_{t})\]

模型的学习目标是最大化观测的对数似然,这通过优化其证据下界(Evidence Lower Bound, ELBO)来实现:

\[\mathcal{L}(\theta, \phi)=\sum_{t=1}^{T}\mathbb{E}_{q_{\phi}(z_{t})}\!\big[\log p_{\theta}(o_{t}\mid z_{t})\big] -D_{\mathrm{KL}}\!\big(q_{\phi}(z_{0:T}\mid o_{1:T},a_{0:T-1})\,\ \mid \,p_{\theta}(z_{0:T}\mid a_{0:T-1})\big)\]

这个目标函数分解为两部分:第一项是重构目标,鼓励模型忠实地预测观测;第二项是KL散度正则化,旨在使滤波后验分布 \(q_φ\) 与动态先验分布 \(p_θ\) 保持一致。现代世界模型普遍采用这种“重构-正则化”的训练范式。

世界模型的三轴分类体系

本文沿着三个核心维度对世界模型进行分类,为后续分析奠定基础。

论文结构图

1. 功能决策耦合 (Decision Coupling):区分决策耦合 (Decision-Coupled)通用目的 (General-Purpose) 模型。 * 决策耦合模型是任务特定的,其学习的动态模型是为了优化某个特定的决策任务。 * 通用目的模型是任务无关的模拟器,专注于广泛的预测能力,从而能泛化到各种下游应用。

2. 时间推理 (Temporal Reasoning):描述了两种不同的预测范式。 * 序贯模拟与推断 (Sequential Simulation and Inference) 以自回归的方式对动态进行建模,一步一步地展开未来状态。 * 全局差异预测 (Global Difference Prediction) 直接并行地估计整个未来状态,效率更高,但可能牺牲时间上的一致性。

3. 空间表征 (Spatial Representation):包含当前研究中用于建模空间状态的四种主要策略。 * 全局隐向量 (Global Latent Vector):将复杂的世界状态编码为紧凑的向量,适用于物理设备上的高效实时计算。 * Token特征序列 (Token Feature Sequence):将世界状态建模为Token序列,专注于捕捉Token之间复杂的空间、时间及跨模态依赖关系。 * 空间隐式网格 (Spatial Latent Grid):通过利用鸟瞰图(Bird’s-Eye View, BEV)或体素网格等几何先验,将空间归纳偏置融入世界模型。 * 解构式渲染表征 (Decomposed Rendering Representation):将3D场景分解为一组可学习的图元(如3D高斯溅射或神经辐射场),并通过可微分渲染实现高保真度的新视角合成。

下表应用此分类体系对代表性工作进行了梳理。

表 I:机器人领域代表性世界模型方法分类

方法 功能 时间 空间 核心技术 数据平台数 物理机器人
Ha and Schmidhuber [9] DC SSI GLV MDN-RNN 1  
PlaNet [38] DC SSI GLV RSSM 6  
Dreamer [10] DC SSI GLV RSSM 6  
DreamerV2 [11] DC SSI GLV RSSM 8  
DreamerV3 [12] DC SSI GLV RSSM 22
GLAMOR [39] DC GD GLV Transformer 2  
Iso-Dream [40] DC SSI GLV RSSM 6  
MWM [41] DC SSI TFS RSSM / MAE 6  
Inner Monologue [42] DC SSI TFS LLM 2  
DayDreamer [43] DC SSI GLV RSSM 18
IRIS [44] DC SSI TFS Transformer 7  
RoboAgent [45] GP SSI TFS VQ-VAE / Transformer 14  
Statler [46] GP SSI TFS LLM 4  
T-Dreamer [47] DC SSI GLV Transformer 6  
DWL [48] DC SSI GLV RNN 2
GAIA-1 [49] GP SSI TFS Transformer 4  
V-JEPA 2 [14] GP GD SLG ViT / M-JEPA / D-JEPA 2  
Drive-WM [50] GP SSI TFS Transformer 1  
SIMA [51] DC SSI TFS Transformer 9
PreLAR [52] DC SSI GLV MAE-ViT 2
ManiGaussian [53] DC GD DRR 3DGS 1
ECoT [54] DC SSI TFS Foundation Models / LLM 2
Genie [55] GP SSI TFS ST-Transformer 23  
Sora [13] GP GD TFS Diffusion Transformer    
Drive-Sora [56] GP SSI TFS DiT-Sora 1  
GLAM [57] DC GD GLV Mamba 3  
NavCoT [58] GP SSI TFS LLM 2  
MineWorld [59] DC GD TFS VQ-GAN / Transformer 1  
DreMa [60] DC SSI DRR 3DGS 3
V-JEPA [61] GP GD GLV ViT / I-JEPA 1  
UniSim [62] GP SSI SLG Q-Transformer 16  
GAMM [63] DC SSI DRR SDF / D-NeRF 2
WorldVLA [64] DC SSI TFS Foundation Models  
NWM [66] GP SSI TFS cDiT 3  
STEVE-2 [68] DC SSI TFS VQ-GAN / Transformer 1
Dyn-O [69] DC SSI TFS Mamba 2  
DINO-WM [70] DC SSI SLG ViT-DINOv2 3
LaVi-Bridge [72] DC SSI TFS LLM / LLaVA 1
GAF [74] DC GD DRR 3DGS 1
WONDER [76] DC SSI TFS VQ-GAN / Transformer 4
Control-Sora [77] GP SSI TFS DiT-Sora 2  
MineDreamer [79] DC SSI TFS LLM / Diffusion 1  
ManiGaussian++ [80] DC GD DRR 3DGS 3

表 II:自动驾驶领域代表性世界模型方法分类

方法 功能 时间 空间 核心技术 数据平台数
MILE [81] DC SSI GLV RSSM 2
GAIA-1 [49] GP SSI TFS Transformer 4
SEM2 [83] DC SSI GLV RSSM-SA 2
UniAD [84] DC SSI SLG Transformer 1
Occ-AD [85] GP SSI SLG Transformer 3
VAD [86] GP SSI TFS DiT 2
DriveWorld [87] GP SSI SLG RSSM / ViT 1
RoboAgent [45] GP SSI TFS VQ-VAE / Transformer 14
DrivingGPT [23] DC SSI TFS LLaMA 1
DriveDreamer [91] GP SSI SLG GRU 1
GenAD [92] GP SSI SLG GRU 1
OccWorld [93] GP SSI SLG Transformer 1
AD-ADAPTER [95] DC SSI TFS LLM/VLM 1
DTT [98] GP SSI DRR Transformer 1
Panacea [100] DC SSI SLG ViT / Transformer 1
FSDrive [101] DC SSI TFS DiT / LLM 1
MuKEA [103] DC SSI SLG ViT / GNN 3
Think-and-Drive [104] DC SSI TFS Foundation Models 1
World-in-the-loop [105] DC SSI SLG ViT-BEV 1
WoTE [107] DC SSI SLG RSSM-BEV 1
MagicDrive [108] GP GD SLG cDiT 1
OccLLaMA [18] GP SSI SLG LLaMA 1
Drive-Sora [56] GP SSI TFS DiT-Sora 1

全局隐向量表征 (Global Latent Vector Representation)

早期的决策耦合世界模型将序贯推理与全局隐状态相结合,主要使用循环神经网络(Recurrent Neural Networks, RNNs)来实现高效的实时和长时程预测。

Token特征序列表征 (Token Feature Sequence Representation)

该范式专注于对离散化的Token之间的依赖关系进行建模,支持因果推理、多模态融合及复用大语言模型(Large Language Model, LLM)的能力。

空间隐式网格表征 (Spatial Latent Grid Representation)

该范式通过在与几何对齐的网格上编码特征或引入显式空间先验,保留了局部性,支持高效的卷积或注意力更新。

解构式渲染表征 (Decomposed Rendering Representation)

该范式使用可渲染的显式图元(如NeRFs和3D高斯溅射)来表示场景,并通过更新这些图元来模拟动态并渲染未来观测。它能提供视角一致的预测和物体级别的组合性。

未来方向与开放挑战

根据本文摘要的提炼,世界模型领域面临以下关键挑战和未来研究方向:

总结

本文对面向具身智能的世界模型进行了全面综述。通过提出一个包含功能决策耦合、时间推理和空间表征的三轴分类体系,本文系统地梳理了现有方法。该分类法不仅澄清了不同研究分支间的术语和目标差异,还为理解各方法的创新点和适用场景提供了统一的视角。从早期的基于循环网络的全局隐向量模型,到当前融合了大模型、扩散模型和显式3D表征的复杂系统,世界模型在模拟真实世界动态方面取得了显著进展。尽管如此,领域仍面临统一基准、计算效率和长时程一致性等关键挑战,这些挑战将是未来研究的核心方向。