Aligning Perception, Reasoning, Modeling and Interaction: A Survey on Physical AI
-
ArXiv URL: http://arxiv.org/abs/2510.04978v1
-
作者: Hanhui Li; Yinya Huang; Youpeng Wen; Xiaodan Liang; Zirong Liu; Ruizhe Zhou; Jianhua Han; Kun Xiang; Hang Xu; Xiuwei Chen; 等12人
-
发布机构: Beijing International Center for Mathematical Research; ETH Zurich; Peking University; Peng Cheng Laboratory; Shanghai Jiao Tong University; Sun Yat-sen University; The Chinese University of Hong Kong; Yinwang Intelligent Technology Co., Ltd.
引言
教给AI理解物理世界是现代AI研究中最根本的挑战之一。尽管人类自幼就能直观地预测物体动态并理解复杂的物理交互,但目前的AI模型在掌握幼儿轻松掌握的基础物理推理方面仍然存在困难。随着AI系统被部署到自动驾驶、机器人操控等真实世界场景中,这种能力差距变得越来越关键。
最近的大规模基准测试,如用于符号推理的SeePhys、用于直观物理感知的PHYRE以及用于真实动态预测的PhyBlock,一致表明当前模型缺乏对物理定律的结构化理解。一个在数百万张图片上训练的视觉模型可能在物体识别上达到超人水平,却无法预测弹跳球的轨迹或积木堆的稳定性,这揭示了一个根本问题:当代AI模型主要学习数据中的统计相关性,而非建立植根于物理原则的因果理解。

为了应对这一挑战,研究界在多个互补方向上探索了具备物理意识的推理模型。从模型架构角度,图神经网络(Graph Neural Networks, GNNs)因其模拟关系结构和捕捉物体间成对物理交互的能力而显示出巨大潜力。同时,基于扩散的模型和Transformer架构也开始融入物理意识机制。从训练范式角度,研究者开发了包含物理约束的损失函数、逐步引入物理复杂性的课程学习策略以及物理信息的强化学习奖励结构。在方法论层面,近期的方法探索了整合显式物理规则和符号推理、以及可微物理引擎。特别是,利用大型语言模型(Large Language Models, LLMs)和多模态大型语言模型(Multimodal Large Language Models, MLLMs)的路径展现了巨大潜力。
本文提出了一个全面的三层分类体系,系统地捕捉了当前物理AI系统的推理能力和下游应用。本文将当代研究分为四种基本能力:物理感知(从物理现象观测中得出结论)、符号物理推理(利用符号表示和数学方法解决理论物理问题)、物理世界建模(在模拟物理世界的虚拟环境中建模和预测动态)以及物理交互(在物理环境中导航和操纵真实物体)。
范围、背景与分类体系
范围
本文关注前沿的AI系统如何在深度学习时代处理物理学和物理推理问题。对于物理推理,本文特别关注AI系统如何利用物理定律以端到端的方式解决物理问题,这与物理学如何启发AI发展是相对的。本文不讨论物理学如何启发机器学习方法(如玻尔兹曼机和霍普菲尔德网络),也不广泛讨论机器学习如何促进物理学研究,后者是AI for Science的一个广阔领域。
背景知识
大型语言模型 (LLMs) 是在海量文本语料库上训练的神经网络,通过预测序列中的下一个token来生成连贯的文本。LLMs使用Transformer架构,通过自注意力机制捕捉长程依赖:$\text{Attention}(Q,K,V)=\text{softmax}(\frac{QK^{T}}{\sqrt{d_{k}}})V$。LLMs学习的是 token $x_i \in \mathcal{V}$ 的联合概率分布:
\[p_{\theta}(x)=\prod_{i=1}^{n}p_{\theta}(x_{i} \mid x_{<i})\]多模态大型语言模型 (MLLMs) 将LLMs扩展到处理和推理多种模态(如图像、音频、视频)。MLLMs通过将视觉输入 $v$ 编码到语言模型的表示空间来实现这一点:
\[p_{\theta}(x,v)=p_{\theta}(x \mid f_{\phi}(v))\cdot p(v)\]其中 $f_{\phi}:\mathcal{I}\rightarrow\mathbb{R}^{d}$ 是编码器。LLMs和MLLMs都通过最小化负对数似然 $\mathcal{L}=-\sum_{i}\log P(x_{i} \mid x_{<i})$ 进行优化。
图像与视频生成模型 通过学习自然视觉内容的复杂分布来合成逼真的图像和视频。统一的公式为:
\[p_{\theta}(x_{0:T} \mid c)=\prod_{t=0}^{T}p_{\theta}(x_{t} \mid x_{<t},c)\]其中 $x_t$ 是时间 $t$ 的视觉帧,$c$ 是条件信号(如文本)。
3D重建模型 从2D观测(如图像)中恢复三维结构和外观。形式化表示为:$\mathcal{M}_{\theta}:{\mathcal{I}_{i},\mathcal{K}_{i}}_{i=1}^{N}\rightarrow(\mathcal{G},\mathcal{A})$,其中 $\mathcal{I}_i$ 是输入图像,$\mathcal{K}_i$ 是相机参数,输出几何 $\mathcal{G}$ 和外观 $\mathcal{A}$。
视觉-语言-动作 (VLA) 模型 是具身AI系统,将视觉观察和语言指令直接映射到用于物理操作的连续控制动作:$a_{t}=\pi_{\theta}(I_{t},l,h_{t})$。
视觉-语言导航 (VLN) 模型 使智能体能够根据指令在环境中导航,通常涉及从预定义动作集中选择离散动作:$a_{t}=\arg\max_{a\in\mathcal{A}_{nav}}\pi_{\theta}(o_{t},l_{inst},m_{t})$。
数学推理 是科学探究的基础,AI在数学推理方面的进展已开始影响物理推理研究。随着LLMs的发展,该领域经历了范式转变。
- 思维链 (Chain-of-Thought, CoT) 通过鼓励模型在给出最终答案前生成中间推理步骤,显著提升了模型在逻辑推理任务上的性能。
- 监督微调 (Supervised Fine-tuning, SFT) 通过在带标签的输入输出对上进行优化,使预训练模型适应特定任务。SFT与知识蒸馏结合,可以让强大的教师模型生成高质量的训练数据,以提升学生模型的推理能力。
- 强化学习 (Reinforcement Learning) 近期工作将强化学习融入推理过程,并采用结构化输出格式,明确区分内部推理轨迹和最终答案,提升了输出的可解释性和可靠性。过程奖励模型(Process Reward Models, PRMs)为每个推理步骤提供细粒度监督,提高了思维链的忠实度和连贯性。
- 工具使用 最近的研究探索使用外部工具(如知识库检索、图像预处理操作)来提供事实或逻辑的验证信号,扩展了LLM的功能边界。
物理AI分类体系
为了系统地理解AI系统如何与物理学互动,本文提出了一个反映从抽象推理到具身行动自然发展过程的层次化分类体系。该框架将具有物理意识的AI能力组织成四个相互关联的领域,这些领域反映了人类在物理理解方面的认知发展。
- 物理感知 (Physical Perception):通过日益复杂的层次从感官数据中直观地提取物理属性的能力,包括物体识别、空间关系和内蕴属性。
- 符号物理推理 (Symbolic Physics Reasoning):代表符号操作和理论问题解决,AI系统在此利用数学表示法来解决从教科书习题到研究级别挑战的物理问题。
- 物理世界建模 (Physical World Modeling):AI系统将符号知识与感知理解相结合,构建物理环境的预测模型,实现从视频生成到三维重建等能力。
- 物理交互 (Physical Interaction):将上述认知能力植根于现实世界的行动中,机器人、自动驾驶汽车和导航智能体必须将理论理解与物理操作的不可逆后果相协调。
这个分类体系不仅描绘了当前的研究边界,也揭示了符号推理和具身体验仍然脱节的关键空白,为实现真正具有物理意识的人工智能指明了道路。
物理感知 (Physical Perception)
理解物理世界始于感知。在AI系统能够推理抽象物理定律或在复杂环境中操作物体之前,它们必须首先获得从感官输入中感知、理解和推断物理属性的基本能力。本文将这种能力称为物理感知,它是物理智能的基础层,将来自摄像头、传感器等模态的原始感官数据转化为物理世界的结构化表示。本节将现有研究按认知负荷递增的顺序分为五个层次:物体识别、空间感知、内蕴属性、动态估计以及因果与反事实推理。
物体识别
视觉物理感知最基本的方面是识别物体并确定其在场景中的空间关系。CNN的发展使得目标检测和物体分类问题得以解决。GPT-4V标志着MLLMs在各种视觉环境中展示出强大的零样本物体检测和定位能力。开源模型也表明,高质量的标注数据可以帮助智能体在多个粒度级别上识别物体。对于更复杂的场景级识别任务,MLLMs需要将单个物体检测融合成对环境的连贯理解。
空间感知
除了物体识别,AI系统还必须理解空间关系以构建连贯的场景表示,包括绝对定位和相对定位。最近的基准测试(如VSR、SpatialBench)显示,不同的MLLM在该能力上表现各异。模型通常在基本的2D空间关系(上、下、左、右)上表现良好,但在3D空间推理、像素级定位和尺度关系等更复杂的空间概念上存在困难。这些限制通常源于其训练数据和架构的性质,因为大多数大规模数据集缺乏对复杂空间推理的详细标注。
内蕴属性
从视觉中理解物理世界不仅需要识别物体,还需要根据其属性推断其固有的性质和动态行为。内蕴属性,如质量、粘度和刚性,是物体固有的特征。仅从视觉观察中估计这些属性对AI来说极具挑战性,因为它需要将视觉特征映射到可能无法直接观察到的物理属性上。
最近的研究旨在实现对材料(金属、织物)和更精细纹理的可靠识别,以及透明度和半透明度等光学特性的识别。然而,在模糊情况、新材料和多变光照下,前沿模型的表现仍具挑战性。对于质量和重量估计,模型主要依赖尺寸线索和材料-密度关联,在相对重量预测上表现优于绝对预测。在刚性和可变形性方面,MLLM可以分类刚性和柔性物体,但其判断在复杂环境中仍然是启发式且脆弱的。
动态估计
内蕴属性是理解物体如何根据物理定律运动的基础。在此静态视角之上,动态属性感知捕捉了物体如何通过接触、约束和力(如支撑、遮挡、摩擦和冲击)随时间行为和互动。GNNs等图方法在这一领域至关重要,如交互网络(Interaction Networks)、视觉交互网络(Visual Interaction Networks)等模型展示了如何通过捕捉物体关系来从视觉输入中预测物理动态。像I-PHYRE和DeepPHY这样的基准测试进一步挑战智能体的直观物理推理和多步规划能力,强调了从静态属性感知到动态关系感知的转变对于AI发展类人物理理解的重要性。
因果与反事实推理
因果与反事实推理是物理推理的最复杂层次,它专注于阐明支配观测现象的潜在机制,并能对假设性的“如果…会怎样”场景进行推理。它不仅描述事件序列,更回答事件为何发生以及改变潜在条件将如何影响结果等根本问题。
该领域的方法包括因果图建模、基于干预的学习框架以及将神经网络与物理引擎或符号系统相结合的混合架构(如PhysORD)。评估这些方法依赖于一系列物理推理基准,如Causal3D、CLEVRER-Humans和PhySense。通过捕捉潜在的因果结构,这一层级提供了可解释、可泛化和基于机制的推理能力,代表了视觉物理理解的顶峰。
符号物理推理 (Symbolic Physics Reasoning)
作为建立在感知基础之上的更高阶认知能力,符号物理推理在方程、逻辑推断和形式化问题解决的领域中运作。这里的挑战从处理数据复杂性转向将抽象的符号概念与它们所描述的具体物理现象联系起来。如果说感知回答的是“是什么”,那么推理则通过应用物理定律中嵌入的结构化知识来回答“为什么”。本节从通用物理问题(教材和竞赛级别)和理论问题(研究级别)两个角度审视AI系统如何执行符号物理推理。
![多模态物理推理任务的错误分析(图片经[5]授权使用)。](/images/2510.04978v1/physics_case.jpg)
下表展示了LLMs在代表性的基于文本和多模态物理基准测试上的性能表现(百分比%)。
| 基于文本的基准 | GPT | Claude | DeepSeek | Gemini | |
|---|---|---|---|---|---|
| 纯文本 | |||||
| 本科物理 | UGPhysics [126] | 76.5 | 73.1 | 75.3 | 72.8 |
| 物理基准 | PHYBench [127] | 80.2 | 75.5 | 79.8 | 77.1 |
| 研究生水平 | GPQA [128] | 43.1 | 40.2 | 42.5 | 41.3 |
| 奥赛难题 | OlympiadBench [129] | 49.3 | 45.1 | 48.6 | 46.2 |
| 多模态 | |||||
| 看图物理 | SeePhys [5] | 75.2 | 72.8 | 78.5 | 73.4 |
| 物理推理 | PhysReason [130] | 68.4 | 65.1 | 70.3 | 67.2 |
| 多模态综合 | MMMU [131] | 56.8 | 54.3 | 55.9 | 55.1 |
| 多模态专业 | MMMU-Pro [132] | 43.5 | 41.2 | 42.8 | 41.9 |
通用物理问题(教材与竞赛级别)
早期的基准测试主要集中在纯文本格式的教科书物理问题上。PhysicsEval等资源涵盖了多个教育层次的问题,强调推理时技术、数值计算和分布偏移下的鲁棒性。这些基准系统地覆盖了从基础力学到电学、热力学和现代物理学的范围。其他基于文本的数据集,如UGPhysics、PHYBench和GPQA,进一步将问题范围扩展到大学课程和考试级别。
实证研究一致表明,即使是SOTA的语言模型也常常依赖于肤浅的模式匹配和记忆,在需要真正物理推理、长多步推断或超出训练分布泛化的任务上性能急剧下降。
另一方面,物理推理与纯数学的一个根本区别在于其涉及更复杂的视觉感知和图表理解,这推动了多模态基准的发展。典型的多模态基准,如SeePhys,通过将问题组织在七个领域和二十一个类别中,强调了依赖图表的物理推理的重要性,证明了视觉上下文对于正确解答问题是(部分或完全)必要的,而仅靠文本信息往往不足。