What’s the next frontier for Data-centric AI? Data Savvy Agents

ArXiv URL: http://arxiv.org/abs/2511.01015v1
作者: Mihaela van der Schaar; Jiashuo Liu; Nabeel Seedat
发布机构: Tsinghua University; University of Cambridge

引言

近期，能够自主交流、与人类协作并使用多种工具的AI智能体 (agents) 的兴起，为各种真实世界场景解锁了巨大的机遇。然而，尽管这些基于大型语言模型 (LLM) 的智能体在自然语言理解和问题解决方面取得了显著进展，它们大多仍局限于具有预定义数据和结构化任务的受控环境中。

真实世界的开放、动态环境（如科学发现、工业自动化、金融和医疗健康）对数据提出了更高要求：数据常常是不完整的，需要主动寻求信息；混乱且嘈杂的，需要复杂的诊断和处理能力；持续演变的，需要不断更新知识；并且难以通过静态基准评估。

为了弥补现有智能体与现实需求之间的差距，本文提出了一个名为“数据精通智能体” (Data-Savvy Agents) 的新研究方向。这一概念融合了侧重于决策和自动化的智能体AI与侧重于静态数据集管理的以数据为中心的机器学习 (Data-centric ML)。本文认为，数据精通能力应成为未来智能体系统设计的优先事项，并提出了实现这一愿景的四个关键研究领域：主动数据获取、复杂数据处理、交互式测试数据合成以及持续自适应。本文旨在激发关于数据精通智能体作为以数据为中心AI下一个前沿的讨论，而不是提供具体的解决方案。

数据精通智能体 (Data-Sawwy Agent)

本文首先概述了数据精通智能体的角色。如图所示，数据精通智能体填补了真实世界数据源与通用LLM智能体或传统机器学习模型之间的空白。它们作为一个关键的桥梁，将多样化的数据流无缝集成到AI系统中。一方面，数据精通智能体与广泛的数据源进行交互，包括易于访问的公共网络数据库、需要专门设备或基础设施的平台数据（如医院记录、工业系统），以及稀缺、高价值的实验数据。另一方面，它们向AI系统提供精心策划的实时数据，并运行交互式自动评估以促进系统自适应。

为了实现这一目标，本文提出数据精通智能体必须具备四大核心能力。这四种能力构成了一个分类体系，用于指导未来智能体的设计与研究：

主动数据获取 (Proactive data acquisition)：智能体能够自主地从各种原始、混乱和动态的数据源中收集特定应用所需的数据或知识。
复杂数据处理 (Sophisticated data processing)：智能体能够以感知上下文的方式管理和梳理多样化的数据类型。
交互式测试数据合成 (Interactive test data synthesis)：智能体能够动态生成交互式数据来可靠地评估自身性能，而非依赖静态基准。
持续自适应 (Continual adaptation)：智能体能够迭代地优化其数据或获取策略，以适应变化的环境，从而持续提升模型性能。

通过集成这些能力，数据精通智能体超越了传统以数据为中心AI对改善静态数据集的关注，转向主动和自适应的数据交互，使AI智能体能够在动态的真实世界环境中有效运作。

能力1：主动数据获取

此能力强调资源密集、动态且需战略规划的数据收集，这与检索增强生成 (Retrieval-Augmented Generation, RAG) 等相对直接和静态的信息检索方法有本质区别。RAG通常操作于预定义且易于访问的知识库，而数据获取则涉及导航非结构化或受限的数据源，并需要管理显著的后勤和财务成本。

为什么重要？

高质量数据是AI的基石。在网页数据易于获取的背景下，许多专业领域（如工业应用、化学、材料科学）的数据获取面临巨大挑战。这些数据通常需要特定领域的知识、专门设施甚至人类专家的实验才能获得。例如，在环境监测中，模型必须整合来自卫星图像和地面传感器的数据，并处理不同机构不兼容的报告格式（如PDF与API）。在工业诊断中，设备故障预测会因传感器稀少、数据漂移和安全协议限制而存在数据盲点。因此，对自主数据获取存在强烈的现实需求。

当前进展与局限

现有的数据获取研究主要集中在模拟或理想化环境中。例如，主动学习 (active learning) 假设可以访问一个完整的未标记数据池，但这在现实中通常不成立。尽管一些新工作放宽了这一假设，但它们仍关注于如何从多个现有数据源中进行选择，而忽略了获取数据池本身这一更根本的挑战。

最近，用于LLM的RAG技术发展迅速，它通过从外部知识库（如维基百科）检索信息来增强模型。然而，数据获取比信息检索复杂得多：

数据可访问性: 数据获取需要处理复杂的网站结构和受限数据，而RAG的知识库是预定义且易于访问的。
数据质量与结构: 数据获取处理的是原始、非结构化的数据，而RAG假设数据质量高且结构良好。
动态性: 数据获取必须适应实时变化的数据源，而RAG通常操作于静态知识库。
成本与可扩展性: 获取大规模数据集成本高昂，而RAG利用现有存储库。

研究方向

为赋予数据精通智能体主动获取数据的能力，本文提出了以下研究方向：

特定应用的网页数据抓取：智能体应能自主识别和探索具有独特结构或领域特征的专业网站（如生物数据库），处理高级网页元素（如表单提交、API调用），并结合领域规则和人类反馈来发现有价值的来源。
复杂数据提取：智能体需要具备从HTML表格、PDF文档或JSON文件等异构格式中提取数据的能力，这需要高级解析技术、光学字符识别 (Optical Character Recognition, OCR) 等。
自适应获取逻辑：智能体应能根据实时反馈或遇到的约束（如数据源不可访问）动态调整其获取策略，以优化时间和资源消耗。
人机协作实验数据获取：对于实验科学领域，智能体需与人类科学家对话，协助设计实验和测量策略，理解领域特定的约束，并根据反馈调整指导，从而使实验数据获取更高效。

能力2：复杂数据处理

此能力强调智能体超越标准预处理流程，对复杂现实世界数据进行推理和处理的能力。

为什么重要？

现实世界的数据充满噪声、偏见、模糊性且不断变化，上下文至关重要。例如，在金融领域，智能体必须区分因技术故障导致的缺失值和因故意停牌导致的缺失值——这种细微差别是静态处理流程无法捕捉的。在网页浏览等开放环境中，智能体需要分辨哪些是信号（有效信息），哪些是噪声（如AI生成的垃圾邮件、有偏见的用户评论、过时信息）。这要求智能体具备强大的推理能力。

当前进展与局局限

尽管以数据为中心的机器学习社区已开发出多种工具来解决数据问题（如插补、清洗），但现实世界的数据问题更复杂。首先，许多问题依赖于上下文和领域知识；其次，问题常常并发，需要集成多种工具。

目前，处理数据的AI智能体主要分为两类，但都存在局限：

用于建模和预测的智能体（如Data Interpreter, DS-Agent）：这些智能体倾向于使用基于标准数据科学实践的僵化流程。在复杂情况下，不考虑数据和上下文而简单应用标准流程可能导致失败。例如，在医疗保健中，用人口平均值来插补缺失的血压值，可能会忽略缺失与病情严重程度的相关性，从而低估死亡风险。
用于开放任务的智能体（如网页智能体）：这类智能体专注于任务自动化，但忽略了在处理动态、嘈杂的网页内容时区分信号与噪声的重要性。它们需要更复杂的处理能力和上下文感知推理。

研究方向

为实现复杂数据处理能力，本文提出以下研究方向：

将数据处理重塑为动态和上下文感知：
1. 复合挑战的检测与解决：智能体应能识别并处理复合问题，如缺失值与时间泄漏的结合，这需要改进其因果推理和上下文感知诊断能力。
2. 自适应工作流合成：智能体应能根据领域约束自适应地对工具使用或操作进行排序，任务分解能力的进步对此至关重要。
重塑人机协作以进行数据处理：
1. 自然语言到可验证规则的翻译：智能体应能通过自然语言交互将人类专家的需求转化为可执行和可验证的规则。
2. 专家对齐与修正：智能体应能判断何时向专家征求反馈，并根据反馈进行修正。例如，金融交易员可以识别出有效的“黑天鹅”市场异常，智能体不应将其错误分类为待剔除的异常值。
集成以数据为中心的ML研究工具：未来的数据精通智能体必须整合更多来自数据为中心ML社区的先进工具，而不是仅依赖基础工具。

能力3：交互式测试数据合成

此能力强调以数据为中心的测试数据生成，它融合人类见解和合成数据，以持续优化评估，使其与真实世界应用保持一致。

为什么重要？

有效的评估是提升AI能力的关键。然而，在真实世界中进行评估面临诸多挑战：

测试数据稀缺：与传统任务不同，真实世界应用常常缺乏充足、干净的测试数据。
评估范围广泛：智能体系统应用广泛，需要跨越软件工程、医疗保健等多个领域进行评估，这要求领域特定的测试用例。
人类参与的复杂性：现代智能体系统越来越多地需要人类协作进行评估，但这带来了可扩展性问题，并使大规模自动化评估变得复杂。

这些挑战凸显了对自动化和自适应测试数据合成的需求，以确保评估既高效又能代表真实世界应用。

当前进展与局限

现有智能体系统的基准测试（如来自软件工程和游戏领域的任务）是手动策划的，这个过程耗时巨大且效率低下。随着LLM智能体被应用于更复杂的开放式任务，手动设计评估任务变得愈发困难。

此外，在评估中整合人类反馈已变得至关重要（例如，评估辅助编码的Copilot）。然而，评估这类系统需要与用户进行实时协作，这既复杂又耗时，尤其当测试用户是编码领域外的专家（如临床医生）时，难度更是倍增。

研究方向

为了克服手动评估的局限，实现对智能体系统的高效、大规模评估，本文提出了以下研究方向：

自动化和上下文感知的测试数据/任务生成：开发自动生成和管理针对特定应用领域（如临床问答、化学）的上下文感知数据集或任务集的方法，以减少对耗时手动设计的依赖。
可扩展和交互式的人在环路模拟：创建能够复制真实世界人机交互的可扩展模拟环境。这些模拟应支持多轮对话并融入领域特定知识（如医疗或法律），从而实现对智能体在不同情境下的详细评估。
新的评估指标：与新的评估方法相配合，必须考虑新的评估指标，以确保在模块级和系统级都能进行有效衡量。

能力4：持续自适应

此能力强调智能体随时间推移而适应和发展的能力，以确保其在动态环境中的持续相关性和性能。

为什么重要？

持续自适应——即随着环境变化迭代地优化数据和知识——对于真实世界的智能体至关重要。现实世界环境是非平稳的，例如，COVID-19大流行期间，一个智能体需要不断适应最新的政策变化、新闻更新和治疗指南。同样，浏览网页的智能体也应能自主更新其知识库以遵守不断变化的隐私和数据存储法规。没有这种动态的持续更新，AI智能体可能会产生不佳的结果或违反最新准则。

当前进展与局限

尽管智能体设计取得了进展，但大多数系统仍无法满足持续自适应的要求。主要存在两个关键问题：

灾难性遗忘 (catastrophic forgetting)：当前智能体在整合新信息时难以保留旧知识，面临灾难性遗忘的风险。
缺乏预见能力：当前智能体无法预见环境变化，也不能主动更新其知识库和数据摄取策略以应对这些变化。

研究方向

为了弥合当前智能体能力与动态环境需求之间的差距，本文提出了以下研究方向：

无遗忘的持续学习：一个核心局限是智能体在长期部署中无法保留并按上下文更新知识。一个至关重要的研究方向是改进智能体的记忆系统，以实现无遗忘的持续学习。