What’s the next frontier for Data-centric AI? Data Savvy Agents


引言

近期,能够自主交流、与人类协作并使用多种工具的AI智能体 (agents) 的兴起,为各种真实世界场景解锁了巨大的机遇。然而,尽管这些基于大型语言模型 (LLM) 的智能体在自然语言理解和问题解决方面取得了显著进展,它们大多仍局限于具有预定义数据和结构化任务的受控环境中。

真实世界的开放、动态环境(如科学发现、工业自动化、金融和医疗健康)对数据提出了更高要求:数据常常是不完整的,需要主动寻求信息;混乱且嘈杂的,需要复杂的诊断和处理能力;持续演变的,需要不断更新知识;并且难以通过静态基准评估

为了弥补现有智能体与现实需求之间的差距,本文提出了一个名为“数据精通智能体” (Data-Savvy Agents) 的新研究方向。这一概念融合了侧重于决策和自动化的智能体AI与侧重于静态数据集管理的以数据为中心的机器学习 (Data-centric ML)。本文认为,数据精通能力应成为未来智能体系统设计的优先事项,并提出了实现这一愿景的四个关键研究领域:主动数据获取、复杂数据处理、交互式测试数据合成以及持续自适应。本文旨在激发关于数据精通智能体作为以数据为中心AI下一个前沿的讨论,而不是提供具体的解决方案。

数据精通智能体 (Data-Sawwy Agent)

本文首先概述了数据精通智能体的角色。如图所示,数据精通智能体填补了真实世界数据源与通用LLM智能体或传统机器学习模型之间的空白。它们作为一个关键的桥梁,将多样化的数据流无缝集成到AI系统中。一方面,数据精通智能体与广泛的数据源进行交互,包括易于访问的公共网络数据库、需要专门设备或基础设施的平台数据(如医院记录、工业系统),以及稀缺、高价值的实验数据。另一方面,它们向AI系统提供精心策划的实时数据,并运行交互式自动评估以促进系统自适应。

数据精通智能体的概念示意图

为了实现这一目标,本文提出数据精通智能体必须具备四大核心能力。这四种能力构成了一个分类体系,用于指导未来智能体的设计与研究:

  1. 主动数据获取 (Proactive data acquisition):智能体能够自主地从各种原始、混乱和动态的数据源中收集特定应用所需的数据或知识。
  2. 复杂数据处理 (Sophisticated data processing):智能体能够以感知上下文的方式管理和梳理多样化的数据类型。
  3. 交互式测试数据合成 (Interactive test data synthesis):智能体能够动态生成交互式数据来可靠地评估自身性能,而非依赖静态基准。
  4. 持续自适应 (Continual adaptation):智能体能够迭代地优化其数据或获取策略,以适应变化的环境,从而持续提升模型性能。

通过集成这些能力,数据精通智能体超越了传统以数据为中心AI对改善静态数据集的关注,转向主动和自适应的数据交互,使AI智能体能够在动态的真实世界环境中有效运作。

能力1:主动数据获取

此能力强调资源密集、动态且需战略规划的数据收集,这与检索增强生成 (Retrieval-Augmented Generation, RAG) 等相对直接和静态的信息检索方法有本质区别。RAG通常操作于预定义且易于访问的知识库,而数据获取则涉及导航非结构化或受限的数据源,并需要管理显著的后勤和财务成本。

为什么重要?

高质量数据是AI的基石。在网页数据易于获取的背景下,许多专业领域(如工业应用、化学、材料科学)的数据获取面临巨大挑战。这些数据通常需要特定领域的知识、专门设施甚至人类专家的实验才能获得。例如,在环境监测中,模型必须整合来自卫星图像和地面传感器的数据,并处理不同机构不兼容的报告格式(如PDF与API)。在工业诊断中,设备故障预测会因传感器稀少、数据漂移和安全协议限制而存在数据盲点。因此,对自主数据获取存在强烈的现实需求。

当前进展与局限

现有的数据获取研究主要集中在模拟或理想化环境中。例如,主动学习 (active learning) 假设可以访问一个完整的未标记数据池,但这在现实中通常不成立。尽管一些新工作放宽了这一假设,但它们仍关注于如何从多个现有数据源中进行选择,而忽略了获取数据池本身这一更根本的挑战。

最近,用于LLM的RAG技术发展迅速,它通过从外部知识库(如维基百科)检索信息来增强模型。然而,数据获取比信息检索复杂得多:

研究方向

为赋予数据精通智能体主动获取数据的能力,本文提出了以下研究方向:

能力2:复杂数据处理

此能力强调智能体超越标准预处理流程,对复杂现实世界数据进行推理和处理的能力。

为什么重要?

现实世界的数据充满噪声、偏见、模糊性且不断变化,上下文至关重要。例如,在金融领域,智能体必须区分因技术故障导致的缺失值和因故意停牌导致的缺失值——这种细微差别是静态处理流程无法捕捉的。在网页浏览等开放环境中,智能体需要分辨哪些是信号(有效信息),哪些是噪声(如AI生成的垃圾邮件、有偏见的用户评论、过时信息)。这要求智能体具备强大的推理能力。

当前进展与局局限

尽管以数据为中心的机器学习社区已开发出多种工具来解决数据问题(如插补、清洗),但现实世界的数据问题更复杂。首先,许多问题依赖于上下文和领域知识;其次,问题常常并发,需要集成多种工具。

目前,处理数据的AI智能体主要分为两类,但都存在局限:

  1. 用于建模和预测的智能体(如Data Interpreter, DS-Agent):这些智能体倾向于使用基于标准数据科学实践的僵化流程。在复杂情况下,不考虑数据和上下文而简单应用标准流程可能导致失败。例如,在医疗保健中,用人口平均值来插补缺失的血压值,可能会忽略缺失与病情严重程度的相关性,从而低估死亡风险。
  2. 用于开放任务的智能体(如网页智能体):这类智能体专注于任务自动化,但忽略了在处理动态、嘈杂的网页内容时区分信号与噪声的重要性。它们需要更复杂的处理能力和上下文感知推理。

研究方向

为实现复杂数据处理能力,本文提出以下研究方向:

能力3:交互式测试数据合成

此能力强调以数据为中心的测试数据生成,它融合人类见解和合成数据,以持续优化评估,使其与真实世界应用保持一致。

为什么重要?

有效的评估是提升AI能力的关键。然而,在真实世界中进行评估面临诸多挑战:

这些挑战凸显了对自动化和自适应测试数据合成的需求,以确保评估既高效又能代表真实世界应用。

当前进展与局限

现有智能体系统的基准测试(如来自软件工程和游戏领域的任务)是手动策划的,这个过程耗时巨大且效率低下。随着LLM智能体被应用于更复杂的开放式任务,手动设计评估任务变得愈发困难。

此外,在评估中整合人类反馈已变得至关重要(例如,评估辅助编码的Copilot)。然而,评估这类系统需要与用户进行实时协作,这既复杂又耗时,尤其当测试用户是编码领域外的专家(如临床医生)时,难度更是倍增。

研究方向

为了克服手动评估的局限,实现对智能体系统的高效、大规模评估,本文提出了以下研究方向:

能力4:持续自适应

此能力强调智能体随时间推移而适应和发展的能力,以确保其在动态环境中的持续相关性和性能。

为什么重要?

持续自适应——即随着环境变化迭代地优化数据和知识——对于真实世界的智能体至关重要。现实世界环境是非平稳的,例如,COVID-19大流行期间,一个智能体需要不断适应最新的政策变化、新闻更新和治疗指南。同样,浏览网页的智能体也应能自主更新其知识库以遵守不断变化的隐私和数据存储法规。没有这种动态的持续更新,AI智能体可能会产生不佳的结果或违反最新准则。

当前进展与局限

尽管智能体设计取得了进展,但大多数系统仍无法满足持续自适应的要求。主要存在两个关键问题:

  1. 灾难性遗忘 (catastrophic forgetting):当前智能体在整合新信息时难以保留旧知识,面临灾难性遗忘的风险。
  2. 缺乏预见能力:当前智能体无法预见环境变化,也不能主动更新其知识库和数据摄取策略以应对这些变化。

研究方向

为了弥合当前智能体能力与动态环境需求之间的差距,本文提出了以下研究方向: