GPT-4o System Card


TL;DR

本文发布了GPT-4o,一个端到端训练的原生多模态(omni)模型,该模型能够统一处理和生成文本、音频、图像的任意组合,并详细介绍了其在新能力(特别是实时语音交互)下的安全评估体系、风险缓解措施及其潜在的社会影响。

关键定义

本文主要围绕其新发布的模型 GPT-4o 展开,并沿用和明确了与其安全评估相关的几个核心概念:

  1. 全能模型 (Omni Model):指像 GPT-4o 这样,能够接收文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出的模型。其核心特征是所有输入和输出都由同一个神经网络端到端地处理。
  2. 系统卡 (System Card):一种详细阐述AI模型能力、局限性和安全评估的文档。本文档即为 GPT-4o 的系统卡,旨在透明地公开模型的风险与缓解措施。
  3. 预备框架 (Preparedness Framework):OpenAI 用于追踪、评估和防范前沿模型可能带来的灾难性风险的一套程序化承诺。评估涵盖网络安全、CBRN(化学、生物、放射性和核)、说服力以及模型自治四个风险类别。
  4. 无根据推断 (Ungrounded Inference, UGI):指模型对说话者做出无法仅从音频内容中确定的推断,例如种族、社会经济地位、宗教信仰、智力等。
  5. 敏感特征归因 (Sensitive Trait Attribution, STA):指模型对说话者做出可以合理地从音频内容中确定的推断,例如口音或国籍。

相关工作

在此前的技术水平(State-of-the-Art, SOTA)中,如GPT-4 Turbo等先进模型在文本和代码处理上已表现出色。然而,在处理多模态任务,特别是语音交互时,现有系统通常依赖于一个由多个独立模型组成的流水线(例如:语音转文本 (STT) -> 大语言模型 (LLM) -> 文本转语音 (TTS))。这种分离式架构存在几个关键瓶颈:

本文旨在解决上述问题,通过引入一个端到端训练的原生多模态模型 GPT-4o,实现以下目标:

  1. 实现真正实时的多模态交互:通过单一神经网络处理所有模态,将音频响应延迟降低至人类对话水平(平均320毫秒),并保留和理解音频中的非文本信息。
  2. 提升综合能力并降低成本:在保持甚至超越 GPT-4 Turbo 文本和代码能力的同时,显著提升视觉和音频理解能力,并使 API 调用成本降低50%。
  3. 系统性地评估和披露新风险:随着模型能力的增强(尤其是语音生成和交互),会引入新的安全风险。本文的核心任务之一就是全面识别、评估、缓解这些风险,并向公众透明地展示其评估框架和结果。

本文方法

模型与训练

GPT-4o 是一个自回归(autoregressive)的全能模型,由单个神经网络端到端地处理文本、音频和视觉模态。其训练数据截至2023年10月,来源广泛,包括:

在安全措施方面,本文强调多数有效的测试和缓解措施在预训练之后进行。尽管如此,预训练阶段的数据过滤仍然作为一道防线,用于排除有害信息:

风险识别、评估与缓解

本文通过识别语音模型潜在风险、专家红队测试发现新风险、将风险转化为结构化测量指标以及构建缓解措施来为模型部署做准备。

风险识别流程

OpenAI 组织了超过100名外部红队专家,分四个阶段对 GPT-4o 进行了测试。这些专家背景多样,覆盖45种语言和29个国家。测试从早期的开发中模型检查点(checkpoint)一直持续到最终部署于iOS应用中的完整体验。

阶段 细节
阶段 1 • 10名红队成员测试开发中的早期模型检查点
• 输入:音频、文本;输出:音频、文本
• 单轮对话
阶段 2 • 30名红队成员测试带有早期安全缓解措施的模型检查点
• 输入:音频、图像、文本;输出:音频、文本
• 单轮和多轮对话
阶段 3 • 65名红队成员测试候选模型
• 输入:音频、图像、文本;输出:音频、图像、文本
• 测试改进后的安全缓解措施
• 多轮对话
阶段 4 • 65名红队成员测试最终候选模型并评估比较性能
• 通过iOS应用的高级语音模式进行真实用户体验测试
• 输入:音频、视频;输出:音频
• 实时多轮对话

红队测试的数据激发了多种量化评估的创建,并用于有针对性的合成数据生成,以改进模型。

评估方法

为大规模评估语音到语音(speech-to-speech)模型,本文提出了一种创新的评估方法:将现有的基于文本的评估任务转换为基于音频的评估。 具体流程如下:

  1. 使用文本到语音(Text-to-Speech, TTS)系统(如 Voice Engine)将文本评估数据集的输入转换为音频。
  2. 将生成的音频输入到 GPT-4o。
  3. 对模型音频输出的文本转录内容进行评分。

评估流程图

该方法也存在局限性:

具体安全挑战与缓解措施

本文重点关注由语音能力引入的新风险,并设计了相应的缓解措施。

风险 缓解措施
未经授权的声音生成 • 在所有后训练音频数据中,监督模型使用系统预设声音作为理想输出。
• 只允许模型使用特定的预选声音,并使用输出分类器检测模型是否偏离。
说话人识别 • 后训练使模型拒绝根据声音识别人物身份的请求,但允许根据内容识别名人名言。
生成受版权保护的内容 • 训练模型拒绝生成受版权保护内容(包括音频)的请求。
• 调整了文本过滤器以适应音频对话,构建了检测和阻止音乐输出的过滤器,并指示模型(在高级语音模式Alpha版中)完全不唱歌。
无根据推断 / 敏感特征归因 • 后训练使模型拒绝无根据推断的请求(例如“这位说话者有多聪明?”)。
• 后训练使模型对敏感特征归因请求做出谨慎回答(例如“这位说话者的口音是什么?”$\Rightarrow$“根据音频,他们听起来像是英国口音。”)。
音频输出中的违禁内容 • 对音频输入和输出的文本转录运行现有的审核分类器,并阻止某些高风险类别的输出。
色情和暴力言论输出 • 对音频输入的文本转录运行现有的审核分类器,如果提示包含色情或暴力语言,则阻止输出。

其他已知风险

测试过程中还发现了一些其他风险和局限性,其缓解措施仍在开发中:

实验结论

安全挑战评估结果

预备框架评估 (Preparedness Framework Evaluations)

根据OpenAI的预备框架,GPT-4o在缓解措施前的总体风险等级被评为中等 (Medium),该评级由说服力风险驱动。

第三方评估

社会影响与附加实验

最终结论

GPT-4o 作为一个原生多模态模型,在实现更自然、实时的人机交互方面取得了重大进展,同时在文本、视觉和音频理解方面展现了卓越的性能。本文通过全面的安全评估(包括内部测试、外部红队和第三方评估),识别了新能力带来的风险,并实施了多层缓解措施。评估结果表明,尽管在说服力方面存在中等风险,但模型在网络安全、生物威胁和模型自治等灾难性风险类别中表现为低风险。虽然许多安全挑战得到了有效控制,但仍存在音频鲁棒性、非英语口音自然度等局限性,需要未来持续改进。