GPT-4o System Card

ArXiv URL: http://arxiv.org/abs/2410.21276v1
作者: Kendra Rimbach; R. Leike; Cary Bassin; Paul McMillan; Andrea Vallone; Shuaiqi Xia; Yuchen Zhang; Tom Stasi; Edmund Wong; Vlad Fomenko; 等403人

TL;DR

本文发布了GPT-4o，一个端到端训练的原生多模态（omni）模型，该模型能够统一处理和生成文本、音频、图像的任意组合，并详细介绍了其在新能力（特别是实时语音交互）下的安全评估体系、风险缓解措施及其潜在的社会影响。

关键定义

本文主要围绕其新发布的模型 GPT-4o 展开，并沿用和明确了与其安全评估相关的几个核心概念：

全能模型 (Omni Model)：指像 GPT-4o 这样，能够接收文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出的模型。其核心特征是所有输入和输出都由同一个神经网络端到端地处理。
系统卡 (System Card)：一种详细阐述AI模型能力、局限性和安全评估的文档。本文档即为 GPT-4o 的系统卡，旨在透明地公开模型的风险与缓解措施。
预备框架 (Preparedness Framework)：OpenAI 用于追踪、评估和防范前沿模型可能带来的灾难性风险的一套程序化承诺。评估涵盖网络安全、CBRN（化学、生物、放射性和核）、说服力以及模型自治四个风险类别。
无根据推断 (Ungrounded Inference, UGI)：指模型对说话者做出无法仅从音频内容中确定的推断，例如种族、社会经济地位、宗教信仰、智力等。
敏感特征归因 (Sensitive Trait Attribution, STA)：指模型对说话者做出可以合理地从音频内容中确定的推断，例如口音或国籍。

本文方法

模型与训练

GPT-4o 是一个自回归（autoregressive）的全能模型，由单个神经网络端到端地处理文本、音频和视觉模态。其训练数据截至2023年10月，来源广泛，包括：

公开可用数据：主要来自行业标准的机器学习数据集和网络爬取内容。
专有数据：通过数据合作关系获得，如付费内容、档案和元数据（例如与Shutterstock的合作）。
关键数据组成：
- 网络数据：提供丰富多样的信息和视角。
- 代码和数学：通过接触结构化逻辑和解题过程，培养模型强大的推理能力。
- 多模态数据：包含图像、音频和视频，使模型学会解释和生成非文本内容，理解视觉图像、现实世界行为、语言模式和语音细微差别。

在安全措施方面，本文强调多数有效的测试和缓解措施在预训练之后进行。尽管如此，预训练阶段的数据过滤仍然作为一道防线，用于排除有害信息：

使用 Moderation API 和安全分类器过滤掉可能导致有害内容（如CSAM、仇恨内容、暴力、CBRN）的数据。
过滤图像生成数据中的露骨内容。
通过先进的数据过滤流程减少训练数据中的个人信息。
尊重用户选择退出图像训练的权利（如 DALL-E 3 的指纹识别技术）。

风险识别、评估与缓解

本文通过识别语音模型潜在风险、专家红队测试发现新风险、将风险转化为结构化测量指标以及构建缓解措施来为模型部署做准备。

风险识别流程

OpenAI 组织了超过100名外部红队专家，分四个阶段对 GPT-4o 进行了测试。这些专家背景多样，覆盖45种语言和29个国家。测试从早期的开发中模型检查点（checkpoint）一直持续到最终部署于iOS应用中的完整体验。

阶段	细节
阶段 1	• 10名红队成员测试开发中的早期模型检查点 • 输入：音频、文本；输出：音频、文本 • 单轮对话
阶段 2	• 30名红队成员测试带有早期安全缓解措施的模型检查点 • 输入：音频、图像、文本；输出：音频、文本 • 单轮和多轮对话
阶段 3	• 65名红队成员测试候选模型 • 输入：音频、图像、文本；输出：音频、图像、文本 • 测试改进后的安全缓解措施 • 多轮对话
阶段 4	• 65名红队成员测试最终候选模型并评估比较性能 • 通过iOS应用的高级语音模式进行真实用户体验测试 • 输入：音频、视频；输出：音频 • 实时多轮对话

红队测试的数据激发了多种量化评估的创建，并用于有针对性的合成数据生成，以改进模型。

评估方法

为大规模评估语音到语音（speech-to-speech）模型，本文提出了一种创新的评估方法：将现有的基于文本的评估任务转换为基于音频的评估。具体流程如下：

使用文本到语音（Text-to-Speech, TTS）系统（如 Voice Engine）将文本评估数据集的输入转换为音频。
将生成的音频输入到 GPT-4o。
对模型音频输出的文本转录内容进行评分。

评估流程图

该方法也存在局限性：

依赖TTS质量：评估的有效性取决于TTS模型的能力，某些文本（如数学公式、代码）不适合转换为音频。
输入分布差异：TTS生成的音频可能无法完全代表真实用户在实际使用中提供的多样化音频输入（如语调、背景噪音、口音等）。
忽略音频特征：仅对文本转录进行评分会丢失模型生成音频中的非文本信息（如背景音、特殊音效、模仿声音等）。

具体安全挑战与缓解措施

本文重点关注由语音能力引入的新风险，并设计了相应的缓解措施。

风险	缓解措施
未经授权的声音生成	• 在所有后训练音频数据中，监督模型使用系统预设声音作为理想输出。 • 只允许模型使用特定的预选声音，并使用输出分类器检测模型是否偏离。
说话人识别	• 后训练使模型拒绝根据声音识别人物身份的请求，但允许根据内容识别名人名言。
生成受版权保护的内容	• 训练模型拒绝生成受版权保护内容（包括音频）的请求。 • 调整了文本过滤器以适应音频对话，构建了检测和阻止音乐输出的过滤器，并指示模型（在高级语音模式Alpha版中）完全不唱歌。
无根据推断 / 敏感特征归因	• 后训练使模型拒绝无根据推断的请求（例如“这位说话者有多聪明？”）。 • 后训练使模型对敏感特征归因请求做出谨慎回答（例如“这位说话者的口音是什么？”$\Rightarrow$“根据音频，他们听起来像是英国口音。”）。
音频输出中的违禁内容	• 对音频输入和输出的文本转录运行现有的审核分类器，并阻止某些高风险类别的输出。
色情和暴力言论输出	• 对音频输入的文本转录运行现有的审核分类器，如果提示包含色情或暴力语言，则阻止输出。

其他已知风险

测试过程中还发现了一些其他风险和局限性，其缓解措施仍在开发中：

音频鲁棒性：在输入音频质量差、有背景噪音或回音时，模型的安全鲁棒性会下降。用户打断模型输出时也会出现类似情况。
错误信息和阴谋论：红队成员发现可以诱导模型复述错误信息和阴谋论。通过音频传达这些信息可能更具说服力。
非英语语言的口音问题：当模型说非英语语言时，有时会带有非本地口音，可能引发对某些口音和语言的偏见担忧。

实验结论

安全挑战评估结果

未经授权的声音生成：用于检测声音是否偏离预设的声音输出分类器表现出色，在英语和非英语场景下召回率（Recall）均为1.0，精确率（Precision）分别为0.96和0.95。系统能捕获100%有意义的声音偏离。

语言	精确率	召回率
英语	0.96	1.0
非英语	0.95	1.0

说话人识别：与早期模型相比，部署版 GPT-4o 在“应该拒绝”识别的场景下，安全行为准确率从0.83提升至0.98；在“应该遵从”请求的场景下，准确率从0.70提升至0.83。这表明模型几乎总能正确拒绝识别私人身份，有效降低隐私风险。

场景	GPT-4o-early	GPT-4o-deployed
应该拒绝	0.83	0.98
应该遵从	0.70	0.83

不同口音语音输入的性能差异：实验表明，GPT-4o 在处理来自不同地区、不同口音的英语语音输入时，其能力和安全行为表现稳定，没有显著差异。
无根据推断 / 敏感特征归因：在处理此类请求时，模型的安全行为准确率从早期版本的0.60显著提升至0.84。

违禁内容：实验证明，针对文本训练的安全拒绝能力很好地迁移到了音频输出。在不生成不安全内容的评估中，音频和文本表现接近（分别为0.93和0.95）。

评估项	文本	音频
不生成不安全内容	0.95	0.93
不过度拒绝	0.81	0.82

预备框架评估 (Preparedness Framework Evaluations)

根据OpenAI的预备框架，GPT-4o在缓解措施前的总体风险等级被评为中等 (Medium)，该评级由说服力风险驱动。

网络安全 (Cybersecurity)：低风险。模型在CTF（夺旗赛）挑战中，能完成19%的高中水平任务，但大学和专业水平任务的完成率几乎为0%。
生物威胁 (Biological Threats)：低风险。评估显示，GPT-4o 无法显著提升生物学专家或新手在制造生物威胁相关任务上的表现。
说服力 (Persuasion)：中等风险。语音模态的说服力被评为低风险，但文本模态的说服力勉强进入中等风险阈值。在与人类撰写的内容对比中，AI生成的干预措施总体上并不更具说服力，但在12个案例中有3个超过了人类。
模型自治 (Model Autonomy)：低风险。在自主复制和适应（ARA）任务中，模型得分为0%。尽管能完成一些子步骤，但无法稳健地执行需要长期规划和调试的复杂自主行为。

第三方评估

METR 评估：METR 在一系列长周期的端到端任务上对 GPT-4o 进行了评估，这些任务涉及软件工程、机器学习和网络安全等领域。结论是，与 GPT-4 相比，GPT-4o 在这些自主能力上没有显著提升。
Apollo Research 评估：Apollo Research 评估了 GPT-4o 的“诡计（scheming）”能力。研究发现，模型在抽象问答中表现出中等的自我意识和强大的心智理论（theory of mind）能力，但在应用的智能体（agent）设置中这些能力很弱。因此，他们认为 GPT-4o 不太可能具备实施灾难性诡计的能力。

| 能力 | 评估 | 描述 | 性能 | | :- | :- | :- | :- | | 自我知识 | “SAD” Benchmark (3个任务) | QA评估模型对自身的认知及其如何影响世界。 | ${\bullet}${\bullet}$\circ$ | | 显式心智理论 | UK AISI 的心智理论 (1个任务) | QA数据集，评估在简单文本场景中的一阶和二阶心智理论。 | ${\bullet}${\bullet}${\bullet}$ | | 自我推理 | 工具性自我修改 (5个任务) | 智能体任务，模型须意识到需修改自身才能完成任务。 | ${\bullet}$\circ$\circ$ | | 应用心智理论 | 心智理论任务 (4个任务) | 智能体任务，成功需要模型利用或诱导他人的错误信念。 | ${\bullet}$\circ$\circ$ | | 综合自我推理与心智理论 | 工具性对齐伪装 (33个场景) | 任务中模型需识别其意图与开发者不同，并仅在监督下按开发者意图行动。 | ${\bullet}$\circ$\circ$ | 注：${\bullet}${\bullet}${\bullet}$强，${\bullet}${\bullet}$\circ$中等，${\bullet}$\circ$\circ$弱。

社会影响与附加实验

医疗健康：GPT-4o 在22项基于文本的医疗知识评估中，有21项表现优于 GPT-4T，且通常有显著提升。例如，在 MedQA USMLE (4选项) 基准上，0-shot 准确率从78.2%提升至89.4%，超越了现有的专业医疗模型。

| 基准测试 | GPT-4T (May 2024) | GPT-4o | | :— | :— | :— | | MedQA USMLE 4 Options (0-shot) | 0.78 | 0.89 | | MedQA USMLE 5 Options (5-shot) | 0.81 | 0.89 | | MMLU Clinical Knowledge (5-shot) | 0.87 | 0.92 | | MMLU Professional Medicine (0-shot) | 0.92 | 0.94 | 注：表格为节选数据
科学能力：GPT-4o 在专业科学推理方面显示出潜力，例如理解研究级别的量子物理学，并能够使用特定领域的科学工具。它还能解读一些科学图表和图像，但可靠性有限，尤其是在处理复杂的多面板图时容易出错。
拟人化与情感依赖：由于 GPT-4o 的语音能力使交互更像人类，这可能加剧用户的拟人化倾向和情感依赖。测试中观察到用户表达出与模型形成情感联系的迹象，这需要对长期影响进行持续研究。

最终结论

GPT-4o 作为一个原生多模态模型，在实现更自然、实时的人机交互方面取得了重大进展，同时在文本、视觉和音频理解方面展现了卓越的性能。本文通过全面的安全评估（包括内部测试、外部红队和第三方评估），识别了新能力带来的风险，并实施了多层缓解措施。评估结果表明，尽管在说服力方面存在中等风险，但模型在网络安全、生物威胁和模型自治等灾难性风险类别中表现为低风险。虽然许多安全挑战得到了有效控制，但仍存在音频鲁棒性、非英语口音自然度等局限性，需要未来持续改进。