Generative AI


Generative AI

概念化

生成式AI的数学原理

生成式人工智能 (Generative AI) 主要基于生成式建模 (generative modeling),这在数学上与常用于数据驱动决策支持的判别式建模 (discriminative modeling) 有显著区别。

本文将相关概念定义如下:

下表总结了在模型、系统和应用层面上跨不同数据模态的生成式AI。

  模型层面 系统层面 应用层面
输出模态(部分) 不同数据模态的底层AI模型 嵌入模型功能以提供交互界面 解决特定业务问题和利益相关者需求
文本生成 X-to-text 模型,如 GPT-4 和 LLaMA 2 对话智能体和搜索引擎,如 ChatGPT 和 YouChat 内容生成(如SEO和客户服务)、翻译和文本摘要
图像/视频生成 X-to-image 模型,如 Stable Diffusion 和 DALL-E 2 图像/视频生成系统和机器人,如 Runway 和 Midjourney 合成产品和广告视觉效果、教育内容
语音/音乐生成 X-to-music/speech 模型,如 MusicLM 和 VALL-E 语音生成系统,如 ElevenLabs AI音乐生成、文本到语音生成(如新闻、产品教程等)
代码生成 X-to-code 模型,如 Codex 和 AlphaCode 编程代码生成系统,如 GitHub Copilot 软件开发、代码合成、审查和文档编写

模型、系统和应用层面的生成式AI视图

分类体系

本文提出了一个三层框架来理解生成式AI:模型层、系统层和应用层。这个分类体系的核心维度是技术实现与最终用户价值的距离,从底层的算法核心到顶层的实际业务解决方案。

模型层面 (Model-Level)

模型是生成式AI的核心,是一种使用AI算法从训练数据中学习模式并创建新数据实例的机器学习架构。它具有至关重要但不完整性,需要通过系统和应用进行特定任务的微调。

不同生成式AI模型的训练过程示例。(a) 生成对抗网络 (GAN),其中z是随机输入。(b) 用于对话式生成AI模型的基于人类反馈的强化学习 (RLHF)。

下表概述了生成式AI中常见的核心概念和模型架构。

概念 描述
扩散概率模型 (Diffusion probabilistic models) 一类潜变量模型,常用于图像生成等任务。通过模拟数据点在潜空间中的扩散过程来捕捉数据分布,然后逆转该过程以生成自然图像。Stable Diffusion是其著名变体。
生成对抗网络 (Generative adversarial network) 一种包含两个相互竞争的神经网络(生成器和判别器)的架构。生成器学习生成逼真样本,判别器学习区分真实样本和生成样本,通过这种对抗学习使生成器产生高质量输出。
(大)语言模型 ((Large) language model) 用于建模和生成文本的神经网络,通常结合了大规模(如Transformer)、自监督预训练(如“预测下一个词”)和海量文本数据训练三个特点。LLM拥有数十亿参数,如GPT-3。
基于人类反馈的强化学习 (Reinforcement learning from human feedback) 通过人类反馈来学习序列任务(如对话)的方法。它先从人类反馈中训练一个奖励模型,再用此模型作为奖励函数来优化策略,使输出更符合人类偏好。ChatGPT就使用了该技术。
提示学习 (Prompt learning) 一种利用LLM中存储的知识来完成下游任务的方法,无需对模型进行微调。通过设计特定的输入提示(prompt),引导模型生成期望的输出。
序列到序列 (seq2seq) 一种将输入序列映射到输出序列的机器学习方法,常见于机器翻译。它由一个编码器(将输入序列编码为向量)和一个解码器(将向量解码为输出序列)组成。
Transformer 一种采用自注意力机制 (self-attention) 的深度学习架构,能权衡输入数据各部分的重要性。它能并行处理整个输入序列,在自然语言处理任务中表现优于循环神经网络(RNN)。
变分自编码器 (Variational autoencoder) 一种将输入数据编码到低维潜空间再从中重构原始数据的神经网络。它采用概率方法进行编解码,使其能捕捉数据分布并生成新样本。
零样本/少样本学习 (Zero-shot / few-shot learning) 解决数据稀缺问题的学习范式。零样本学习指模型在未见过任何任务样本的情况下执行任务;少样本学习指仅用少量样本学习。LLM是出色的少样本/零样本学习者。

系统层面 (System-Level)

系统层面将底层的AI模型与基础设施、用户界面和数据处理组件相结合,从而增强模型的实用性和易用性。

应用层面 (Application-Level)

应用层面是生成式AI系统在特定组织或场景中,为解决具体业务问题、满足利益相关者需求而创造价值的实践。

生成式AI的社会技术视图

当前生成式AI的局限性

本文指出了当前生成式AI在模型层面存在的四个主要技术局限性,这些局限性可能长期存在,并对系统和应用层面产生影响。

  1. 输出不准确 (Incorrect outputs):生成式AI基于概率算法,旨在生成最可能的回应,而非绝对正确的回应。这导致了“幻觉” (hallucination) 现象——模型产生看似合理但实际上是无稽之谈或不正确的内容。这类输出难以验证,可能传播错误信息。

  2. 偏见与公平性 (Bias and fairness):由于训练数据源于充满社会偏见的人类内容,生成式AI模型会学习并放大这些偏见,如性别、种族和宗教歧视。尽管可以通过对齐过程(如RLHF)和系统级缓解措施来解决部分问题,但实现真正的“公平AI”仍是开放的研究课题。

  3. 版权侵犯 (Copyright violation):生成式AI可能产生与现有受版权保护作品相似甚至完全相同的内容,从而引发版权问题。这涉及两个主要风险:一是模型可能在训练中接触并复制了受版权保护的材料;二是在未接触的情况下也可能“偶然”生成了相似内容(如商标)。此外,由AI生成作品的知识产权归属也是一个悬而未决的法律问题。

  4. 环境问题 (Environmental concerns):训练和运行大规模神经网络(如GPT-3)需要消耗巨大的电力,产生大量的碳足迹。例如,训练GPT-3的碳排放量相当于几十个家庭一年的排放量。这促使AI研究社区寻求更高效的训练算法、模型压缩技术和优化的硬件来减少对环境的影响。

对BISE社区的启示与未来方向

生成式AI为商业与信息系统工程 (Business & Information Systems Engineering, BISE) 领域带来了大量研究机遇和挑战。下表列举了部分研究问题。

BISE部门 研究问题(示例)
业务流程管理 • 生成式AI如何辅助自动化常规任务?
• 生成式AI如何揭示流程创新机会并支持流程(再)设计?
决策分析与数据科学 • 如何有效地为特定领域应用微调生成式AI模型?
• 如何提高生成式AI系统的可靠性?
数字业务管理与数字领导力 • 生成式AI如何支持资源分配等管理任务?
• 随着由生成式AI驱动的智能助手的出现,员工的数字工作将如何改变?
信息系统经济学 • 生成式AI对社会福利有何影响?
• 哪些工作和任务受生成式AI影响最大?
企业建模与企业工程 • 如何使用生成式AI来支持企业模型的构建和维护?
• 生成式AI如何支持企业应用(如CRM、BI等)?
人机交互与社会计算 • 应如何设计生成式AI系统以培养信任?
• 哪些对策能有效防止用户受AI生成的虚假信息欺骗?
• 生成式AI在多大程度上可以取代或增强众包任务?
• 生成式AI如何辅助教育?

业务流程管理 (Business Process Management)

决策分析与数据科学 (Decision Analytics and Data Science)

数字业务管理与数字领导力 (Digital Business Management and Digital Leadership)

信息系统经济学 (Economics of Information Systems)

企业建模与企业工程 (Enterprise Modeling and Enterprise Engineering)