Generative Models for Synthetic Data: Transforming Data Mining in the GenAI Era

ArXiv URL: http://arxiv.org/abs/2508.19570v1
作者: Huan Liu; Yue Huang; Xiangliang Zhang; Ming Li; Tianyi Zhou; Dawei Li
发布机构: Arizona State University; University of Maryland; University of Notre Dame

生成式模型用于合成数据：在GenAI时代变革数据挖掘

1. 引言

在数据驱动的人工智能 (AI) 时代，获取大规模、高质量的数据集已成为数据挖掘和机器学习突破的根本要求。然而，现实世界的数据往往稀缺、标注成本高昂，或因隐私和所有权问题而受限。合成数据 (Synthetic data)，作为一种通过算法生成，旨在模仿真实世界数据统计特性和潜在模式的数据集，已成为应对这些挑战的有力解决方案。

图1. 本教程的概览。

以大语言模型 (Large Language Models, LLMs)、扩散模型 (Diffusion Models) 和生成对抗网络 (Generative Adversarial Networks, GANs) 为代表的生成式模型的最新进展，极大地提升了跨多种数据类型生成逼真、多样且可控的合成数据的能力。由这些生成式模型驱动的合成数据正在彻底改变数据挖掘的方法，其应用涵盖了增强训练数据集、降低标注成本、实现隐私保护分析以及在低资源或长尾场景中促进创新等多个方面。

本教程旨在全面概述使用现代生成式模型进行合成数据生成的基础、方法论、实用框架、评估技术和真实世界应用。重点介绍了利用合成数据进行数据挖掘所带来的机遇与挑战，以期帮助研究人员和从业者将这些前沿技术有效应用于各自的领域。

2. 核心生成模型

本文主要涵盖三类核心的合成数据生成模型：生成对抗网络 (GANs)、扩散模型和大型语言模型 (LLMs)。

生成对抗网络 (GANs)

GANs 是合成数据生成领域的“经典”模型。其核心机制包含一个生成器 (generator) 和一个判别器 (discriminator)，生成器学习生成足以以假乱真的数据，而判别器则学习区分真实数据与生成数据。通过这种对抗性训练，生成器逐步产出遵循真实数据分布的样本。本文将介绍vanilla GANs的工作原理以及一些里程碑式的模型，如 Style-GAN 和 Drag-GAN，并探讨它们的优缺点以及为何其当前热度不及后两类模型。

扩散模型

扩散模型将生成过程视为一个增量式的去噪过程。首先，通过一个前向过程逐步向原始数据添加噪声，直至其变为纯粹的潜变量先验分布；然后，通过一个可学习的逆向过程，从噪声中一步步重建出原始数据。本文将介绍其基本工作原理，并提及DALL·E、Stable Diffusion、Sora等里程碑模型，同时会将其与GANs进行优劣对比。

大语言模型 (LLMs)

经过指令微调 (Instruction-tuned) 的大语言模型彻底改变了以文本为中心的合成数据生成方式。仅通过单个提示 (prompt)，模型就能生成语法正确、内容连贯的段落。与前两类模型不同，LLMs 主要专注于文本数据的生成，无论是处理文本查询还是以图像、视频为查询生成文本。本文将介绍该领域的关键模型和方法。

3. 实践中的合成数据

本节介绍了一些最新、最先进的合成数据生成框架。

对于基于文本的数据，将讨论如 MagPie、DataGen 和 DyVal 等系统。对于多模态数据（如文本-图像或文本-音频对），将涵盖如 Task-Me-Anything 和 AutoBench-v 等框架。

本文将探讨这些框架的设计理念、所采用的底层生成技术，以及它们如何应对数据合成中的不同挑战。此外，还会分析它们各自的优势，如可扩展性 (scalability)、可控性 (controllability) 和数据多样性 (data diversity)，以及其局限性，包括潜在的偏见、领域泛化问题和计算开销。

4. 评估与基准测试

评估合成数据的质量是机器学习和数据科学中一项关键而富有挑战性的任务。当前的评估方法主要通过定量指标和在真实世界基准上的下游任务表现来综合评估数据的保真度 (fidelity)、多样性 (diversity)、可控性 (controllability)、真实性 (truthfulness) 和下游任务效用 (downstream utility)。

实践中，一种常见的评估方式是：使用生成的合成数据集训练模型，然后在其下游任务上衡量性能，以此作为其真实世界适用性的代理指标。

尽管评估方法有所进步，但建立鲁棒且可解释的评估体系仍然是一个开放性问题。特别是，现有方法在全面解决数据偏见、伦理风险以及合成数据跨不同领域和应用的泛化能力方面仍存在不足。

5. 在数据挖掘中的应用

本节是本文的核心，系统地阐述了合成数据在不同数据挖掘任务中的应用。分类的维度是数据类型。

文本数据

合成文本数据可用于增强文本挖掘任务，如文本分类、关系抽取和命名实体识别。主要方法包括：

生成或增强输入文本：通过生成新的文本样本来丰富数据集，提高数据多样性。
为无标签数据生成伪标签：利用模型为大量未标注数据生成标签，以降低人工标注成本，提升效率。

表格数据

表格数据合成技术支持隐私保护的数据发布、数据增强和鲁棒学习。主要方法包括：

基于生成式建模：使用扩散模型、流式模型或GANs等模型生成表格数据。
条件式表格生成：在模式 (schema) 和控制信号的指导下生成特定的表格。
基于LLM的表格提取：使用大语言模型从原始文本中提取并构建表格。

图数据

图数据合成推动了分子、蛋白质、网络分析和知识图谱构建等领域的发展。关键方法包括：

结构级生成：生成图的拓扑结构。
节点/边级增强：对图中的节点或边进行增强或扩充。
条件式生成：根据文本或结构化输入生成图数据。

序列数据

序列数据合成有助于平衡类别分布、模拟罕见事件和辅助预训练。主要包括：

时间序列生成：捕捉复杂的时间动态模式。
序列推荐的表示合成：通过增强用户-物品交互数据来改进推荐系统。

视觉与多模态数据

视觉与多模态数据合成涵盖了：

图像生成：利用如Stable Diffusion、DALL-E等基础扩散模型生成图像。
多模态生成：生成对齐的视觉-语言数据对（如图像与对应的描述文本）。合成的视觉与多模态数据能够高效地创建多样化的标注数据集，从而改善视觉和多模态模型的训练效果。

6. 真实世界场景

本节探讨了合成数据在多个真实世界数据挖掘场景中的应用，特别是在健康、金融和教育领域。

健康领域：像GPT-4这样的基础模型已被用于生成合成临床记录和电子健康数据。这在支持命名实体识别、患者结果预测等任务的同时，有效保护了患者隐私。
金融领域：扩散模型和GANs等生成模型被用来模拟真实的交易数据，以用于欺诈检测，解决数据不平衡问题，并促进金融机构在隐私约束下进行数据共享。
教育领域：由GANs和LLMs生成的合成学生表现记录，使得在数据稀缺的情况下也能对学生学业成果进行准确的预测建模。

7. 展望

优缺点

本节概述了在数据挖掘应用中使用合成数据的优缺点。

优点 (Pros)：
1. 增强数据隐私：通过避免使用真实的个人记录来保护隐私。
2. 实现大规模数据生成：能够快速、低成本地生成大量数据。
3. 解决数据不平衡：可用于生成少数类样本，缓解数据倾斜问题。
缺点 (Cons)：
1. 分布失真：可能无法完全捕捉真实世界数据分布的细微差别。
2. 学习虚假模式：模型可能学习到一些不切实际或虚假的模式。
3. 对人工分布过拟合：模型可能过分拟合于合成数据的分布，导致在真实数据上泛化能力下降。

挑战与未来方向

本文最后强调了该领域的几个挑战和有前景的未来研究方向。

模型坍塌 (Model Collapse)：虽然在仅依赖合成数据进行迭代训练的生成模型中已观察到模型坍塌现象，但其对数据挖掘模型所依赖的数据分布的具体影响仍有待深入研究。
方法融合：目前仍然缺乏将基于生成式模型的方法与传统数据合成方法进行有效结合的策略。这种融合有望在更多场景下生成更可信的合成数据。