VibeVoice Technical Report

ArXiv URL: http://arxiv.org/abs/2508.19205v1
作者: Weijiang Xu; Yutao Sun; Yan Xia; Yaoyao Chang; Hangbo Bao; Furu Wei; Li Dong; Shaohan Huang; Wenhui Wang; Zhiliang Peng; 等3人
发布机构: Microsoft Research

TL;DR

本文提出了一种名为 VibeVoice 的新模型，它通过一个创新的、具有超高压缩率的连续语音tokenizer和一个基于大型语言模型的下一token扩散框架，实现了长达90分钟、多达4人的高质量长篇对话语音合成。

关键定义

VibeVoice: 一个为生成长篇、多说话人语音而设计的创新框架。其核心是利用大型语言模型（Large Language Model, LLM）作为序列处理器，结合一个高效的语音tokenizer和一个token级的扩散解码头，实现了端到端的语音生成。
连续语音 Tokenizer (Continuous Speech Tokenizer): 本文提出的一个关键组件，用于将语音信号编码为连续的latent vectors。它包含两个部分：
- 声学 Tokenizer (Acoustic Tokenizer): 基于变分自编码器（Variational Autoencoder, VAE）的$\sigma$-VAE变体，将24kHz的音频以3200倍的压缩率编码为7.5 Hz的低帧率声学特征，旨在高保真地重建音频。
- 语义 Tokenizer (Semantic Tokenizer): 采用与声学编码器类似的层次化结构，但通过自动语音识别（Automatic Speech Recognition, ASR）任务进行训练，旨在提取与文本内容对齐的语义特征。
下一Token扩散 (Next-Token Diffusion): VibeVoice的生成机制。模型以自回归的方式运行，LLM在每个时间步预测一个隐藏状态 $h_i$，该状态随后引导一个轻量级的扩散头（Diffusion Head）通过迭代去噪过程，从高斯噪声中生成对应的连续声学特征 $z_{a,i}$。

本文方法

VibeVoice的核心是一个基于大型语言模型（LLM）的序列模型，它整合了特制的音频编码器和基于扩散的解码模块，以实现可扩展的高保真多说话人语音合成。整体推理架构如下图所示。

VibeVoice 架构图图 2: VibeVoice采用下一token扩散框架合成长篇多说话人音频。声音提示和文本脚本作为初始输入，LLM处理混合上下文特征，其隐藏状态引导一个token级扩散头（D）预测声学VAE特征，最后由声学解码器（A）恢复为语音。

语音 Tokenizers

本文采用两个独立的tokenizer来分别学习声学和语义特征。

声学 Tokenizer 采用$\sigma$-VAE架构，以避免在自回归模型中常见的方差崩溃问题。其编码器将输入音频 $\mathbf{x}$ 映射为潜在分布的均值 $\mu$，而方差 $\sigma$ 则是一个预定义的分布，最终通过重参数化技巧采样得到潜向量 $\mathbf{z}$。该tokenizer具有镜像对称的编解码结构，通过7级修改过的Transformer模块（使用1D因果卷积替代自注意力）和6个下采样层，实现了从24kHz输入到7.5 Hz输出的3200倍超高压缩率。

语义 Tokenizer 的结构与声学编码器类似，但不包含VAE组件，其目标是提取确定性的、面向内容的特征。它通过一个ASR代理任务进行训练，使其输出的特征表示与文本语义对齐。

VibeVoice 模型

输入表示: 模型输入 $X$ 由用户指定的声音样本特征和文本脚本拼接而成，并用角色标识符 $Speaker_k$ 分隔：

\[X=[\texttt{Speaker}_{1}:{\mathbf{z}}_{1},...,\texttt{Speaker}_{N}:{\mathbf{z}}_{N}]+[\texttt{Speaker}_{1}:T_{1},...,\texttt{Speaker}_{N}:T_{N}]\]

其中，$\mathbf{z}_N$ 是声学潜向量表示，$T_N$ 是对应角色的文本脚本。在自回归生成过程中，已生成的语音段会被声学和语义tokenizer重新编码，作为下一时间步的输入。

创新点: VibeVoice的核心创新在于其高效的生成框架和超低帧率的语音表示。

超低帧率 (7.5 Hz) 连续声学Tokenizer: 这是实现长音频合成的关键。相比于常见的50Hz或100Hz，7.5Hz的帧率将生成一分钟音频所需的token数量减少了几个数量级。这极大地降低了LLM处理长序列的计算和内存压力，使得合成长达90分钟的音频成为可能。同时，该Tokenizer在极高的压缩率下依然保持了出色的重建质量。
下一Token扩散框架: 模型不直接预测离散的音频token，而是利用LLM的隐藏状态 $\mathbf{h}_i$ 去引导一个轻量级扩散头。这个扩散头通过多步去噪过程，从随机噪声中生成连续的声学VAE特征 $\mathbf{z}_{a,i}$。这种方式相比传统的自回归方法，能更好地保留声音的细节和丰富度，并提高了生成稳定性。
简化的端到端架构: VibeVoice摒弃了复杂的先验设计。它将声音提示（voice font）和文本脚本直接拼接后输入给LLM，由LLM统一处理上下文信息。这种端到端的模式简化了流程，并增强了模型的上下文理解能力。

实现细节: 模型的核心LLM采用了Qwen2.5的1.5B和7B版本。在训练期间，预训练的声学和语义tokenizer保持冻结，仅训练LLM和扩散头参数。训练中使用了课程学习策略，逐步将LLM处理的序列长度从4096增加到65536个token。

实验结论

VibeVoice 播客（长篇对话）

本文将VibeVoice与多个业界领先的对话语音生成系统进行了主观和客观评测。

模型	真实感 (MOS)	丰富度 (MOS)	偏好度 (MOS)	平均 (MOS)	WER (Whisper)	WER (Nemo)	SIM-O
Nari Labs Dia	-	-	-	-	11.96	10.79	0.541
Mooncast	-	-	-	-	2.81	3.29	0.562
SesameAILabs-CSM	2.89 ±1.15	3.03 ±1.11	2.75 ±1.08	2.89 ±1.12	2.66	3.05	0.685
Higgs Audio V2	2.95 ±1.13	3.19 ±1.06	2.83 ±1.16	2.99 ±1.13	5.94	5.97	0.543
Elevenlabs v3 alpha	3.34 ±1.11	3.48 ±1.05	3.38 ±1.12	3.40 ±1.09	2.39	2.47	0.623
Gemini 2.5 pro	3.55 ±1.20	3.78 ±1.11	3.65 ±1.15	3.66 ±1.16	1.73	2.43	-
VibeVoice-1.5B	3.59 ±0.95	3.59 ±1.01	3.44 ±0.92	3.54 ±0.96	1.11	1.82	0.548
VibeVoice-7B	3.71 ±0.98	3.81 ±0.87	3.75 ±0.94	3.76 ±0.93	1.29	1.95	0.692

表 1: 人类主观与客观评测结果。主观指标与SIM-O越高越好，WER越低越好。

主观评测: 在真实感、丰富度和整体偏好度上，VibeVoice-7B模型全面超过了包括Gemini 2.5 Pro和Elevenlabs在内的所有竞品。
客观评测: 在词错误率（Word Error Rate, WER）方面，VibeVoice-1.5B表现最佳，证明其语音清晰度最高。在说话人相似度（Speaker Similarity, SIM）方面，VibeVoice-7B表现最佳，说明其音色模仿能力更强。
结论: 无论是主观听感还是客观指标，VibeVoice在长篇对话生成任务上均达到了SOTA水平。扩大模型规模（从1.5B到7B）显著提升了音质和音色相似度。

VibeVoice 短句

尽管VibeVoice主要为长篇语音设计，但在短句评测基准SEED上同样表现出强大的泛化能力，取得了与专门为短句设计的模型相竞争的性能，同时其解码步数远少于其他模型。

模型	帧率 (Hz)	test-zh CER(%) ↓	test-zh SIM ↑	test-en WER(%) ↓	test-en SIM ↑
Seed-TTS	-	1.12	0.796	2.25	0.762
Spark TTS	50	1.20	0.672	1.98	0.584
VibeVoice-1.5B	7.5	1.16	0.744	3.04	0.689

表 2: SEED测试集上的部分结果。

Tokenizer 重建质量

Tokenizer	Token 速率(Hz)	PESQ ↑	STOI ↑	UTMOS ↑
Encodec (8q)	600	2.72	0.939	3.04
WavTokenizer (1q)	75	2.373	0.914	4.049
Ours (Acoustic)	7.5	3.068	0.828	4.181

表 3: LibriTTS test-clean数据集上的部分语音tokenizer重建质量客观评测。

实验结果表明，本文提出的声学tokenizer在远低于其他模型的token速率（7.5 Hz）下，依然在PESQ和UTMOS（感知质量预测）等关键指标上取得了最佳性能。这验证了该tokenizer在实现极致压缩的同时，有效保留了音频高保真度的能力，是VibeVoice成功的基石。

总结

VibeVoice通过超低帧率的混合语音表征与端到端的下一token扩散框架相结合，显著推进了长篇对话语音合成技术的发展。它能够可扩展地生成长达90分钟、多达4位说话人的高品质音频，在主观听感和客观指标上均超越了现有SOTA系统。

局限性与风险:

语言限制：目前仅支持英语和中文。
非语音音频：模型只关注语音合成，不处理背景噪音、音乐等。
语音重叠：当前模型无法生成对话中的语音重叠部分。
滥用风险：高质量的合成语音可能被用于制作深度伪造（deepfakes）音频，从事欺诈或传播虚假信息。