Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model
字节Seedance 1.5 pro发布:原生音视频联合生成,推理加速超10倍

视频生成领域的“军备竞赛”在过去一年里从未停歇,从Sora到Kling,再到Veo,画面的逼真度已令人惊叹。然而,一个长期被忽视的痛点始终存在:声音与画面的割裂。大多数现有方案仍是将视频生成与音频生成作为两个独立的步骤,导致“口型对不上”、“声画不同步”等问题频发。
ArXiv URL:http://arxiv.org/abs/2512.13507v2
近日,字节跳动(火山引擎)发布的 Seedance 1.5 pro 正式向这一难题发起了挑战。作为一个原生音视频联合生成(Native Audio-Visual Joint Generation)的基础模型,它不再是简单的“视频+配音”拼接,而是通过双分支扩散Transformer架构,实现了画面与声音的同步生成。更令人瞩目的是,通过极致的工程优化,其推理速度提升了超过10倍,让专业级的内容创作不再遥不可及。
原生联合生成:架构的胜利
Seedance 1.5 pro 的核心突破在于其架构设计。传统的视频生成往往先生成无声视频,再通过“图生音”模型配音,这种级联方式天然存在语义和时间上的错位。
该研究提出了一种基于 MMDiT 的统一多模态联合生成架构。这种设计允许模型在生成过程中进行深度的跨模态交互。简单来说,模型在“构思”画面的每一帧时,同时也由同一套神经网络在“构思”对应的声音波形。
这种机制带来了两个显著优势:
-
精准的时间同步:无论是说话时的口型,还是物体碰撞时的声响,都能实现帧级别的对齐。
-
语义一致性:视觉流和听觉流共享语义理解,确保了生成的音频在情感和氛围上与视频高度契合。
数据与训练:从SFT到RLHF的精细打磨
为了训练这样一个庞然大物,Seedance 1.5 pro 构建了一套全面的音视频数据框架。这不仅包括多阶段的数据清洗流水线,还引入了先进的描述系统(Captioning System),能够同时为视频和音频模态提供丰富、专业级的描述。
在后训练(Post-training)阶段,该研究采用了极其严苛的优化策略:
-
监督微调(Supervised Fine-Tuning, SFT):使用高质量的音视频数据集进行微调,奠定模型的基础能力。
-
人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF):这是大语言模型成功的关键技术,如今被成功迁移到了音视频生成领域。研究团队设计了多维度的奖励模型(Reward Models),专门针对动作质量、视觉美感和音频保真度进行打分和优化。
images/page_1_Figure_7.jpg
上图展示了 Seedance 1.5 pro 的训练与推理流水线概览。值得注意的是,针对 RLHF 流程的底层优化使得训练速度提升了近3倍。
推理加速:10倍以上的效率飞跃
对于生成式模型而言,推理成本往往是落地的最大障碍。Seedance 1.5 pro 引入了一个高效的加速框架。
通过优化多阶段蒸馏(Multi-stage Distillation)框架,模型大幅减少了生成过程中所需的函数评估次数(Number of Function Evaluations, NFE)。结合量化(Quantization)和并行化(Parallelism)等基础设施层面的优化,该模型实现了端到端超过 10倍 的推理加速,同时未牺牲生成质量。这意味着,生成一段高质量的音视频内容,用户等待的时间将大幅缩短。
核心能力:不仅是“能动”,更是“懂戏”
在实际应用层面,Seedance 1.5 pro 展现出了极强的专业潜力,特别是在以下几个方面:
-
极致的方言口型同步:这是该模型的一大亮点。它不仅支持多语言,更能精准捕捉不同方言(如中国各地方言)的独特韵律和情感张力,并实现精准的口型匹配。这对于本土化的短剧、电影制作来说是巨大的福音。
-
电影级镜头控制:模型具备自主的镜头调度能力,能够执行长镜头、希区柯克变焦(Dolly Zoom)等复杂的运镜手法,配合专业级的色彩分级,极大地提升了视频的动态张力。
-
叙事连贯性:通过增强的语义理解,模型能够更好地分析叙事上下文,确保生成的音视频片段在情节和情感上连贯统一。
评测表现:对标Sora 2与Kling
为了验证模型效果,研究团队构建了 SeedVideoBench 1.5 评测基准,引入了更符合影视制作标准的评估指标。
images/page_4_Figure_10.jpg
在与 Kling 2.5/2.6、Veo 3.1 以及 Sora 2 等顶尖模型的对比中,Seedance 1.5 pro 在音视频同步性、动作表现力和叙事一致性上均表现出色。特别是在音频表现力上,虽然 Sora 2 在情感爆发力上极强,但 Seedance 1.5 pro 展现出了更为平衡和可控的特质,避免了过度夸张,更适合需要稳定基调的专业制作场景。
总结
Seedance 1.5 pro 的发布,标志着视频生成技术正从“无声默片”时代加速迈向“有声电影”时代。通过原生联合生成架构和极致的工程优化,它不仅解决了音画同步的顽疾,更将推理效率提升到了一个新的量级。
目前,Seedance 1.5 pro 已在火山引擎上线,并计划于2025年12月前集成到豆包(Doubao)和即梦(Jimeng)等平台中。对于创作者而言,这或许意味着一个全流程AI辅助创作的新时代已经到来。