A Survey of Vibe Coding with Large Language Models

ArXiv URL: http://arxiv.org/abs/2510.12399v1
作者: Lingrui Mei; Xueqi Cheng; Yuyao Ge; Yujun Cai; Shenghua Liu; Tianyu Liu; Jiafeng Guo; Jiayu Yao; Yujia Zheng; Tianhao Li; 等14人
发布机构: Chinese Academy of Sciences; Duke University; Peking University; State Key Laboratory of AI Safety; University of California; University of Chinese Academy of Sciences; University of Queensland

关于使用大型语言模型进行 Vibe Coding 的综述

引言

大型语言模型 (Large Language Models, LLMs) 通过能够流畅理解和生成自然语言的对话系统，显著推动了人工智能的发展。在软件开发领域的早期应用中，LLMs 主要作为辅助工具，开发者通过自然语言提示生成代码片段，但由于准确性有限，仍需大量手动审查和迭代调试。

随着GPT-4和Claude Sonnet 4等先进架构的出现，LLM的能力实现了质的飞跃，能够通过与环境的动态交互（如执行shell命令、文件操作和测试）自主完成编程任务。这些智能体在真实世界的编程任务上取得了快速进展。例如，在SWE-bench基准测试上，SWE-agent达到了12.5%的解决率，而OpenHands在SWE-bench Verified上达到了53%。

更强大的LLM（如GPT-5 Pro）的进步催生了一种新的开发范式——“Vibe Coding”。在这种模式下，开发者不再逐行审查代码，而是通过观察AI生成代码的执行结果来验证其正确性，并进行迭代式的自然语言需求沟通和反馈。编码智能体 (Coding Agents) 不仅生成代码，还能自主配置环境、执行程序、自我诊断错误并更新实现，这标志着人对AI信任度的显著提升，从传统的代码理解转向了结果导向的验证。

然而，仅有强大的智能体是不够的。任务的复杂性暴露了非结构化自然语言指令的局限性，它难以传达细致的需求和架构约束。实证研究甚至发现，经验丰富的开发者在使用AI工具时，任务完成时间反而增加了19%。有效的人-AI协作需要系统性的提示工程和上下文工程 (context engineering)、结构化的指令以及在不同交互类型中平衡人与智能体的主导权。

为填补这一关键空白，本文首次对基于大型语言模型的Vibe Coding进行了全面而系统的综述。本文旨在：(1) 为理解软件开发中的人-智能体协作建立严谨的理论基础；(2) 为开发者选择和实施合适的开发策略提供可行的指导；(3) 识别涵盖技术基础设施、安全机制和人因工程的关键挑战与未来方向。这项工作为新兴的AI增强软件工程领域奠定了概念基础，并为研究人员和实践者提供了技术路线图。

图1：Vibe Coding生态系统概述，包含理论基础、开发模型、基础设施和反馈机制。

组件	描述
$\mathcal{S}_{\mathcal{P}}$	状态空间，由项目的当前状态定义。
$\mathcal{A}_{\mathcal{H}\rightarrow\mathcal{A}_{\theta}}$	动作空间，由人类给智能体的指令触发。
$\mathcal{T}_{\mathcal{A}_{\theta} \mid \mathcal{P}}$	转移函数，受项目规范约束。
$\mathcal{R}_{\mathcal{H}}$	奖励函数，由人类评估决定。
$\gamma$	折扣因子。

智能体的条件生成过程

给定人类意图 $\mathcal{I}$、项目上下文 $\mathcal{K}\subseteq\mathcal{P}$（从项目信息空间中检索到的相关子集）和执行环境 $\mathcal{E}$，智能体以自回归方式生成代码序列 $Y=(y_{1},\ldots,y_{T})$，其联合概率分解为：

\[P_{\theta}(Y \mid \mathcal{I},\mathcal{K},\mathcal{E})=\prod_{t=1}^{T}P_{\theta}(y_{t} \mid y_{<t},\mathcal{C}_{t})\]

其中 $\mathcal{C}_{t}=\mathcal{A}(\mathcal{I},\mathcal{K},\mathcal{E},y_{<t})$ 表示在步骤 $t$ 的动态上下文。上下文的组件 $c_i$ 对应于三方关系中的不同信息源，包括：

$c_{\text{instr}}$: 系统指令和任务需求。
$c_{\text{code}}$, $c_{\text{data}}$, $c_{\text{know}}$: 分别是代码库、数据库和领域知识。
$c_{\text{tool}}$, $c_{\text{mem}}$, $c_{\text{tasks}}$: 分别是可调用工具的定义、历史交互记忆和当前任务状态。

Vibe Coding 的优化目标

从三方视角看，Vibe Coding 的核心挑战是在有限的上下文窗口 $L_{\max}$ 内，找到最优的上下文编排策略 $\mathcal{F}^{*}={\mathcal{A},\text{Retrieve},\text{Filter},\text{Rank}}$，以最大化生成质量。其优化目标是：

\[\mathcal{F}^{\*}=\arg\max_{\mathcal{F}}\mathbb{E}_{\tau\sim\mathcal{T}}[R(P_{\theta}(Y \mid \mathcal{C}_{\mathcal{F}}(\tau)),Y_{\tau}^{\*})]\quad\text{s.t.}\quad \mid \mathcal{C}_{\mathcal{F}}(\tau) \mid \leq L_{\max}\]

其中，$\mathcal{C}_{\mathcal{F}}(\tau)$ 是策略 $\mathcal{F}$ 为任务 $\tau$ 从项目 $\mathcal{P}$ 中检索和过滤的上下文，$Y_{\tau}^{*}$ 是人类心智模型中的理想输出。

人-智能体协同循环与任务演进

Vibe Coding 的核心机制是通过持续反馈进行的人类指导，以引导智能体实现项目目标，并在此过程中动态扩展需求空间。其迭代演化过程可以表示为：

\[(o_{k+1},\mathcal{I}_{k+1})=\begin{cases}(o_{k},\mathcal{I}_{k})&\text{若 }\mathcal{A}_{k}=o_{k}\text{ (完全接受, 终止)}\\ (\mathcal{A}_{\theta}(o_{k}\setminus\mathcal{A}_{k};\delta_{k},\mathcal{I}_{k},\mathcal{K}),\mathcal{I}_{k})&\text{若 }\delta_{k}\in\mathcal{F}\text{ (局部修正)}\\ (\mathcal{A}_{\theta}(\mathcal{I}_{k}\cup\{\delta_{k}\},\mathcal{K}),\mathcal{I}_{k}\cup\{\delta_{k}\})&\text{若 }\delta_{k}\in\mathcal{I}_{\text{new}}\text{ (需求扩展)}\end{cases}\]

这里，$(\mathcal{A}_{k},\delta_{k})$ 是人类在观察了执行结果 $\mathcal{R}_{k}$ 后给出的反馈。

迭代式任务扩展的公式化

Vibe Coding 支持需求的动态演进。任务演进轨迹被定义为一个指令集序列 ${\mathcal{I}_{0},\mathcal{I}_{1},\ldots,\mathcal{I}_{K}}$，其中第 $k$ 次扩展被公式化为：

\[\mathcal{I}_{k+1}=\mathcal{I}_{k}\oplus\Delta\mathcal{I}_{k}=\mathcal{I}_{k}\cup\{\delta_{k}^{(1)},\delta_{k}^{(2)},\ldots,\delta_{k}^{(m_{k})}\}\]

这种机制体现了两个关键特性：(1) 认知需求延迟满足：人类无需在初期详尽规划所有细节，而可以在观察智能体输出后逐步完善约束。(2) 机会主义需求发现：当智能体输出暴露了隐性需求或边界情况时，人类可以立即补充约束。

整个开发周期被建模为一个多阶段优化问题，在每个阶段 $k$ 对应一个任务空间 $\mathcal{I}_{k}$：

\[\max_{\{o_{k}\}_{k=0}^{K}}\sum_{k=0}^{K}\omega_{k}\cdot R(o_{k},Y_{\mathcal{I}_{k}}^{*})\quad\text{s.t.}\quad o_{k}=\mathcal{A}_{\theta}(\mathcal{I}_{k},\mathcal{K},\mathcal{E}),\quad\mathcal{I}_{k}\subseteq\mathcal{I}_{k+1}\]

这个公式捕捉了 Vibe Coding 的精髓：通过持续的人类干预和任务空间的动态扩展，系统逐步收敛到最终的软件目标。这种人、智能体和项目三者的协同构成了一个自适应、需求可演进的闭环软件开发系统。

图3：Vibe Coding 的优势，将团队级别的能力赋予个人，实现持续开发和质量收敛，并拓宽软件创造者生态系统。

为何需要 Vibe Coding

Vibe Coding 将软件开发从被动辅助转变为协作伙伴关系，解决了在普及化、工作流效率和生态系统扩展方面的挑战。

个人开发者的团队级能力

Vibe Coding 使个人开发者能够交付团队规模的功能。传统上，生产级应用需要协调前端、后端、数据库、安全、DevOps 和 QA 等多个专家。而编码智能体可以提供跨领域的专业知识。开发者专注于需求，而智能体则负责跨技术栈的实现。这使得资源有限的实体能将原型开发时间从几周压缩到几天。

持续开发与质量收敛

Vibe Coding 旨在平衡开发速度和代码质量。传统工作流常常需要在交付速度和测试严谨性之间做出权衡。Vibe Coding 通过与人类约束解耦的自主迭代来同时提升两者。智能体可以进行全天候的自动化测试、重构和性能分析，从而将人类的认知资源解放出来，用于更高层次的设计和优化。

拓宽软件创造者生态

Vibe Coding 通过降低技术门槛来普及开发。传统开发要求在实现想法前具备广泛的编程知识。在 Vibe Coding 中，自然语言成为主要的创造界面。领域专家（如医生、教育家、设计师）可以直接表达他们的需求，而无需计算机科学教育。这使得创新来源多样化，并可能通过“创作者经济”的扩展产生经济影响，标志着软件素养从专业技能向普适能力的演进。

用于编码的大型语言模型

代码LLM的数据基础

预训练代码语料库

代码LLM需要来自多样化来源的大规模训练数据。这些模型主要依赖于从GitHub和Stack Overflow等开放平台获取的大规模代码语料库，并根据仓库星标数、文档完整性和社区参与度等指标进行质量过滤。

训练数据集在构成和策划策略上差异显著，主要有两种方法：深度优先策略，侧重于流行语言以保证质量；广度优先策略，涵盖多种语言以确保覆盖面。

A Survey of Vibe Coding with Large Language Models

关于使用大型语言模型进行 Vibe Coding 的综述

引言

相关工作

相关综述

基础LLM

上下文学习 (In-Context Learning)

后训练 (Post-Training)

智能体系统 (Agent Systems)

基础技术

用于代码生成的强化学习

自主编码智能体系统

函数调用 (Function Calling)

监督微调 (Supervised Fine-Tuning)

Vibe Coding：管理编码智能体的工程学

Vibe Coding 的定义

三方关系的公式化