AI当上科学家：字节跳动AlphaResearch，8项难题2次击败人类专家

大型语言模型（LLM）已经能在解题、编程等任务上媲美甚至超越人类，但它们能做的仅限于已有知识的“排列组合”吗？AI能否像人类科学家一样，真正地“发现”前所未有的新知识、新算法？

论文标题：AlphaResearch: Accelerating New Algorithm Discovery with Language Models ArXiv URL：http://arxiv.org/abs/2511.08522v1

来自字节跳动、纽约大学等机构的最新研究 AlphaResearch，朝着这个终极问题迈出了关键一步。它构建了一个自主研究智能体（Agent），在与人类专家的8场算法发现竞赛中，取得了2场胜利！尤其在“圆形装箱”问题上，它发现的算法超越了所有已知的最好结果。

这项工作展示了AI从“知识的应用者”转变为“知识的发现者”的巨大潜力。

图1：在“圆形装箱 (n=26)”问题上，AlphaResearch（蓝色）的性能显著优于AlphaEvolve等其他方法。

算法发现的“两难困境”

让AI自主发现新算法，远比我们想象的要复杂。过去的方法常常陷入一个两难的境地：

一方面，像 AlphaEvolve 这样的方法，完全依赖基于执行的验证（execution-based verification）。它们能确保生成的代码可以运行并得到一个可量化的结果。但这就像一个只会埋头做实验、却不懂科研风向的研究生，可能会找到一个技术上正确、但毫无新意或价值的“平庸”解法。

另一方面，单纯依赖AI进行想法生成（idea generation）和评估，又容易变得天马行空。AI或许能提出非常新颖的概念，可一旦真正动手实现，却发现这些想法在计算上根本不可行，或者不满足问题的基本约束。

如何让AI既能大胆创新，又能脚踏实地？AlphaResearch给出的答案是：双重研究环境。

AlphaResearch的核心机制：双重研究环境

AlphaResearch 的创新之处在于它模拟了一个更真实的科研流程，包含两个相互协作的核心环境。我们可以把它想象成一个高效的科研实验室。

图2：AlphaResearch 的工作流程。它首先训练一个奖励模型，然后通过“提出想法 -> 双重环境验证 -> 优化”的循环来自主发现算法。

1. 模拟同行评审环境：科研的“导师”

在真正的科研中，一个想法在投入大量资源去实现之前，往往会先经过资深研究者的评估。这个想法有新意吗？有可行性吗？值得尝试吗？

AlphaResearch 通过训练一个奖励模型（Reward Model, RM）来模拟这个“同行评审”过程。这个模型就像一位经验丰富的导师。

研究团队收集了2017到2024年顶级会议ICLR的所有同行评审记录，用论文摘要作为输入，真实的评审平均分作为输出，微调训练出了一个名为 $AlphaResearch-RM-7B$ 的模型。

这个“导师”模型的效果如何？测试结果令人惊讶：在判断一篇论文（想法）能否被接收时，$AlphaResearch-RM-7B$ 的准确率达到了72%，显著超过了GPT-5、其他基线模型乃至人类专家的表现！

有了这位“导师”，AlphaResearch 产生的每个新想法都会先过一遍审。只有那些被认为有潜力、有新意的想法，才会被放行到下一步，大大避免了在“坏点子”上浪费计算资源。

2. 基于执行的验证环境：实验的“执行者”

通过了“导师”评审的好想法，接下来就需要进入“实验室”动手验证了。这就是基于执行的验证环境（execution-based verification）。

它就像一位严谨的实验员，负责将新想法转化为具体代码，然后运行并测量结果。

验证模块：检查代码是否满足问题的所有约束（例如，圆形装箱问题中，所有圆形都必须在正方形边界内且互不重叠）。
测量模块：如果代码有效，就计算其性能得分 $r_k$。

这个分数会作为最直接的反馈，指导智能体下一轮的迭代优化。

通过“导师”和“执行者”的协同，AlphaResearch 形成了一个高效的闭环：提出想法 -> 导师评审 -> 执行者验证 -> 结果反馈 -> 优化想法。这个循环不断进行，直到找到超越现有最佳水平的算法。

实战检验：AlphaResearchComp 竞赛

为了公平地评估 AlphaResearch 的能力，研究者们创建了一个新的评测基准 AlphaResearchComp。

这个基准包含了8个开放式的算法难题，例如“圆形装箱”、“利特尔伍德多项式”等，并为每个问题都找到了当前可验证的、人类研究者达到的最佳记录（human-best）。

问题名称	简单描述	目标
Packing Circles (n=26)	在单位正方形内装入26个半径可变的圆	最大化半径之和
Packing Circles (n=32)	在单位正方形内装入32个半径可变的圆	最大化半径之和
Littlewood Polynomials	寻找特定多项式在单位圆上的最小值	最小化
Third Autocorrelation	寻找特定序列的自相关上界	最小化
…（其他4个问题）…	…	…

表格概览：AlphaResearchComp中的部分问题。

比赛结果显示，AlphaResearch 在8个问题中，有2个问题找到了超越人类专家的解法，但在其余6个问题上仍落后。

尤其是在“Packing Circles (n=32)”问题上，AlphaResearch 优化出的结果达到了2.939，超越了人类设计的最佳方案和AlphaEvolve的先前记录，成为了目前已知的新SOTA（State-of-the-Art）。

同行评审“导师”的重要性

这个模拟的“同行评审”环境到底有多大用处？消融实验给出了答案。

研究者在没有“导师”模型（$AlphaResearch-RM-7B$）的情况下运行了智能体。结果发现，这位“导师”的缺席，导致智能体尝试了大量最终执行失败或效果不佳的“坏点子”。

图6：有无RM的对比。在400次迭代中，RM成功过滤掉了151个“坏点子”，其中108个被证实是会导致执行失败的想法，准确率超过70%。

如图所示，$AlphaResearch-RM-7B$ 成功地提前否决了151个低质量想法。其中108个事后被证明确实无法成功执行。这相当于在科研初期就避免了71.5%的无用功，极大地提升了探索效率。

挑战与展望

尽管AlphaResearch取得了突破，但6/8的失败案例也提醒我们，AI自主科研之路依然漫长。在一些更复杂的难题上，AI仍难以超越人类积累的深厚直觉和洞察力。

该研究也指出了未来的方向：

将该方法扩展到更复杂的现实应用，如加速张量计算。
为智能体集成更多外部工具，提升其解决复杂问题的能力。
使用更大、更强的模型和更丰富的评审数据来训练奖励模型“导师”。

AlphaResearch 的探索，如同一道曙光，照亮了AI辅助科学发现的未来。它证明了，通过巧妙地模拟真实世界的科研流程，AI不仅能学习和应用知识，更有潜力去探索和拓展人类知识的边界。我们或许正处在一个由AI驱动的科研新范式的前夜。