PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

8B模型超越GPT-5！PaCoRe：解锁200万Token推理算力的新范式

当前的大语言模型（LLM）存在一个显著的短板：推理能力被死死地限制在了上下文窗口（Context Window）里。一旦思维链（Chain-of-Thought）的长度填满了窗口，推理就必须停止。

ArXiv URL：http://arxiv.org/abs/2601.05593v1

但如果我们可以打破这个限制呢？

来自北京大学、阶跃星辰（StepFun）和清华大学的研究团队刚刚发布了一项重磅工作——PaCoRe。这项技术通过一种全新的“并行协同推理”架构，让一个仅有 8B参数 的模型，在HMMT 2025数学竞赛基准上达到了 94.5% 的准确率，一举超越了GPT-5（93.2%）。

它通过在推理阶段并行生成并协同处理高达 200万Token 的有效计算量，却完全不会撑爆模型的上下文窗口。这究竟是如何做到的？

传统的提升推理能力的方法（如CoT）是线性的：模型一步接一步地思考，所有的中间步骤都堆积在同一个上下文窗口中。这就像一个人在解一道难题，草稿纸（上下文）写满了就没法继续了。

PaCoRe（Parallel Coordinated Reasoning）则完全不同。它不再依赖单一的深度搜索，而是转向了广度的协同探索。

如上图所示，PaCoRe的推理过程像是一个高效的团队协作：

并行探索（Parallel Exploration）：在每一轮推理中，模型同时启动多个并行的推理轨迹（Trajectories）。这相当于派出了几十个分身同时去试错。
消息压缩（Message Compaction）：这是PaCoRe最精妙的一步。它不会把所有分身的废话都塞进下一轮，而是提取每个轨迹的“最终结论”，压缩成简短的“消息”（Message）。
协同合成（Synthesis）：模型读取上一轮所有分身传回的压缩消息，综合这些线索，指导下一轮的探索。

通过这种“生成-压缩-协同”的循环，PaCoRe可以在固定大小的上下文窗口内，通过多轮迭代，累积出相当于 数百万Token 的有效推理计算量（Test-Time Compute, TTC）。

仅仅把并行的结果喂给模型是不够的。研究人员发现，普通的推理模型往往患有“推理唯我论”（Reasoning Solipsism）：即使你给它提供了其他分支的高质量线索，它也倾向于忽略这些信息，坚持自己从头算一遍，导致计算资源的浪费。

为了解决这个问题，PaCoRe引入了大规模的、基于结果的 强化学习（Reinforcement Learning）。

这不仅仅是简单的“少数服从多数”投票（Majority Voting），而是训练模型掌握一种更高级的能力——推理合成（Reasoning Synthesis）。经过训练的PaCoRe模型学会了：

实验表明，经过这种训练的模型甚至能从全是错误信息的上下文中，“推导”出正确的解题思路，展现出了惊人的鲁棒性。

PaCoRe的效果在数学和代码任务上尤为显著。

从上图左侧可以看到，在HMMT 2025基准测试中：

而在右侧的LiveCodeBench测试中，未经PaCoRe训练的模型（RLVR-8B）即使增加了计算量，性能也几乎没有提升（蓝线平直），说明它无法利用额外的信息。而PaCoRe-8B（红线）则随着计算量的增加，性能一路飙升，证明了“合成能力”的重要性。

PaCoRe不仅是一个具体的模型，更是一种通用的推理框架。它揭示了一个关键趋势：AI的未来不仅仅在于把模型做大（Pre-training Scaling），更在于如何在推理阶段更聪明地使用算力（Test-Time Scaling）。

通过解耦“推理量”与“上下文窗口”，PaCoRe让模型能够进行几乎无限的深度思考。目前，该团队已经开源了模型权重、训练数据和完整的推理流程，这无疑将加速社区在这一方向上的探索。

当一个8B模型学会了像人类团队一样“分工协作”和“开会总结”，它所爆发出的能量，足以让最顶尖的闭源模型感到压力。