Learning to Discover at Test Time
TTT-Discover:开源模型+测试时训练,仅需数百美元刷新多领域SOTA

当面对一个从未见过的科学难题时,人类专家通常不会只依赖“既有知识”去猜测答案,而是会通过不断的尝试、失败、总结经验,在解决问题的过程中“现场学习”。
ArXiv URL:http://arxiv.org/abs/2601.16175v1
然而,目前的AI范式——即便是最强的推理模型(如o1系列)——在测试时(Test Time)通常也是“大脑冻结”的。它们可以通过思维链(CoT)或搜索策略(如Best-of-N)来探索解空间,但模型本身的权重是固定的。这就好比一个学生在考试时只能靠回忆,而不能从刚才做错的草稿中通过学习变得更聪明。
近日,来自Astera Institute、NVIDIA、Stanford等机构的研究团队提出了一种全新的范式:Test-Time Training to Discover (TTT-Discover)。
该研究打破了“测试时模型冻结”的铁律,允许大模型在解决特定问题时,利用强化学习(RL)实时更新自身权重。令人震惊的是,该方法仅使用开源模型(gpt-oss-120b),在每个问题上花费仅数百美元,就在数学、GPU内核优化、算法竞赛和生物学等多个领域刷新了SOTA(State of the Art),甚至超越了人类专家和闭源前沿模型。
从“搜索”到“发现”:为什么我们需要测试时训练?
在解决科学发现类问题(Discovery Problem)时,AI面临的核心挑战是分布外泛化(Out-of-Distribution Generalization)。真正的发现,往往位于模型训练数据的边界之外。
此前的主流方法是测试时计算扩展(Test-time Scaling),例如AlphaEvolve。这类方法通过提示(Prompting)一个冻结的LLM进行搜索。虽然可以通过进化算法优化提示词,但LLM本身并没有“进步”。
TTT-Discover则更进一步:它在测试时直接对LLM进行强化学习训练。
这种“持续学习”的形式非常特殊,因为它与传统的强化学习目标截然不同:
-
目标是极值,而非均值:传统RL试图最大化所有尝试的平均奖励;而科学发现只需要一个最好的解决方案。
-
专注于特例,而非泛化:模型不需要学会解决所有问题,只需要解决当前这一个特定的难题。

图1:TTT-Discover在测试时针对单个问题持续训练LLM。随着训练步数(Step 0到49)的增加,奖励分布显著向高分移动,最终超越了人类最佳水平(Prior Art)。
技术核心:为“发现”而生的强化学习
该研究将每个科学问题定义为一个独立的马尔可夫决策过程(MDP)。为了适应上述特殊目标,TTT-Discover在算法设计上做出了关键调整。
1. 独特的训练目标
传统的RL算法可能会让策略坍缩到“安全但平庸”的高分区域。为了鼓励发现,TTT-Discover设计了一个加权的训练目标 $J_{\beta}(\theta)$:
\[J_{\beta}(\theta)=\mathbb{E}\_{s\sim\texttt{reuse}(\mathcal{H})}\left[\log\mathbb{E}\_{a\sim\pi\_{\theta}(\cdot\mid s)}\left[e^{\beta(s)R(s,a)}\right]\right]\]这个目标函数通过指数加权,极大地偏向于那些最有希望的解决方案。简单来说,模型不仅是从错误中学习,更是疯狂地从那些“灵光一现”的高分尝试中汲取养分,迅速调整权重以生成更多类似的解。
2. 搜索与复用
在探索策略上,TTT-Discover结合了PUCT(Predictor + Upper Confidence Bound applied to Trees)算法来管理复用缓冲区(Reuse Buffer)。这确保了模型既能利用已知的高分路径,又能保持一定的探索多样性,避免过早陷入局部最优。
实战战绩:全面刷新SOTA
研究团队在四个截然不同的领域进行了测试,结果令人印象深刻。值得注意的是,所有结果都是基于开源模型 gpt-oss-120b 取得的,且代码已开源。
1. 数学:Erdős 最小重叠问题
这是一个经典的组合数论问题。自1955年提出以来,人类数学家一直在寻找上下界的突破。
TTT-Discover 发现了一种非对称的构造方法,成功将该问题的上界从之前的 $0.380924$(由AlphaEvolve保持)进一步降低。这不仅是数值上的微小提升,更是数学结构上的新发现。此外,在自相关不等式(Autocorrelation Inequalities)问题上,它也构建出了优于现有最佳结果的阶跃函数。

图2:TTT-Discover发现的算法通过FFT加速梯度下降,找到了最小化相关性边界的新解。
2. 工程:GPU 内核优化 (2倍速提升)
在GPU编程领域,每一微秒的优化都价值连城。研究团队在GPUMode竞赛的任务中测试了TTT-Discover。
结果显示,TTT-Discover编写的GPU内核(TriMul competition)比现有最佳人类解决方案快了近 2倍。
- 人类专家评价:GPUMode组织者指出,AI生成的方案极其激进地进行了算子融合(Operator Fusion),减少了内存带宽压力,这是大多数人类选手未能做到的。
3. 算法设计:AtCoder 竞赛
在AtCoder的启发式算法竞赛(Heuristic Competitions)中,TTT-Discover 在两个历史比赛(ahc039 和 ahc058)中均取得了超越已知最佳AI结果的成绩,其生成的代码能够处理极其复杂的调度和规划问题。
4. 生物学:单细胞分析去噪
在单细胞RNA测序数据分析中,去噪是一个关键步骤。TTT-Discover 发现的去噪算法在均方误差(MSE)和泊松指标上均优于目前的SOTA方法(如MAGIC和ALRA),得到了MIT生物学教授的高度评价。
总结与启示
TTT-Discover 的成功向我们展示了一个反直觉的事实:解决最难的科学问题,可能并不需要更强的预训练模型,而是需要更强的“临场学习”能力。
该研究证明,通过在测试时进行针对性的强化学习,即使是参数量较小的开源模型,也能在特定领域超越闭源的顶级模型。更重要的是,这种方法的成本极低——在Tinker平台上,解决一个问题的成本仅需数百美元。
这或许预示着AI科学发现的新范式:未来的AI科学家,不再是带着装满知识的“死脑筋”进考场,而是带着一本空白的草稿纸,在考场上通过不断的自我进化,推导出人类未知的真理。