HiFi-RAG: Hierarchical Content Filtering and Two-Pass Generation for Open-Domain RAG
NeurIPS 2025冠军:Google HiFi-RAG如何用分层过滤让RAG性能暴涨19%

在检索增强生成(Retrieval-Augmented Generation, RAG)的落地实践中,开发者们往往面临一个棘手的两难困境:检索回来的文档太多,充满了无关噪声,导致模型产生幻觉(即“Garbage-in, Garbage-out”);而如果检索太少,又会遗漏关键信息。
ArXiv URL:http://arxiv.org/abs/2512.22442v1
如何在海量的互联网信息中精准提取出那“万分之一”的有效上下文?
Google团队在NeurIPS 2025的MMU-RAGent竞赛中给出了他们的答案。凭借HiFi-RAG(Hierarchical Filtering RAG)系统,他们一举夺得了Text-to-Text静态评估赛道的冠军。这套方案最引人注目的地方在于:它大胆地抛弃了传统的基于向量嵌入(Embedding)的检索过滤模式,转而采用了一种基于LLM的多级分层过滤流水线。
通过巧妙组合Gemini 2.5 Flash的极致速度与Gemini 2.5 Pro的深度推理能力,HiFi-RAG不仅在ROUGE-L指标上比基线提升了惊人的19.6%,更展示了一种成本与性能完美平衡的RAG新范式。
核心理念:告别向量,拥抱分层过滤
传统的RAG系统通常依赖向量相似度搜索来召回文档。然而,HiFi-RAG采取了完全不同的策略。它借鉴了机器学习中“级联模型”的思想——利用低成本的模型来过滤大量数据,只将最精华的部分留给高成本模型处理。
具体来说,HiFi-RAG利用价格低廉(比Pro版本便宜$4-6\times$)且速度极快的Gemini 2.5 Flash作为“守门人”,负责查询重写、URL过滤和内容分层筛选;而将昂贵且强大的Gemini 2.5 Pro保留在最后一步,专注于最终答案的生成与推理。
这种设计确保了深度推理模型只接收最显著的信息,从而大幅降低了计算负载并提高了生成质量。
HiFi-RAG 的五步流水线
HiFi-RAG的成功归功于其精心设计的五个阶段:
1. 查询规划(Query Planning)
用户的原始提问往往过于口语化或冗长(例如要求“像给五岁孩子解释一样”)。如果直接用这些词去搜索,效果通常很差。
HiFi-RAG利用Gemini 2.5 Flash分析用户意图,并将其转化为简洁、高效的Google搜索查询。实验表明,这一步能够提取核心意图和独特的搜索词,显著提高了复杂约束条件下的召回率。
2. 检索与URL预过滤(Retrieval and URL Filtering)
这是HiFi-RAG“降噪”的第一刀。在调用昂贵的爬虫抓取网页内容之前,系统会先利用Gemini Flash分析搜索API返回的URL、标题和预览内容。
通过这一步,系统可以主动丢弃那些明显不相关的域名(例如在回答航空航天问题时丢弃游戏网站)、过时的信息或纯粹的推测性讨论。数据显示,这一过程平均减少了33.5%的URL抓取量,既节省了时间又提升了上下文质量。
3. 分层内容解析与过滤(Hierarchical Content Parsing & Filtering)
这是该方案最核心的创新点。HiFi-RAG没有使用向量数据库进行重排序(Reranking),而是实施了LLM-as-a-Reranker策略。
-
解析:使用专门的API处理网页和论坛(如Reddit)的复杂结构。
-
过滤:部署Gemini 2.5 Flash,仅根据每个章节的“标题”和“前200个字符”来评估其与用户查询的相关性。
这种轻量级的评估方式极其高效,平均剔除了60.5%的无关文本块。这意味着,最终进入生成模型上下文窗口的,都是经过层层筛选的高密度信号。
4. 两阶段生成(Two-Pass Generation)
当高质量的上下文准备好后,Gemini 2.5 Pro登场了。为了解决“事实准确性”与“风格对齐”难以兼得的问题,HiFi-RAG采用了两轮对话模式:
-
第一轮:专注于根据检索到的上下文生成事实正确的答案。
-
第二轮(Refinement):提示模型根据特定的高质量样本(Few-shot examples)来修改答案的风格和长度。这种分离策略确保了答案既准确又符合用户的阅读习惯。
5. 事后引用验证(Post-Hoc Citation Verification)
为了避免长上下文导致的性能下降,HiFi-RAG将引用生成与答案生成解耦。在答案生成后,再次使用Gemini 2.5 Flash专门负责验证来源。它会优先选择高质量的来源,并为生成的断言添加精确的引文索引。
实验结果:性能与鲁棒性的双重飞跃
在MMU-RAGent验证集上,HiFi-RAG展现了统治级的表现:
-
ROUGE-L:提升至0.274(相对基线增长 +19.6%)。
-
DeBERTaScore:提升至0.677(相对基线增长 +6.2%)。
更有趣的是,研究团队构建了一个名为Test2025的自定义数据集,专门包含2025年1月之后发生的事件(即超出模型训练数据截止时间)。在这个纯粹考验检索能力的测试中,HiFi-RAG的表现更是碾压了参数化基线模型:
-
ROUGE-L 领先 57.4%。
-
DeBERTaScore 领先 14.9%。
总结与启示
HiFi-RAG的胜利给RAG系统的设计者们提供了一个重要的启示:在开放域问答中,结构化的过滤比盲目的检索更重要。
与其迷信向量数据库的召回能力,不如利用轻量级LLM(如Gemini Flash)构建一个漏斗形的过滤系统。通过层层剥离噪声,我们不仅能大幅降低推理成本,更能让大模型专注于它最擅长的事情——基于高质量信息的深度推理。
对于正在构建企业级RAG应用的开发者来说,HiFi-RAG这种“Flash做苦力,Pro做大脑”的分层架构,无疑是一个值得效仿的最佳实践。