Retrieval Augmented Generation (RAG) for Fintech: Agentic Design and Evaluation

ArXiv URL: http://arxiv.org/abs/2510.25518v1
作者: Maraim Masoud; Koustav Ghosal; Thomas Cook
发布机构: Mastercard; Maynooth University; National College of Ireland; TU Dublin

TL;DR

本文提出了一种专为金融科技（Fintech）领域设计的智能体化检索增强生成（Agentic Retrieval-Augmented Generation, A-RAG）架构，通过一个由专业智能体组成的模块化、迭代式流水线，有效解决了领域内术语密集、缩写混杂和知识碎片化等挑战，显著提升了检索精度和答案相关性。

关键定义

本文的核心是提出一种新的智能体化RAG架构，并与基线进行对比。关键定义如下：

基线RAG (Baseline RAG, B-RAG): 一个标准的、线性的RAG流程，依次执行查询重构、单次向量检索和答案生成。该系统架构简单，但无法处理复杂查询、领域术语和知识碎片化问题。
智能体RAG (Agentic RAG, A-RAG): 本文提出的高级RAG架构。它由一个协调器智能体 (Orchestrator Agent) 负责调度多个专业智能体 (specialised agents)，通过迭代式的检索、评估和精炼循环来处理用户查询。其设计旨在通过模块化和任务分解来应对金融科技领域的复杂性。
语义准确度 (Semantic Accuracy): 本文使用的一种评估指标，通过一个作为“法官”的语言模型（LLM-as-a-judge）来评估生成答案与标准答案在语义上的等价性，而非仅仅是词汇上的重叠。评分范围为1-10分。

本文方法

本文首先实现了一个标准的基线RAG系统（B-RAG）作为对比，然后设计并实现了一个更先进的智能体RAG系统（A-RAG）。

基线方法 (B-RAG)

B-RAG代表了一个标准的检索流程，其架构简单、线性，如下图所示。

B-RAG 流程概览

该流程包括三个主要智能体：

查询重构器 (Query Reformulator): 将用户问题转化为关键词丰富的简洁查询。
向量检索器 (Vector Searcher): 在知识库中执行一次单遍的向量相似度搜索，找出相关的文档片段。
摘要生成器 (Summarizer): 将检索到的文档片段整合成连贯的答案，并被明确指示不要生成原文中没有的信息。

B-RAG的主要局限性在于其单遍检索机制，缺乏迭代优化，无法分解复杂问题，不能处理领域缩写，也未对检索结果进行重排序，导致在处理复杂和模糊查询时精度较低。

智能体RAG方法 (A-RAG)

为解决B-RAG的局限性，本文提出了A-RAG，一个以协调器智能体 (Orchestrator Agent) 为核心的模块化、迭代式系统。其设计灵感来源于研究人员的工作流：先尝试直接回答，然后评估结果质量，必要时再启动更深入、更具针对性的探索。

A-RAG与B-RAG的工作流对比如下，A-RAG增加了缩写解析、子查询生成、重排序和答案质量评估等多个环节，并引入了反馈循环。

B-RAG 与 A-RAG 工作流对比

创新点

A-RAG的本质创新在于从线性、单次的检索转变为动态、迭代的“检索-推理”循环。这个循环由一个内部的质量评估机制驱动，实现了架构的高度模块化和适应性。

其核心优势体现在以下几个方面：

模块化智能体设计：系统由8个轻量级、功能专一的智能体构成，由一个协调器统一调度。这种设计使得系统可以灵活地编码特定领域的规则和知识（如内部术语、访问控制等）。
- 核心智能体组件：包括判断检索必要性的 \(Router Agent\)、扩展缩写和同义词的 \(Query Reformulator\)、处理并行检索的 \(Vector Searcher\)、在初步检索效果不佳时生成细分查询的 \(Sub-Query Generator\)、使用交叉编码器（cross-encoder）优化结果排序的 \(Re-ranker\)、评估答案质量并决定是否需要迭代的 \(QA Agent\)，以及动态维护术语表的 \(Acronym Agent\)。
迭代式精炼循环：A-RAG引入了一个由 \(QA Agent\) 驱动的反馈循环。当生成的初步答案置信度低时，系统不会直接返回结果，而是触发子查询生成和重排序等精炼步骤，进行更深入的探索，直到答案质量满足预设阈值。
主动式术语处理：\(Acronym Agent\) 主动识别和解析查询及文档中的领域缩写，显著降低了因术语模糊性导致的检索错误，提升了答案的准确性。

工作流程概述

以一个金融科技查询为例，A-RAG的工作流程如下：

查询预处理：首先对用户查询进行重构和缩写扩展（例如，将“CMA”根据上下文解析为“Consumer Management Application”）。
初步检索与生成：执行第一遍向量检索，并生成一个初步答案。
质量评估：\(QA Agent\) 对答案进行打分（0-10分）。
迭代精炼（如果需要）：如果分数低于阈值，系统将触发精炼流程。\(Sub-Query Generator\) 会生成更具针对性的子查询（如“CVaR formula”），再次检索，并通过 \(Re-ranker\) 优化结果排序，然后重新生成答案。
最终输出：如果经过迭代后能生成高置信度的答案，则返回该答案；否则，系统会向用户明确表示无法找到确切答案，保证了透明度。

实验结论

本文通过在一个真实的金融科技企业内部知识库上进行实验，对B-RAG和A-RAG的性能进行了定量和定性评估。

知识库与评估集

知识库：由超过1624份内部文档构成，预处理后切分为超过30,000个文本块。文本块长度主要集中在50-120词之间，内容富含“feature”、“API”、“model”等领域术语。
评估集：采用“LLM-as-a-judge”范式，从知识库中自动生成了85个高质量的“问题-答案”对作为主要评估集。此外，还手动构建了一个包含17个问题、33个标准答案链接的基准测试集，用于更细致的分析。

语料库中词频分布文本块长度分布语料库高频词条形图

核心实验结果

实验从检索准确率、延迟和答案语义准确度三个维度比较了两个系统。

检索准确率与延迟

A-RAG在检索准确率上优于B-RAG，但延迟也显著增加，这体现了性能与效率的权衡。

B-RAG 与 A-RAG 系统性能对比

指标	B-RAG	A-RAG
评估问题总数	85	85
检索准确率 (Hit @5, %)	54.12	62.35
平均每次查询延迟 (秒)	0.79	5.02

经过手动分析，若考虑语义等价但来源不同的文档，A-RAG的调整后准确率可达69.41%，而B-RAG为58.82%，进一步证明了A-RAG在整合碎片化信息上的优势。

答案语义准确度

使用LLM-as-a-judge对答案质量进行评分（1-10分），A-RAG的平均得分为7.04，高于B-RAG的6.35。

LLM法官评分分布直方图

如上图所示，A-RAG显著减少了低质量答案（得分<5）的比例（从18%降至8%），并增加了高质量答案（得分≥9）的比例（从12%增至22%）。在64%的情况下，A-RAG的表现优于B-RAG。

每个问题的得分差异

人工策划基准测试结果

在包含多重可能答案的手动构建测试集上，A-RAG在整体上表现更优，尤其在程序性问题上实现了100%的覆盖率，远超B-RAG。

人工策划基准测试结果

系统	类别	问题数	覆盖率 (%)	语义准确度
B-RAG	总体	17	66.67	7.88
	定义性	9	73.68	7.78
	程序性	4	57.14	7.75
	缩写	4	57.14	8.25
A-RAG	总体	17	69.70	8.06
	定义性	9	68.42	7.89
	程序性	4	100.0	8.25
	缩写	4	42.85	8.25

最终结论

实验结果证实，本文提出的A-RAG架构通过智能体分解和迭代式精炼策略，在处理金融科技领域碎片化、术语密集的知识时，其检索准确率和答案质量均显著优于标准的RAG基线。尽管这带来了更高的延迟，但其在提升系统鲁棒性方面的优势表明，结构化的多智能体方法是增强复杂领域专用RAG系统性能的一个极具前景的方向。

Retrieval Augmented Generation (RAG) for Fintech: Agentic Design and Evaluation

TL;DR

关键定义

相关工作

本文方法

基线方法 (B-RAG)

智能体RAG方法 (A-RAG)

创新点

工作流程概述

实验结论

知识库与评估集

核心实验结果

检索准确率与延迟

答案语义准确度

人工策划基准测试结果

最终结论