DocReward: A Document Reward Model for Structuring and Stylizing


TL;DR

本文提出了一种名为 DocReward 的文档奖励模型,它通过在一个包含117K对文档的大规模数据集上学习,专门用于评估文档的结构和风格专业性,并在该任务上显著优于 GPT-5 等强大的基线模型。

关键定义

本文提出或使用的核心概念包括:

相关工作

目前,在智能体工作流 (agentic workflows) 中,自动化专业文档生成是一个重要方向。然而,现有研究主要集中在提升文本内容的质量上,而忽略了对可读性和专业性至关重要的视觉结构与风格。

领域内的关键瓶颈在于,缺乏一个合适的奖励模型来指导智能体生成在结构和风格上更专业的文档。虽然已有针对图形设计、UI界面或单张图片的美学评估模型,但它们不适用于多页文档;而传统的文档AI模型(如LayoutLM)主要关注从文档中提取信息,而非评估其排版质量。

因此,本文旨在解决的核心问题是:如何量化评估文档的结构与风格专业性,并创建一个能有效指导文档生成智能体的奖励模型。

本文方法

本文提出了 DocReward,一个专注于评估文档结构与风格专业性的奖励模型。其核心在于构建了一个高质量的偏好数据集 \(DocStruct-117K\),并基于此训练模型进行评分。

数据集构建 (DocStruct-117K)

为了让模型学会与文本内容无关的专业性评估,本文设计了一个精巧的数据集构建流程:

DocStruct-117K 的数据构建流程

  1. 收集高质量源文档: 首先,从 GovDocs1、NapierOne 和 CommonCrawl 等来源收集了大量人类创作的高质量专业文档(如政府报告、商业提案、学术论文等)。经过筛选,保留了结构和风格上佳的范例。

Top 10 Document Domain Distribution (Total: 32).

Top 30 Document Type Distribution.

  1. 生成多样化的对应文档: 提取源文档的纯文本内容,然后使用多种大型语言模型(如GPT-4o, GPT-5等)驱动的智能体,从零开始重新生成 DOCX 文档。这个过程模拟了从纯文本生成专业文档的真实场景,产生了大量结构和风格各异但内容相同的文档版本。此外,还设计了一种“改进智能体”,通过参考原始文档来优化已生成的文档。

  2. 标注偏好对: 将内容相同的文档进行配对,并标注优劣关系(winner/loser)。标注规则如下:

    • 人工 vs. 生成: 如果一个文档是人工创作的原始专业文档,而另一个是智能体生成的,那么原始文档总是被标记为“优胜者 (winner)”。
    • 生成 vs. 生成: 如果两个文档都是智能体生成的,则使用 GPT-5 作为代理标注者。通过向 GPT-5 提供原始专业文档作为参考,让其判断两个生成文档中哪一个更接近参考标准。

通过此流程,最终构建了 \(DocStruct-117K\) 数据集,包含 117,108 个文档对。


领域 文档类型 文档数 平均页数 文档对总数 人工 vs. 生成 生成 vs. 生成
32 267 69,137 3.2 117,108 36,664 80,444


模型结构与优化

\[\min_{\theta}-\log\sigma\big(\mathcal{R}_{\theta}(D_{\mathrm{img}}^{w})-\mathcal{R}_{\theta}(D_{\mathrm{img}}^{l})\big)\]

其中 $\mathcal{R}_{\theta}$ 是奖励模型,$\sigma$ 是 sigmoid 函数。该损失函数会惩罚模型给失败者打分高于优胜者的情况。

创新点

实验结论

本文通过内部和外部评估,全面验证了 DocReward 的有效性。

内部评估:准确性超越强基线

在一个由人类专家标注的测试集上,DocReward 的表现远超包括 GPT-5 在内的所有基线模型。


模型类型 模型 Real vs. Synth (准确率%) Synth vs. Synth (准确率%) 总体 (准确率%)
Pairwise        
  GPT-4o 58.91 66.43 63.22
  Claude Sonnet 4 57.86 69.02 64.26
  GPT-5 64.78 72.32 69.10
Pointwise        
  GPT-4o 50.99 64.21 58.56
  Claude Sonnet 4 48.02 66.79 58.77
  GPT-5 64.85 73.43 69.77
  DocReward-3B (本文) 72.77 97.42 86.89
  DocReward-7B (本文) 78.22 97.42 89.22



奖励模型 偏好位置1次数 偏好位置2次数
GPT-4o 202 271
Claude Sonnet 4 189 284
GPT-5 240 233


外部评估:有效指导文档生成

为了验证 DocReward 的实用价值,本文进行了一项外部评估:让一个文档生成智能体生成多个候选文档,然后分别使用 Random、GPT-5 和 DocReward 作为奖励模型来挑选最佳版本。结果由人类裁判进行最终评判。


奖励模型 胜率 (%) 败率 (%) 平局率 (%)
Random 24.6 66.2 9.2
GPT-5 37.7 40.0 22.3
DocReward (本文) 60.8 16.9 22.3


结果显示,使用 DocReward 挑选的文档获得了 60.8% 的胜率,远高于 GPT-5 (37.7%)。这证明 DocReward 的奖励信号与人类对结构和风格的偏好高度一致,能够有效指导生成智能体产出更受人类欢迎的文档。

可解释性分析

通过案例分析和注意力图可视化,可以发现 DocReward 确实在关注正确的信号。

注意力图可视化 注意力图可视化 注意力图可视化

总结

实验结果有力地证明,DocReward 在评估文档的结构和风格专业性方面优于现有通用大模型,并且能作为一个有效的奖励模型,切实提高自动化文档生成的最终质量。