LLM-empowered knowledge graph construction: A survey
-
ArXiv URL: http://arxiv.org/abs/2510.20345v1
-
作者:
-
发布机构: Xidian University
TL;DR
本文系统性地综述了大型语言模型(LLM)如何重塑知识图谱(KG)构建的全流程,通过分析本体工程、知识抽取和知识融合三个核心阶段的新兴范式,揭示了从传统方法向语言驱动、生成式框架的转变。
引言
知识图谱(Knowledge Graphs, KGs)是结构化知识表示、集成和推理的基石,为语义搜索、问答系统等智能应用提供了统一的语义基础。传统的知识图谱构建流程主要包括三个阶段:本体工程(ontology engineering)、知识抽取(knowledge extraction)和知识融合(knowledge fusion)。尽管这些方法取得了成功,但它们面临三大挑战:
- 泛化能力弱:基于规则和监督学习的系统难以跨领域泛化。
- 模式适应性差:模式和本体设计需要大量人工干预,缺乏灵活性。
- 误差累积:构建阶段的独立处理导致错误在流程中不断累积。
大型语言模型(Large Language Models, LLMs)的出现为解决这些瓶颈带来了变革。通过大规模预训练和涌现能力,LLMs 提供了三大关键机制:
- 结构化生成:直接从非结构化文本中合成结构化表示。
- 语义对齐:通过自然语言将异构知识源进行整合。
- 工作流编排:通过基于提示的交互来协调复杂的知识图谱构建流程。
LLMs 正在从传统的文本处理工具演变为能够无缝连接自然语言与结构化知识的智能体(Agent)。这标志着从“为知识图谱构建而生的 LLM”向“由知识图谱赋能的 LLM”的范式转变,知识的获取、组织和推理在一个生成式的、自我优化的生态系统中相互依赖。本文旨在全面回顾 LLM 驱动的知识图谱构建研究,系统分析新兴方法,并探讨未来的研究方向。
预备知识
传统的知识图谱构建遵循一个三阶段流程:本体工程、知识抽取和知识融合。在 LLM 时代之前,这些阶段主要通过规则、统计和符号方法实现。
本体工程
本体工程(Ontology Engineering, OE)涉及领域概念、关系和约束的规范化定义。在 LLM 出现之前,本体主要通过人工构建,依赖于 OWL 和 RDFS 等语义网工具,并遵循 CommonKADS 等方法论。这些过程强调逻辑严谨性,但需要大量专家介入。随后的半自动化方法,即本体学习(ontology learning),尝试从文本中派生本体结构,但仍在本体演化、模块化复用和动态适应方面存在困难。传统本体工程虽提供了精确性和形式化的健全性,但在大规模或持续演化的知识领域中缺乏灵活性和效率。
知识抽取
知识抽取(Knowledge Extraction, KE)旨在从非结构化或半结构化数据中识别实体、关系和属性,形成知识三元组(triples)。早期方法依赖手工规则和模式匹配,可解释性强但泛化能力差。深度学习,特别是 CNN 和 Transformer 模型的出现,标志着向数据驱动的特征学习转变。然而,无论是监督、弱监督还是无监督的关系抽取范式,都严重依赖标注数据,并且跨领域泛化能力有限。这些数据依赖和泛化瓶颈促使了 LLM 驱动新范式的出现。
知识融合
知识融合(Knowledge Fusion, KF)旨在通过解决重复、冲突和异构性问题,将不同的知识源整合到一个连贯的知识图谱中。其核心子任务是实体对齐(entity alignment),即判断不同数据源的实体是否指向同一真实世界对象。经典方法依赖于词汇和结构相似性度量。表示学习技术引入了基于嵌入的方法,在共享向量空间中对齐实体,提高了可扩展性。尽管取得了进步,但传统融合方法在处理语义模糊性、上下文依赖和零样本对齐(zero-shot alignment)方面仍然面临挑战。
LLM 增强的本体构建

LLM 的集成给本体工程(OE)带来了根本性的范式转变。当前研究主要分为两个互补方向:自上而下(top-down)的方法,利用 LLM 作为智能助手进行形式化本体建模;以及自下而上(bottom-up)的方法,通过构建本体来增强 LLM 自身的推理和表示能力。
自上而下:LLM 作为本体构建助手
自上而下的范式延续了语义网和知识工程的传统,强调在预定义语义需求的指导下进行本体开发。LLM 在此框架中充当高级协同建模者,协助人类专家将自然语言规范(如能力问题 Competency Questions, CQs、用户故事)转化为 OWL 等标准格式的形式化本体。该范式优先考虑概念抽象、关系精确定义和结构化语义表示。
基于能力问题(CQ)的构建
基于 CQ 的方法代表了一种需求驱动的自动化本体建模路径。LLM 解析 CQ 以识别、分类和形式化领域特定的概念、属性和关系。
- Ontogenia 框架开创性地使用元认知提示(Metacognitive Prompting),使模型在生成过程中能够进行自我反思和结构修正。
- Chat-T-REx 框架证明了 LLM 可以直接将 CQ 和用户故事翻译成符合 OWL 标准的模式,有效自动化了从需求到模型的转换。 这些研究推动了半自动化的本体构建流程,人类专家只需在关键节点进行干预,LLM 从被动的分析工具转变为主动的建模协作者。
基于自然语言的构建
此类方法旨在直接从非结构化文本中归纳语义模式,无需明确的 CQ。
- 早期的工作系统性地评估了 GPT-4 的性能,证实其输出质量接近初级人类建模者,验证了“智能本体助手”的可行性。
- OntoMerger 和 OntoPop 等近期系统引入了端到端的、由提示驱动的工作流,集成了本体复用和自适应优化,可在复杂的科学领域构建深度、连贯的本体结构。
- Light-KGC 等轻量级框架通过聚类从文档摘要中提取的实体类型,实现了开放领域知识图谱的快速模式归纳。
总而言之,自上而下的方法强调语义一致性、结构完整性和人机协作,标志着传统知识工程向更智能、语言驱动的范式演进。
自下而上:为 LLM 构建知识图谱
自下而上的方法作为对 LLM 时代(尤其是在检索增强生成 Retrieval-Augmented Generation, RAG 框架中)范式转变的回应,日益受到关注。在此范式中,知识图谱不再是静态知识库,而是为 LLM 提供事实基础和结构化记忆的动态基础设施。因此,研究重点从手动设计本体转向从数据中自动归纳模式(automatically inducing schemas from data)。
这一演进可分为三个阶段:
- 早期研究:如 LLM-driven KGC 和 TexTKB 等工作奠定了数据驱动本体构建的基础。它们首先通过开放信息抽取从原始文本生成实例级图谱,然后通过聚类和泛化来抽象出本体概念和关系。这个“数据到模式”的过程展示了如何从实例丰富的语料库中生成本体蓝图。
- 流程化与自适应:Schema-Evolutionary KG 框架将流程推进为“开放抽取-语义定义-模式规范化”三阶段,实现了自动归纳的模式与现有本体的对齐,或在没有预定义结构时创建新模式。它还解决了动态模式演化的问题,允许模型在不重新训练的情况下吸收新的关系和实体类型。
- 系统化部署:如 Knowledge-GPT 等系统将基于模式和无模式的范式集成到统一架构中,支持企业级知识图谱的实时生成和演化。在此阶段,知识图谱作为 LLM 的一种外部可读写记忆(external read-write memory),优先考虑事实覆盖率、可扩展性和可维护性。
总结来说,自下而上的方法重新定义了 LLM 与知识工程的相互作用,重点从以本体为中心(ontology-centric)转向以数据为中心(data-centric)。它推动了自更新、可解释和可扩展的知识生态系统的发展,从而增强了 LLM 的事实基础和推理能力。
LLM 驱动的知识抽取
LLM 驱动的知识抽取方法主要沿着两大范式演进:基于模式的抽取(schema-based extraction),其在明确的结构指导下运行;以及无模式的抽取(schema-free extraction),其超越了预定义模板的限制。前者强调规范化、结构一致性和语义对齐,后者则优先考虑适应性、开放性和探索性发现。
基于模式的方法
该方法的核心是依赖一个明确的知识模式来为抽取过程提供结构指导和语义约束。其研究轨迹清晰地展示了从使用静态本体蓝图向自适应和动态演化模式框架的演进。
静态模式驱动的抽取
早期的研究主要采用固定的、预定义的模式(fixed, predefined schemas)来严格约束抽取过程。
- 最初的工作中,LLM 在明确的本体(TBox)监督下填充实例(ABox),保证了高一致性但牺牲了灵活性。
- 随后的研究通过分阶段提示来增强模块化。例如,先从文本生成特定领域的本体,然后利用该本体作为指令提示来指导 RDF 三元组的抽取。
- 最近的发展在静态框架内引入了局部灵活性。OntoPop 提出了本体切片(ontology slices)——动态选择的本体子集——来构建针对特定实体的上下文感知提示,从而实现运行时的有限模式适应。
总之,静态模式驱动的抽取强调精度和可控性,但其对刚性模板的依赖限制了可扩展性和泛化能力。
动态与自适应模式的抽取
最近的方法将模式重新概念化为抽取过程的协同演化伙伴(co-evolving partner),而非固定的模板。
- Knowledge-GPT 通过无监督聚类和关系发现从大规模语料中归纳模式。它采用多阶段提示,使模式能与提取的内容迭代演化。
- Schema-Evolutionary KG 通过知识森林(Knowledge Forest)用于上下文感知提示和模式进化器(Schema Evolver)用于无需重训练的模式适应,解决了持续学习的挑战。
这些方法实现了模式与数据的协同演化,为持续、自我更新的知识图谱构建奠定了基础,其中抽取和模式演化协同进行。
无模式的方法
与依赖外部蓝图的范式相反,无模式方法旨在直接从非结构化文本中获取结构化知识,不依赖任何预定义的本体或关系模式。其核心思想是利用 LLM 作为自主抽取器。
结构化生成式抽取
此方向专注于通过提示工程让 LLM 在生成过程中构建一个隐式或自组织的模式。
- 早期研究将抽取过程与思维链提示(Chain-of-Thought prompting)相结合,证明了推理驱动的组织可以有效取代显式模式。
- ChatGPT-based RHF 框架通过指令微调引入 RHF(Relation–Head–Facts)流水线,使模型能够内化关系规律。
- 后续工作通过引入检索和交互来增强抽取。例如,通过动态检索语义相关的示例来丰富上下文,或将抽取重构为一个探索性问答(exploratory question-answering)过程,模型通过链式问答迭代地优化候选实体和关系。
开放信息抽取 (OIE)
OIE 旨在发现文本中所有可能的“实体-关系-实体”三元组,而不依赖预定义类型。它优先考虑覆盖率和发现而非结构规整性。例如,LLM-driven KGC 框架的 OIE 阶段使用少样本提示生成全面的自然语言三元组,产生一个原始的开放知识图谱,该图谱后续会进行定义和规范化。OIE 桥接了非结构化文本与涌现的本体组织。
LLM 赋能的知识融合
利用 LLM 进行知识融合的方法主要在两个层面解决挑战:(1)在模式层构建统一规范的知识蓝图,以及(2)在实例层集成和对齐具体的知识事实。现有方法可分为三类:模式层融合、实例层融合及结合两者的混合框架。
模式层融合
模式层融合旨在将知识图谱的元数据(概念、实体类型、关系、属性)统一为一个连贯的模式。
- 早期工作依赖显式本体作为全局约束,一致性高但灵活性差。
- Light-KGC 引入了自适应的、基于嵌入的模式集成。它通过提示增强的聚类和基于示例的合并自动提取和合并等价的实体类型,使模式对齐能从数据中动态涌现。
- LLM-driven KGC 等最新方法则将融合扩展到语义规范化(semantic canonicalization)。通过提示 LLM 生成模式组件的自然语言定义,并比较它们的向量相似性,该方法以更高的自动化和语义精度支持自对齐和跨模式映射。
总结而言,模式层融合已从刚性规则对齐发展到灵活的、语义驱动的范式。
实例层融合
实例层融合通过解决实体对齐、值规范化和冗余消除来集成具体的知识实例。
- 早期研究采用迭代的 LLM 引导聚类来合并等价实体和关系。
- 后续的 CoLe 和 ALIGNED 等框架将对齐重构为基于推理的决策任务。CoLe 将对齐视为一个约束性多项选择问题,而 ALIGNED 引入两阶段优化流水线,先生成候选实体,再应用有针对性的推理进行最终选择,显著提高了对齐精度。
- 最近的工作融合了结构和检索线索。例如,利用基于 GNN 的融合来利用类别层级和实体描述进行零样本消歧。
- LightEA 等分层设计通过级联小型和大型 LLM 的多阶段流水线,在保持高精度的同时实现了效率的大幅提升。
总体而言,LLM 已从简单的匹配器演变为能够集成上下文、结构和检索信号的复杂推理引擎,为自主知识图谱构建铺平了道路。
综合与混合框架
这类框架在单个端到端的工作流中统一了模式层和实例层的融合,超越了传统的模块化流水线。
- MA-KGF 框架利用多智能体设计,让专门的智能体协作处理模式对齐、冲突解决和质量评估。
- OntoPop 采用本体引导的工作流,将模式监督与实例级证实相结合以提高语义保真度。
- 最近的研究引入了统一的、基于提示的范式,在单个生成周期内执行对齐、合并和推理等所有融合子任务。
这些框架标志着向整体融合系统的转变,这是迈向能够在 LLM 驱动的生态系统中持续构建和推理的自主、自演化知识图谱的关键一步。
未来应用
LLM 与 KG 交叉领域的研究正朝着更深层次的智能交互和更高自主性的方向发展,以下是几个有前景的未来方向。
基于知识图谱的 LLM 推理
未来的工作将进一步将结构化的知识图谱整合到 LLM 的推理机制中,以增强其逻辑一致性、因果推断和可解释性。这不仅是推理能力的提升,更是从知识构建到知识驱动推理的概念转变。高质量、结构良好的知识图谱将为可解释和可验证的模型推理提供基础。同时,一个关键的挑战在于,增强的推理能力如何反过来支持更鲁棒和自动化的知识图谱构建,从而形成知识构建与推理之间的自我强化良性循环。
面向智能体系统的动态知识记忆
在 LLM 驱动的智能体中实现持续智能(continual intelligence)需要通过动态长期记忆(dynamic long-term memory)来克服有限上下文窗口的限制。最近的架构设想将知识图谱作为动态记忆图谱(dynamic memory graph),随智能体交互而持续演化,而非存储静态历史。例如,MemWalker 等框架将记忆建模为相互关联的“笔记”,这些笔记富含上下文元数据,支持持续的重组和增长。