准确率飙升至86.7%！哈工大发布“知识调优”，专治医疗大模型“一本正经胡说八道”

当AI大模型被问到“肝胆管结石”的治疗药物时，它却推荐了治疗结核病的“利福平”。这个真实案例暴露了一个致命问题：通用大模型在专业领域，尤其是在人命关天的医疗领域，可能会产生严重“幻觉”。

ArXiv URL：http://arxiv.org/abs/2309.04175v1

如何让AI医生变得既博学又可靠？

哈尔滨工业大学的研究者们给出了一个漂亮的答案。他们提出了一种名为知识调优（Knowledge-tuning）的新方法，让大模型学会像专家一样，先查阅权威资料，再给出严谨回答。

大模型虽强，但其知识主要来自海量的通用互联网语料。

这导致它们在面对高度专业化的医疗问题时，知识储备不足，容易“凭感觉”编造事实，也就是我们常说的“幻觉”。

传统的方法，如简单的指令微调，只是将医疗对话数据“喂”给模型，但很难保证模型能真正消化和理解其中的知识，更无法杜绝错误信息的产生。

为了解决这个问题，研究团队提出了知识调优（Knowledge-tuning）这一创新范式。

它的核心思想非常巧妙：不再强迫模型“背诵”所有医学知识，而是教会它一个更重要的技能——如何主动、准确地查询结构化的医学知识库。

整个过程分为三个阶段，如下图所示：

理解问题，生成查询：当模型收到一个问题（如“瘢痕性幽门梗阻有什么症状？”），它首先会预测出问题核心的医疗实体（如“瘢痕性幽门梗阻”）和属性（如“临床表现”）。
精准检索知识：利用上一步生成的实体和属性，模型会自动去结构化的医学知识库中进行查询，精准地找到相关的知识条目。
参考知识，生成回答：最后，模型会基于检索到的权威知识，生成一个既自然流畅又忠于事实的回答。

通过这种方式，模型的回答不仅有了可靠的知识来源，还大大降低了幻觉的风险。

为了训练和评估模型，研究团队还构建并开源了首个中文医疗知识问答数据集 cMedKnowQA。

该数据集包含7449个高质量的问答对，每一对都与结构化的医学知识库条目严格对应。这为后续的医疗大模型研究提供了宝贵的资源。

是骡子是马，拉出来遛遛。研究者们在 LLaMA 和 Bloom 等主流模型上进行了实验。

为了更科学地评估模型，他们摒弃了传统的BLEU等指标，引入了由医学专家评判的 H2（Helpfulness & Harmlessness）评分体系，从“有用性”和“无害性”两个维度进行评估。

结果非常惊艳：

知识检索更准：知识调优后的模型，在预测医疗实体的准确率上高达 86.7%，在检索相关知识的准确率上也达到了 71.4%，远超传统的检索方法。
回答质量更高：在专家的H2评分中，经过知识调优的模型在有用性和无害性上均显著优于基线模型，证明其回答更专业、更可信。

更重要的是，知识调优展现出了强大的小样本学习和泛化能力。

即使只用少量数据进行训练，模型也能快速掌握知识检索的能力。

同时，模型还能将学到的能力迁移到训练中未见过的新疾病上，表现出良好的泛化性。

这项研究提出的“知识调优”方法，为解决大模型在专业领域的知识准确性问题提供了一条清晰、有效的路径。

它通过教会模型“如何查找”而非“死记硬背”，巧妙地将大模型的语言能力与结构化知识库的准确性结合起来。

这不仅为构建更可靠的中文医疗大模型铺平了道路，也为其他专业领域（如法律、金融）的大模型落地应用带来了重要启示。也许在不远的将来，我们就能拥有一个真正值得信赖的AI家庭医生。