准确率飙升至86.7%!哈工大发布“知识调优”,专治医疗大模型“一本正经胡说八道”

当AI大模型被问到“肝胆管结石”的治疗药物时,它却推荐了治疗结核病的“利福平”。这个真实案例暴露了一个致命问题:通用大模型在专业领域,尤其是在人命关天的医疗领域,可能会产生严重“幻觉”。

ArXiv URL:http://arxiv.org/abs/2309.04175v1

如何让AI医生变得既博学又可靠?

哈尔滨工业大学的研究者们给出了一个漂亮的答案。他们提出了一种名为知识调优Knowledge-tuning)的新方法,让大模型学会像专家一样,先查阅权威资料,再给出严谨回答。

为什么医疗大模型会“犯错”?

大模型虽强,但其知识主要来自海量的通用互联网语料。

这导致它们在面对高度专业化的医疗问题时,知识储备不足,容易“凭感觉”编造事实,也就是我们常说的“幻觉”。

传统的方法,如简单的指令微调,只是将医疗对话数据“喂”给模型,但很难保证模型能真正消化和理解其中的知识,更无法杜绝错误信息的产生。

“知识调优”:让大模型学会“查资料”

为了解决这个问题,研究团队提出了知识调优Knowledge-tuning)这一创新范式。

它的核心思想非常巧妙:不再强迫模型“背诵”所有医学知识,而是教会它一个更重要的技能——如何主动、准确地查询结构化的医学知识库。

整个过程分为三个阶段,如下图所示:

知识调优流程图

  1. 理解问题,生成查询:当模型收到一个问题(如“瘢痕性幽门梗阻有什么症状?”),它首先会预测出问题核心的医疗实体(如“瘢痕性幽门梗阻”)和属性(如“临床表现”)。

  2. 精准检索知识:利用上一步生成的实体和属性,模型会自动去结构化的医学知识库中进行查询,精准地找到相关的知识条目。

  3. 参考知识,生成回答:最后,模型会基于检索到的权威知识,生成一个既自然流畅又忠于事实的回答。

通过这种方式,模型的回答不仅有了可靠的知识来源,还大大降低了幻觉的风险。

cMedKnowQA:首个中文医疗知识问答数据集

为了训练和评估模型,研究团队还构建并开源了首个中文医疗知识问答数据集 cMedKnowQA

该数据集包含7449个高质量的问答对,每一对都与结构化的医学知识库条目严格对应。这为后续的医疗大模型研究提供了宝贵的资源。

cMedKnowQA数据集示例

实验效果如何?

是骡子是马,拉出来遛遛。研究者们在 LLaMA 和 Bloom 等主流模型上进行了实验。

为了更科学地评估模型,他们摒弃了传统的BLEU等指标,引入了由医学专家评判的 H2Helpfulness & Harmlessness)评分体系,从“有用性”和“无害性”两个维度进行评估。

结果非常惊艳:

模型响应质量评估

更重要的是,知识调优展现出了强大的小样本学习和泛化能力。

即使只用少量数据进行训练,模型也能快速掌握知识检索的能力。

小样本学习能力

同时,模型还能将学到的能力迁移到训练中未见过的新疾病上,表现出良好的泛化性。

对未见实体的泛化能力

总结

这项研究提出的“知识调优”方法,为解决大模型在专业领域的知识准确性问题提供了一条清晰、有效的路径。

它通过教会模型“如何查找”而非“死记硬背”,巧妙地将大模型的语言能力与结构化知识库的准确性结合起来。

这不仅为构建更可靠的中文医疗大模型铺平了道路,也为其他专业领域(如法律、金融)的大模型落地应用带来了重要启示。也许在不远的将来,我们就能拥有一个真正值得信赖的AI家庭医生。