准确率飙升至86.7%!哈工大发布“知识调优”,专治医疗大模型“一本正经胡说八道”

当AI大模型被问到“肝胆管结石”的治疗药物时,它却推荐了治疗结核病的“利福平”。这个真实案例暴露了一个致命问题:通用大模型在专业领域,尤其是在人命关天的医疗领域,可能会产生严重“幻觉”。
ArXiv URL:http://arxiv.org/abs/2309.04175v1
如何让AI医生变得既博学又可靠?
哈尔滨工业大学的研究者们给出了一个漂亮的答案。他们提出了一种名为知识调优(Knowledge-tuning)的新方法,让大模型学会像专家一样,先查阅权威资料,再给出严谨回答。
为什么医疗大模型会“犯错”?
大模型虽强,但其知识主要来自海量的通用互联网语料。
这导致它们在面对高度专业化的医疗问题时,知识储备不足,容易“凭感觉”编造事实,也就是我们常说的“幻觉”。
传统的方法,如简单的指令微调,只是将医疗对话数据“喂”给模型,但很难保证模型能真正消化和理解其中的知识,更无法杜绝错误信息的产生。
“知识调优”:让大模型学会“查资料”
为了解决这个问题,研究团队提出了知识调优(Knowledge-tuning)这一创新范式。
它的核心思想非常巧妙:不再强迫模型“背诵”所有医学知识,而是教会它一个更重要的技能——如何主动、准确地查询结构化的医学知识库。
整个过程分为三个阶段,如下图所示:

-
理解问题,生成查询:当模型收到一个问题(如“瘢痕性幽门梗阻有什么症状?”),它首先会预测出问题核心的医疗实体(如“瘢痕性幽门梗阻”)和属性(如“临床表现”)。
-
精准检索知识:利用上一步生成的实体和属性,模型会自动去结构化的医学知识库中进行查询,精准地找到相关的知识条目。
-
参考知识,生成回答:最后,模型会基于检索到的权威知识,生成一个既自然流畅又忠于事实的回答。
通过这种方式,模型的回答不仅有了可靠的知识来源,还大大降低了幻觉的风险。
cMedKnowQA:首个中文医疗知识问答数据集
为了训练和评估模型,研究团队还构建并开源了首个中文医疗知识问答数据集 cMedKnowQA。
该数据集包含7449个高质量的问答对,每一对都与结构化的医学知识库条目严格对应。这为后续的医疗大模型研究提供了宝贵的资源。

实验效果如何?
是骡子是马,拉出来遛遛。研究者们在 LLaMA 和 Bloom 等主流模型上进行了实验。
为了更科学地评估模型,他们摒弃了传统的BLEU等指标,引入了由医学专家评判的 H2(Helpfulness & Harmlessness)评分体系,从“有用性”和“无害性”两个维度进行评估。
结果非常惊艳:
-
知识检索更准:知识调优后的模型,在预测医疗实体的准确率上高达 86.7%,在检索相关知识的准确率上也达到了 71.4%,远超传统的检索方法。
-
回答质量更高:在专家的H2评分中,经过知识调优的模型在有用性和无害性上均显著优于基线模型,证明其回答更专业、更可信。

更重要的是,知识调优展现出了强大的小样本学习和泛化能力。
即使只用少量数据进行训练,模型也能快速掌握知识检索的能力。

同时,模型还能将学到的能力迁移到训练中未见过的新疾病上,表现出良好的泛化性。

总结
这项研究提出的“知识调优”方法,为解决大模型在专业领域的知识准确性问题提供了一条清晰、有效的路径。
它通过教会模型“如何查找”而非“死记硬背”,巧妙地将大模型的语言能力与结构化知识库的准确性结合起来。
这不仅为构建更可靠的中文医疗大模型铺平了道路,也为其他专业领域(如法律、金融)的大模型落地应用带来了重要启示。也许在不远的将来,我们就能拥有一个真正值得信赖的AI家庭医生。