LLM-SDaT:一种基于知识的信息型大型语言模型(LLM)框架,用于中医中的症候鉴别

【字体: 时间:2026年03月09日 来源:Neural Networks 6.3

编辑推荐:

  中医证候鉴别与治疗生成的大语言模型知识融合框架,采用LoRA微调方法构建TCMSD100和TCMSDaT100结构化数据集,实现85.19%的F1分数提升。

  
Bingtao Guan|Shangde Gao|Dawei Zheng|Haoxiang Xia|Zhiyuan Wu|Jian Wu|Hongxia Xu
中国浙江省杭州市浙江大学医学院第二附属医院与梁祝实验室,310058

摘要

大型语言模型(LLMs)的快速发展为提升中医(TCM)中的人工智能应用带来了巨大潜力,尤其是在提高辨证分型和治疗计划的精确度与可解释性方面。然而,现有方法往往受到缺乏标准化、大规模临床数据集以及结构化中医知识整合不足的限制,这阻碍了诊断的准确性和泛化能力。为了解决这些问题,我们提出了LLM-SDaT,这是一种基于知识的适应框架,通过参数高效的微调将领域特定专业知识融入LLMs中。具体而言,我们首先引入了两个结构化数据集:TCMSD100,一个包含100种证型患者记录的大规模临床语料库;以及TCMSDaT100,一个整合了证型定义、病因和经典方剂的知识数据集。接着,我们实现了一个基于LoRA的两阶段微调框架。第一阶段在TCMSD100上进行训练,专注于准确的证型鉴别;第二阶段则使模型与TCMSDaT100中的全面知识对齐,以生成临床连贯且个性化的治疗建议。实验结果表明,我们的方法表现出色,在证型分类方面的F1分数达到了85.19%,显著优于现有的基线和通用LLMs。这项工作强调了通过参数高效适应整合结构化知识的价值,为构建可解释的中医决策支持系统提供了可扩展的途径。所有数据集和代码均可在以下链接公开获取:TobyChain/TCMSDaT.git

引言

大型语言模型(LLMs)(Yi等人,2016年)在自然语言处理(NLP)领域取得了显著突破,推动了人工智能(AI)的发展。从BERT和GPT系列等开创性模型开始(Devlin、Chang、Lee、Toutanova等人,2019年;Vaswani、Shazeer、Parmar、Uszkoreit、Jones、Gomez、Kaiser、Polosukhin等人,2017年),预训练-微调范式已被广泛应用于各种任务,包括问答、机器翻译和文本生成,在语言理解和推理方面表现出色。随着架构设计和训练策略的不断进步,例如采用Transformer机制和结合人类反馈的强化学习(Ouyang等人,2022年),LLMs已从简单的文本建模系统演变为通用的认知引擎,能够支持复杂的决策制定和知识密集型应用(Gao、Fu、Liu、Gao、Xu、Wu、Han等人,2024年;Rashid、Kausik等人,2024年)。
在中国NLP社区中,开源LLMs如LLaMA和Bloom(Touvron、Lavril、Izacard、Martinet、Lachaux、Lacroix、Rozière、Goyal、Hambro、Azhar等人,研讨会;Scao、Fan、Akiki、Pavlick、Ili?、Hesslow、Castagné、Luccioni、Yvon等人)的发展显著推动了多语言理解和领域适应研究。同时,针对中文定制的模型如DeepSeek和LLaMA-Chinese(Bi、Chen、Chen、Chen、Dai、Deng、Ding、Dong、Du、Fu等人;Liu、Feng、Xue、Wang、Wu、Lu、Zhao、Deng、Zhang、Ruan等人)通过利用大规模的高质量中文语料库实现了更出色的性能,这些语料库支持细粒度的语言特征提取和上下文推理。尽管取得了这些进展,中文LLMs的通用语言能力与中医(TCM)所需的专门语义系统和诊断逻辑之间仍存在显著差距,限制了它们在该领域的有效应用。
中医凭借其数千年的临床经验,构成了一个独特的医疗体系,其特征是整体推理和个性化治疗。近年来,将AI整合到中医中显示出巨大潜力,多项研究将中医知识与LLMs结合,用于智能诊断和推理。例如,HuatuoGPT2(Chen等人,2023年)通过提示工程和GPT-4生成的问题-答案对,在MedQA(Jin等人,2021年)和CMExam(Liu等人,2023年)等医学基准测试中取得了优异性能。Lingdan(Dettmers、Pagnoni、Holtzman、Zettlemoyer等人,2023年;Hua、Dong、Wei、Shu、Yang、Hu、Zhou、Sun、Yan、Yan等人,2024年)在多种中医语料库上应用了量化LoRA训练,而Biancang(Wei等人,2025年)将经典文献与结构化知识库结合用于证型识别,准确率高达77.7%。尽管LLMs在中医特定应用中具有潜力,但现有方法主要集中在通用医学问答或文本理解上。中医的核心推理任务,即证型鉴别和治疗生成,仍然未被充分探索
中医中的证型鉴别(SD)需要整合异构信息源(如患者主诉、病史以及四种诊断方法:望、闻、问、切)(Wang等人,2024年),并对复杂的语义关系进行细致推理。与通用医学问答任务不同,中医推理依赖于识别微妙的概念差异,这些差异往往涉及不同的治疗策略。例如,“阴虚血瘀”和“阴虚血热”之间的鉴别依赖于细微的语义线索,但会导致根本不同的治疗方法。这种语义上的细微差别暴露了通用LLMs的局限性,因为它们缺乏与中医结构化推理框架和隐含因果语义对齐的机制。为了弥合这一领域差距,并赋予LLMs证型鉴别和个性化治疗的能力,开发基于知识的适应框架(Zeng等人,2024年)至关重要,这些框架能够系统地将结构化中医知识融入预训练模型中。
为了解决这些挑战,我们提出了LLM-SDaT,这是一种基于知识的适应框架,它将领域特定的中医知识整合到LLMs中,用于证型鉴别和治疗。该框架采用低秩适应(LoRA)(Hu等人,2021年)实现参数高效的微调,同时保持语言能力。首先,我们构建了两个高质量的数据集来支持这一框架:(1)TCMSD100,一个包含100种代表性证型类别的结构化数据集,用于诊断建模;(2)TCMSDaT100,一个扩展的数据集,其中包含了用于基于知识的治疗生成的治疗信息。然后,通过这种顺序微调策略,LLM-SDaT能够对患者临床资料进行推理,并生成符合中医诊断原则的治疗建议,从而提高可解释性、可靠性和与专家推理的一致性。主要贡献总结如下:
  • 我们引入了两个系统构建的资源,TCMSD100用于证型鉴别,TCMSDaT100用于治疗生成,为基于知识的中医推理提供了全面的基础。
  • 我们开发了一种基于LoRA的参数高效微调策略,有效地将结构化中医知识融入LLMs,同时保持其通用语言能力。
  • 实验结果表明,所提出的LLM-SDaT框架有效统一了证型鉴别和个性化治疗生成,显示出更高的临床可解释性和与中医诊断原则的强一致性。
  • 材料与方法

    本节介绍了用于中医证型鉴别和治疗生成的二阶段计算框架。如图1所示,该框架旨在通过LLMs模仿经验丰富的中医从业者的诊断和治疗推理。它由两个主要部分组成:(1)证型鉴别模块(LLM-SD),负责从临床文本记录中进行诊断推理;(2)治疗生成模块(LLM-SDaT)

    基线评估

    我们进行了初步评估,以评估LLMs在没有领域特定适应的情况下进行中医证型鉴别的能力。我们将评估的模型分为两组(详见表3):基础模型,即没有接受过中医专项训练的通用基础模型;以及专家模型,这些模型已经使用中医领域知识进行了专门训练或微调。
    如表3和图4所示,基础模型的效果有限。

    结论

    在这项研究中,我们证明了大型语言模型在中医证型鉴别和治疗生成方面的有效性。通过构建两个专用数据集并利用LoRA微调,我们的模型在证型鉴别方面取得了最佳性能,并展示了生成高质量、针对患者的治疗计划的明确路径。这为AI驱动的中医奠定了坚实的基础。我们的案例研究验证了这一成功的关键在于

    资助

    本研究部分得到了中国国家重点研发计划(项目编号2024ZD0536605)、国家自然科学基金(项目编号82202984、12326612)、浙江省重点研发计划(项目编号2024SSYS0026)以及血管植入器械研究所(TIDRI)(项目编号KY052025003)的支持。

    关于写作过程中生成式AI和AI辅助技术的声明

    在准备本工作时,作者使用了ChatGPT和Gemini来完善论文写作。使用这些工具/服务后,作者根据需要对内容进行了审查和编辑,并对出版物的内容承担全部责任。

    CRediT作者贡献声明

    Bingtao Guan:撰写——原始草稿、可视化、验证、软件开发、项目管理、方法论、调查、数据分析、概念化。Shangde Gao:撰写——审阅与编辑。Dawei Zheng:数据管理。Haoxiang Xia:数据管理。Zhiyuan Wu:数据管理。Jian Wu:监督、资金获取。Hongxia Xu:监督、资金获取。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

    致谢

    这项研究得益于多位人士的宝贵贡献。我们衷心感谢Hongxia Xu教授和Jian Wu教授在选题指导上的深刻见解。同时,我们也感谢Shangde Gao在写作修订方面的慷慨帮助。最后,我们感谢Dawei Zheng、Haoxiang Xia和Zhiyuan Wu在数据收集过程中的辛勤支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号