《Science of Traditional Chinese Medicine》:Advances in computational approaches to herbal prescription recommendation in traditional Chinese medicine: A review
编辑推荐:
为支持中医临床决策、推动中医药现代化,本文对人工智能(AI)驱动的草药处方推荐(HPR)计算方法进行了全面回顾。研究系统梳理了传统机器学习、主题模型、序列生成、深度学习/图网络与大语言模型等主要技术范式,并利用公开基准数据集对代表性模型进行了实验比较。文章总结了当前挑战并展望了未来方向,为开发更可靠、可解释且适用于临床的智能HPR系统提供了重要参考。
人工智能的浪潮正席卷各行各业,作为中华文明瑰宝的传统中医药也迎来了现代化与智能转型的关键时刻。然而,尽管许多医疗机构已积累了海量的电子病历和处方数据,如何有效挖掘利用这些数据,特别是对大量中医处方记录进行系统性管理和智能分析,仍是一个巨大挑战。与此同时,合格的中医医师培养周期长、人才短缺,限制了中医药服务的普及。在此背景下,利用人工智能技术开发智能处方推荐系统,辅助经验不足的临床医生提升诊断的一致性与效率,成为了一个兼具理论与现实意义的重要研究方向。
为了系统梳理该领域进展,研究人员在《Science of Traditional Chinese Medicine》上发表了一篇综述文章。他们开展了系统的文献检索,对截至2025年7月发表的、关于“herbal prescription recommendation”等主题的研究进行了全面回顾。为了回答“人工智能在中医处方推荐领域有哪些方法、效果如何、面临什么挑战”等问题,作者不仅从方法论上对现有研究进行了系统分类和总结,还利用多个公开数据集,对具有开源实现的代表性模型进行了实验评估与对比分析。
关键技术方法概述
研究主要基于文献综述和实验比较的方法。首先,通过Web of Science和Google Scholar等数据库进行系统性文献检索与归纳,将现有方法分为传统机器学习、主题模型、基于深度学习与图结构的方法、序列生成模型以及大语言模型驱动的方法五大范式。其次,为进行实证比较,研究选取了五个具有代表性的公开中医数据集,包括TCM-Lung、TCM-Stroke、TCM-Insomnia三个临床数据集,以及ISGP(源自内、外、妇、儿教材)和TCM-PD(源自《中医药方大辞典》)两个知识型数据集。在这些数据集上,对12个涵盖不同技术范式的代表性模型(包括PTM、TCMPR、KDHR、PresRecST等专用模型及Qwen3、DeepSeek-R1等大语言模型)进行了评估,主要采用Precision@k、Recall@k和F1-score@k(k=5,10,20)作为评价指标。
研究结果
1. 方法学范式的系统梳理
研究人员将草药处方推荐任务形式化为一个基于患者症状信息的多输出预测问题。现有研究方法可归纳为五大类:
- •
传统机器学习方法:通常将HPR视为多标签分类问题,但忽略了草药间复杂的配伍关系。
- •
主题模型方法:将处方视为文档,症状和草药视为词语,通过建模其共现关系来挖掘潜在的治疗模式。
- •
深度学习与图结构方法:利用图神经网络和知识图谱整合结构化领域知识,以提升可解释性和推荐准确性。
- •
序列生成模型方法:采用序列到序列架构,将处方生成视为有序的草药序列预测任务,以捕捉草药间的依赖性和配伍规则。
- •
大语言模型方法:通过大规模预训练和领域特定微调,整合中医知识,增强辨证推理和处方生成能力。
2. 在基准数据集上的对比结果
通过对五个数据集的实验评估,研究得出以下核心发现:
- •
TCM专用模型优势明显:如PresRecST、KDHR、TCMPR和PTM等专为中医任务设计的模型,在大多数数据集上,尤其是在衡量综合性能的F1@20指标上表现最佳。例如,PresRecST在TCM-Stroke数据集上取得了0.4520的最高F1@20分数。这些模型通过整合症状子图、多图融合、遵循“症状-证候-治则-处方”的渐进推理等机制,更贴合中医临床逻辑。
- •
大语言模型表现局限:通用大语言模型(如Qwen3、DeepSeek-R1)虽然在部分数据集的Precision@5上表现尚可,显示出一定的初步建议生成能力,但由于缺乏对中医结构化知识的显式表征,其整体性能(尤其是F1@20)显著低于专用模型,且在不同数据集上表现不稳定,难以生成稳定、全面且临床相关的草药组合。
- •
数据集特性影响方法表现:不同数据集的特性影响了各方法的效能。例如,在症状相对集中但关联复杂的TCM-Insomnia数据集上,主题模型方法(如Link-PLSA-LDA)表现突出;而在结构清晰、标注规范的TCM-Lung数据集上,图神经网络方法(如PresRecST)优势显著。
3. 当前挑战与未来方向
基于综述与实验分析,文章指出当前智能处方推荐系统走向实际临床部署仍面临五大关键挑战,并提出了相应未来研究方向:
- •
数据质量与逻辑链条:需构建能完整反映“理-法-方-药”中医诊断逻辑的高质量、语义丰富的数据集。
- •
模型推理与可解释性:需发展融合神经符号推理的框架,增强模型的因果、层次推理能力和输出可解释性。
- •
语义链桥接:需构建端到端的层次化模型,显式捕捉并统一“理-法-方-药”的完整语义链。
- •
大语言模型的知识泛化:需通过指令微调、检索增强生成、知识图谱整合等技术,开发中医领域专用的大语言模型,提升其跨疾病泛化能力。
- •
轻量化部署与临床整合:需通过模型剪枝、知识蒸馏、联邦学习等技术实现模型轻量化和动态知识更新,并建立标准接口以无缝集成到电子病历和临床工作流中。
结论与讨论
本综述系统回顾了中医药领域智能处方推荐的计算方法进展,并通过实验比较揭示了不同技术范式的性能特点。研究表明,紧密结合中医辨证论治逻辑、整合结构化知识(如知识图谱)的专用模型(如PresRecST、KDHR)在当前任务中表现出明显优势。而通用大语言模型虽具潜力,但亟需领域特定的适应与增强才能满足临床需求。从循证视角看,该领域正从可解释的统计发现向临床 grounded 的决策支持演进。
该研究的核心意义在于,它不仅为研究者和开发者提供了一份关于智能HPR技术发展的实用路线图与性能参照,更通过识别关键挑战和指明未来方向,为开发下一代更可靠、可解释且易于临床集成的智能中医处方推荐系统奠定了坚实基础,从而助力中医药的现代化与智能化转型。