一种基于深度学习与强化学习协同作用的新型在线健康社区医生推荐方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月09日 来源：Decision Support Systems 6.8

编辑推荐：

　　提出基于深度学习（DL）的预诊模型和强化学习（RL）的推荐模型的两阶段方法，解决在线医疗社区（OHCs）中医生推荐效率低、标签不精准、范围过广等问题。预诊模型通过现代时空卷积网络和问句感知注意力机制提取患者问句特征，将其分类至合适科室，缩小推荐范围。推荐模型基于深度Q网络优化奖励函数，兼顾医学准确性和患者满意度。实验表明，预诊模型准确率提高7.43%和F1-score 10.30%，推荐模型平均奖励提升38.70%。

赵布天|张学豪|陈敏宇|王若佳|田甜|严占峰|王晓晨|郭凤英

北京中医药大学，中国北京100029

摘要

在线医疗社区（OHCs）中的医生推荐对于实现有效的患者-医生匹配以满足医疗需求至关重要。然而，现有研究面临关键挑战：训练数据中的标签不准确、推荐目标范围无限，以及缺乏针对患者问题的专门特征处理方法。本文提出了一种新颖的两阶段医生推荐方法，该方法结合了深度学习（DL）和强化学习（RL）。首先，基于DL的分诊模型生成患者问题的专业语义表示，从而将他们分配到合适的医疗部门，缩小了候选医生的范围。其次，基于深度Q网络的推荐模型根据患者-医生匹配信息优化奖励，推荐既能满足患者临床咨询需求又能提升患者主观满意度的医生。在与两个OHC数据集上的最先进基线模型的对比实验中，新的分诊模型在准确性上平均提高了7.43%，在F1分数上提高了10.30%；而推荐模型在平均奖励上相对增加了38.70%，在平均用户选择率上提高了6.94%。消融实验验证了所有组件的有效性。总之，这项工作提出了一种“分诊+推荐”方法，显著提升了OHCs中的患者-医生匹配性能。

引言

随着互联网技术的进步和对医疗保健需求的增长，在线医疗社区（OHCs）迅速兴起[1]。OHCs为患者和医生提供了便捷的在线交流渠道，使患者能够咨询疾病和治疗方案[2]。与传统的线下医疗咨询[3]不同，OHCs允许患者主动选择医生或通过移动设备提交咨询，平台会自动将他们与合适的医生匹配。基于患者的问题和情况，OHCs需要推荐能够回答他们问题并同时满足他们情感和心理需求的医生[4]。换句话说，OHCs需要承担为患者推荐最佳医生的责任，这是一个严峻的挑战。

已经开发了几种用于在OHCs中推荐医生的模型，这些模型可以分为非深度学习（non-DL）模型和深度学习（DL）模型。大多数非DL模型利用多标准决策（MCDM）技术，包括基于与理想解决方案相似性的排序技术（TOPSIS）[5]、决策试验与评估实验室（DEMATEL）[6]和模糊Choquet积分（FCI）[7]来对医生进行排名并选择最佳医生。DL模型，如多跳选择器网络（MHSN）[8]，实现了最先进的（SOTA）性能，它在患者问题的嵌入向量和医生相关信息的标签之间建立了紧密的映射[9]。同时，对于基于DL的模型，从患者问题中提取特征以形成后续推荐表示是一个关键步骤。作为序列数据，已经有许多成熟的医学文本特征提取模型，如流形学习[10]，它们在下游医学相关任务中实现了SOTA性能。

然而，这些方法存在局限性。首先，DL模型的训练标签通常来自历史患者选择或OHCs自身模型生成的推荐，这可能无法反映最佳的医生-患者匹配。一个真正合适的医生必须提供准确的医疗答案和令人满意的床边服务，包括专业性和情感支持[11]。为了克服这种标签依赖性，强化学习（RL）被广泛应用于其他领域[12],[13]，通过奖励机制优化用户偏好并向用户推荐最合适的选项[12]。因此，本文提出了一种基于RL的模型，用于在OHCs中推荐医生，该模型通过训练深度Q网络（DQN）来最大化由医生特征构建的奖励函数，从而将合适的医生分配给患者。

其次，从无限数量的医生中推荐医生具有挑战性。现有的DL模型通常要求患者手动选择一个部门来限制推荐医生的范围，这是不现实的，因为患者通常缺乏必要的医学知识。同时，直接在所有可用医生上应用RL会创建一个过于稀疏的动作空间和奖励矩阵，最终降低性能[14]。在本文中，提出了一种基于DL的分诊模型，在推荐模型之前部署该模型，形成“分诊+推荐”的工作流程。通过根据患者的问题将他们分配到合适的部门，该模型缩小了推荐范围，减少了无效数据的干扰，同时确保样本表现出一定的临床部门多样性。

第三，当前模型缺乏针对疑问句的专门特征提取。在OHCs中，患者通常将他们的医疗情况浓缩成单一的详细问题以提高沟通效率[15]。这些疑问句比陈述性文本具有更强的上下文相关性和更隐含的概念，需要仔细提取上下文关系。在本文中，为了解决这个问题，基于DL的分诊模型包括一个通过星形操作[17]改进的现代时间卷积网络（ModernTCN）[16]，以及一个问题感知注意力（QAA）机制。具体来说，ModernTCN扩大了有效感受野，星形操作增强了整个网络的非线性表达能力，QAA机制利用Node2Vec[19]嵌入的句法依赖性邻接矩阵的表示来捕获疑问句的句法结构。

为了解决OHCs中医生推荐模型中的标签有效性、推荐目标稀疏性和询问文本的特殊性问题，提出了一种结合DL和RL的新颖两阶段方法。基于DL的分诊模型提取患者问题表示，以分配合适的部门。这些表示随后作为基于RL的模型的状态向量，其中分配部门的医生构成了动作空间。通过利用医生信息进行奖励计算，基于RL的模型推荐能够有效回答患者问题并最佳满足他们需求的医生。

本文在决策支持和信息系统方面有几项贡献，特别是对于半结构化决策问题，如OHCs中的医生推荐。首先，提出了一种结合基于DL的模型和基于RL的模型的新方法，以支持OHCs向患者推荐合适的医生。其次，提出了一种基于DL的分诊模型，该模型完全提取疑问句的特征以缩小推荐范围。第三，提出了一种基于RL的模型，用于推荐不仅能回答患者问题还能确保患者满意度的医生。第四，多项实验展示了各个模型和协调工作流程的优越性能，以及每个组件的有效性。

部分片段

文献综述

与所提出方法相关的代表性工作列在表1中。

方法

所提出的方法包括两个阶段：分诊和医生推荐。所提出方法的总体结构如图1所示。

所提出的两阶段方法以患者问题的原始文本和嵌入向量作为输入。在第一阶段，提出了一种基于DL的分诊模型，从这些问题中提取特征并生成语义表示，以便将患者分配到合适的医疗部门。在第二阶段，深度Q网络（DQN）推荐合适的医生

数据集

分诊、医生推荐和消融实验是在中国两个领先的OHCs的数据集上进行的。Chunyu Doctor（CD）数据集包含695,078条记录，涉及15个部门的1262名医生。Dingxiang Doctor（DD）数据集包含10,000条记录，涉及14个部门的992名医生。每条记录包括患者的原始问题和咨询医生的详细信息。值得注意的是，CD包含表2中的所有属性，而DD缺乏同行评分。

为了确保有效性

分诊实验的结果

分诊实验的结果显示在表5中。

如表5所示，所提出的MedQuesNet在CD数据集上的表现优于基线模型，分别在ACC、PRE、REC和F1上平均提高了6.79%、8.22%、15.13%和13.07%。同样，在DD数据集上，它分别实现了8.07%、9.83%、3.80%和7.53%的平均提升。Wilcoxon符号秩检验（n = 120）确认这些提升在统计上是显著的，突显了MedQuesNet的优势

分诊实验的讨论

分诊模型分为非DL（组•）和DL组（组?）。与非DL模型相比，MedQuesNet在CD数据集上的ACC提高了10.24%，PRE提高了12.61%，REC提高了5.55%，F1提高了10.33%。在DD数据集上的相应提升分别为7.66%、11.38%、19.37%和16.81%。HPTM-BiDCSR的整体排名最差，因为其主题聚类校准难以处理由短疑问句组成的实验数据

结论

为了解决训练标签不准确、推荐范围无限以及患者问题中疑问特征处理不足的问题，本文提出了一种新颖的两阶段方法，该方法结合了基于DL的分诊模型和基于RL的推荐模型。与最先进的基线模型相比，分诊模型在ACC和F1上分别平均提高了7.43%和10.30%。同时，所提出的推荐模型在平均奖励上相对增加了38.70%

CRediT作者贡献声明

赵布天：撰写——原始草稿、方法论、资金获取、概念化。张学豪：可视化、调查。陈敏宇：可视化、调查。王若佳：撰写——审阅与编辑、数据管理。田甜：验证。严占峰：验证。王晓晨：软件、形式分析。郭凤英：监督、项目管理、资金获取。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作得到了“北京市社会科学基金会青年学者基金”（Grant 25BJ03238）和“中央高校基本科研业务费”（Grant 2025-JYB-XJSJJ-022 和 Grant 2025-JYB-JBGS-009）的支持。

赵布天获得了北京交通大学的情报管理博士学位。他目前是北京中医药大学大数据管理与应用系的讲师。他当前的研究兴趣包括自然语言处理和人工智能在医疗保健中的应用。

联系信箱：

粤ICP备09063491号

摘要

引言