基于行为感知的深度强化学习在多目标门诊预约优化中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Behavior-aware deep reinforcement learning for multi-objective outpatient scheduling optimization

【字体：大中小】 时间：2026年06月06日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要大型医院的门诊部门一直存在调度效率低下的问题，表现为患者等待时间过长、资源利用率不足以及患者爽约率较高。现有的调度方法大多忽略了患者行为的多样性，将患者满意度简单视为等待时间的代理指标，而没有将其视为一个基于心理学的概念。本文提出了一种名为MO-SAC-B的多目标深度强化学习

摘要

大型医院的门诊部门一直存在调度效率低下的问题，表现为患者等待时间过长、资源利用率不足以及患者爽约率较高。现有的调度方法大多忽略了患者行为的多样性，将患者满意度简单视为等待时间的代理指标，而没有将其视为一个基于心理学的概念。本文提出了一种名为MO-SAC-B的多目标深度强化学习框架，该框架将行为科学理论融入调度优化过程中。首先，我们构建了一个基于行为的离散事件模拟环境，该环境能够模拟患者的预期等待不适感、非线性的耐心衰减以及患者爽约和放弃的行为特征。一种考虑满意度的奖励机制将这些行为特征转化为密集的学习信号；同时，一种具有自适应权重调整和优先经验回放功能的多目标Soft Actor-Critic算法帮助在效率与满意度之间找到最优平衡点。通过使用一家三级医院的真实门诊数据进行的实验表明，与最强的基准方法相比，MO-SAC-B将平均等待时间减少了21.9%，患者综合满意度提高了12.7个百分点，爽约率降低了25.8%。进一步的研究证实，每个行为因素都发挥了重要作用，在患者流量较大的情况下，这些因素的协同效应能够进一步提升系统的性能。鲁棒性分析也验证了该框架在应对需求激增和资源中断时的适应性。

联系信箱：

粤ICP备09063491号

摘要

热点排行