
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于行为感知的深度强化学习在多目标门诊预约优化中的应用
《Scientific Reports》:Behavior-aware deep reinforcement learning for multi-objective outpatient scheduling optimization
【字体: 大 中 小 】 时间:2026年06月06日 来源:Scientific Reports 3.9
编辑推荐:
摘要大型医院的门诊部门一直存在调度效率低下的问题,表现为患者等待时间过长、资源利用率不足以及患者爽约率较高。现有的调度方法大多忽略了患者行为的多样性,将患者满意度简单视为等待时间的代理指标,而没有将其视为一个基于心理学的概念。本文提出了一种名为MO-SAC-B的多目标深度强化学习
大型医院的门诊部门一直存在调度效率低下的问题,表现为患者等待时间过长、资源利用率不足以及患者爽约率较高。现有的调度方法大多忽略了患者行为的多样性,将患者满意度简单视为等待时间的代理指标,而没有将其视为一个基于心理学的概念。本文提出了一种名为MO-SAC-B的多目标深度强化学习框架,该框架将行为科学理论融入调度优化过程中。首先,我们构建了一个基于行为的离散事件模拟环境,该环境能够模拟患者的预期等待不适感、非线性的耐心衰减以及患者爽约和放弃的行为特征。一种考虑满意度的奖励机制将这些行为特征转化为密集的学习信号;同时,一种具有自适应权重调整和优先经验回放功能的多目标Soft Actor-Critic算法帮助在效率与满意度之间找到最优平衡点。通过使用一家三级医院的真实门诊数据进行的实验表明,与最强的基准方法相比,MO-SAC-B将平均等待时间减少了21.9%,患者综合满意度提高了12.7个百分点,爽约率降低了25.8%。进一步的研究证实,每个行为因素都发挥了重要作用,在患者流量较大的情况下,这些因素的协同效应能够进一步提升系统的性能。鲁棒性分析也验证了该框架在应对需求激增和资源中断时的适应性。