通过神经分数微分方程实现连续时间记忆依赖系统中的强化学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Reinforcement learning in continuous-time memory-dependent systems via neural fractional differential equations

【字体：大中小】 时间：2026年03月02日 来源：Neurocomputing 6.5

编辑推荐：

　　提出基于神经分数微分方程（Neural FDEs）的强化学习框架，通过Caputo分数导数建模麻醉药物的记忆依赖效应，结合软 actor-critic算法实现BIS指标的闭环控制，验证其相比整数阶模型更优的鲁棒性和适应性。

Madasamy Vellappandi | Sangmoon Lee

韩国大邱庆北国立大学电子与电气工程学院

摘要

闭环麻醉控制需要准确建模药物作用的延迟和累积效应，而这些效应使用标准的整数阶动态系统难以捕捉。在这项工作中，我们提出了一种强化学习框架，其中环境动态由神经分数阶微分方程（Neural FDEs）表示，从而实现具有记忆依赖行为的连续时间建模。分数阶公式通过结合与麻醉药物反应相关的历史依赖效应，对神经常微分方程（Neural ODEs）进行了扩展。训练了一个Soft Actor–Critic（SAC）智能体，在临床驱动的约束条件下调节双谱指数（BIS）。基于患者特定BIS数据的仿真结果表明，与整数阶和基于神经常微分方程的环境模型相比，该框架具有更强的跟踪性能和更高的鲁棒性。这些发现凸显了神经分数阶微分方程作为自动化麻醉中记忆依赖控制问题有效环境模型的潜力。

引言

神经网络在现代机器学习中发挥着核心作用，并在计算机视觉[1]、自然语言处理[2]和机器人技术[3]等领域取得了显著成功。然而，传统的神经网络作为离散的输入-输出映射，缺乏对连续时间动态的显式表示，这限制了它们在模拟受物理或生理过程支配的系统时的有效性[4]。为了解决这一限制，引入了神经常微分方程（Neural ODEs）来通过神经网络参数化隐藏状态的演变作为连续时间动态系统[5]。虽然神经常微分方程提供了平滑的轨迹建模和更好的时间一致性，但它们本质上是马尔可夫的，因此在表示当前行为强烈依赖于过去状态和输入的系统时存在局限性。

分数阶微积分通过引入非整数阶导数，为经典整数阶微分方程提供了自然的扩展，这些导数明确编码了记忆和遗传效应[6]、[7]。与描述瞬时变化率的整数阶导数不同，分数阶导数将系统演化定义为过去状态随时间的加权累积。这一特性使得分数阶模型特别适合描述表现出长距离时间依赖性和历史依赖行为的物理[8]、生物[9]、[10]和经济系统[11]。基于这一理念，神经分数阶微分方程（Neural FDEs）将神经网络与分数阶动态相结合，为具有记忆的连续时间系统提供了灵活的数据驱动框架[12]、[13]、[14]。与神经常微分方程相比，神经分数阶微分方程无需显式状态增强或复杂的模型结构即可自然表示非马尔可夫动态。

需要强调的是，本工作中使用分数阶动态并不意味着麻醉药代动力学或药效学严格遵循内在的生理幂律机制。相反，分数阶导数作为一种现象学和数据驱动的建模工具，用于捕捉临床数据中观察到的历史依赖性和累积效应，提供了对聚合延迟、重新分配过程和延长神经反应的紧凑表示，这些效应使用整数阶系统难以明确建模。

在这项研究中，使用Caputo分数阶导数来构建神经分数阶微分方程，该导数允许使用物理上可解释且常用于控制应用的标准整数阶初始条件。相比之下，Riemann–Liouville导数需要难以测量的分数阶初始条件，而Grunwald-Letnikov形式常常引入数值不稳定性。因此，Caputo导数在可解释性、数值稳定性和准确性之间提供了实用的平衡，使其非常适合控制应用。其主要限制是由于评估历史项而导致的计算成本略微增加，但这种权衡因其捕捉长期依赖性的能力而得到证明。

这些方程通常使用数值稳定的方法求解，如Adams-Bashforth预测-校正方案，该方法支持对复杂时间依赖性的高效学习。选择Adams-Bashforth预测-校正方法是因为它在稳定性、准确性和计算成本之间提供了稳健的折中。与许多隐式分数阶求解器相比，它有助于训练期间的稳定梯度传播，并避免了Grunwald-Letnikov方法的数值不稳定性和高昂的内存需求。这使得它在需要重复前向仿真的强化学习框架中特别有效。最近的研究探讨了基于物理的神经分数阶微分方程[15]和变阶分数动态[16]，证明了这些模型在表示复杂、记忆依赖系统方面的有效性。

自动化麻醉管理是一个具有挑战性和临床相关性的控制问题，需要在考虑患者个体差异和药物延迟效应的同时，准确调节患者的无意识程度。麻醉深度通常使用双谱指数（BIS）来监测，BIS是一个从脑电图（EEG）信号中得出的标量值[17]、[18]。传统的控制方法，如比例-积分-微分（PID）控制器，依赖于固定的控制律和有限的系统内存，这限制了它们适应患者特定反应和不断变化的生理条件的能力[19]、[20]。

人工智能和强化学习（RL）的最新进展推动了基于数据的麻醉剂量控制策略的发展。集成药代动力学/药效学（PK/PD）模型的模型驱动RL方法在多个医学领域展示了强大的精确剂量和自适应治疗潜力，包括麻醉、抗凝和化疗[21]、[22]。特别是，连续动作深度RL公式实现了细粒度的丙泊酚剂量调节，与传统的PID控制器相比，实现了更平滑和更安全的BIS调节[23]。此外，最近的综述强调自动化和闭环麻醉控制仍然是活跃的研究领域，存在与模型可解释性、鲁棒性和临床转化相关的持续挑战[24]、[25]。

强化学习（RL）已成为顺序决策和自适应控制的强大替代方案[26]。无模型RL算法，如Soft Actor–Critic（SAC），可以直接从与环境互动中学习最优控制策略，而无需显式模型[27]、[28]、[29]。在这项研究中，由于SAC算法的样本效率、训练稳定性和适用于连续动作空间的特点，因此采用了SAC算法作为强化学习的核心。SAC的离策略学习策略允许它重用回放缓冲区中的过去经验，显著提高了学习效率，尤其是在环境交互计算成本较高的情况下。此外，SAC的最大熵公式促进了探索与利用之间的平衡，确保了鲁棒收敛并防止了策略过早停滞。这些特性使得SAC特别适合实时、安全关键的控制任务，如麻醉剂量调节，其中适应性和可靠性至关重要[30]。SAC及相关RL方法在多个领域也取得了成功，包括多智能体通信系统[31]、金融投资组合优化[32]和基于EEG的情绪检测[33]，在这些领域中实时决策和动态适应至关重要。然而，大多数现有框架仍然假设具有马尔可夫动态的离散时间环境，这限制了它们在需要连续时间建模和长期记忆整合的领域的适用性。

为了弥合这一差距，我们提出了神经分数阶微分方程与无模型强化学习的新型集成。在所提出的框架中，将神经网络嵌入到分数阶微分方程中以模拟环境动态。网络根据当前状态和动作预测系统状态的变化率，而分数阶导数捕捉记忆效应。神经分数阶微分方程的数值积分产生连续时间轨迹，SAC智能体利用这些轨迹学习自适应控制策略。这种组合使得该框架能够以无模型的方式处理非线性、历史依赖的动态，同时支持具有长距离依赖性建模和实时控制的连续时间模拟。我们将这种方法应用于自动化麻醉管理，证明了在比传统控制方法和基线RL环境更弱的建模假设下具有竞争力的跟踪性能。

本文的其余部分组织如下。第2节介绍了环境模型的基础组成部分，包括神经分数阶微分方程（Neural FDEs）、药代动力学/药效学（PK/PD）模型以及作为镇静指标的双谱指数（BIS）。第3节详细介绍了强化学习方法，涵盖了三种不同的环境表示形式：由PK/PD模拟驱动的状态更新、仅使用BIS数据的预训练神经分数阶微分方程模型以及基于实时神经分数阶微分方程的环境。第4节总结了本文的贡献和未来研究的方向。

章节摘录

麻醉控制的环境建模

本研究通过优化丙泊酚输注来调节麻醉深度，以达到目标双谱指数（BIS），这是一种基于EEG的临床验证的无意识度量。BIS值的范围从0（深度麻醉）到100（完全清醒），其中50被认为是全身麻醉的最佳值。准确建模患者对丙泊酚的动态反应对于设计有效的闭环控制策略至关重要。

为了模拟丙泊酚输注期间的BIS反应

基于强化学习的麻醉控制

本研究采用无模型强化学习（RL）方法进行闭环麻醉控制，以双谱指数（BIS）作为主要反馈信号。在无模型强化学习中，智能体通过与环境的互动学习控制策略，而无需在策略本身中包含显式分析模型。在这项工作中，尽管SAC智能体在策略层面是无模型的，但考虑了不同的环境表示形式

结论

本研究引入了一个使用神经分数阶微分方程（Neural FDEs）作为连续时间环境的强化学习框架，用于控制具有记忆依赖动态的系统，在闭环麻醉中得到了验证。神经分数阶微分方程通过引入分数阶动态，扩展了标准神经常微分方程，使系统能够捕捉长距离记忆效应，同时在某些条件下恢复标准常微分方程的行为。利用这种具有记忆意识的表示，RL-SAC智能体可以

CRediT作者贡献声明

Madasamy Vellappandi：撰写——原始草稿、可视化、验证、方法论、形式分析、数据整理、概念化。Sangmoon Lee：撰写——审稿与编辑、可视化、验证、监督、软件、资源、项目管理、方法论、研究调查、资金获取、数据整理、概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了韩国国家研究基金会（NRF）的支持，通过韩国政府科学和ICT部的RS-2024-00350118号资助。

M. Vellappandi于2023年在印度普杜切里国家技术学院获得数学博士学位。他目前是韩国大邱庆北国立大学的博士后研究员。他发表了超过17篇SCI期刊论文。他的研究兴趣包括深度学习、强化学习、最优控制和机器人应用。

联系信箱：

粤ICP备09063491号

摘要

引言

章节摘录

麻醉控制的环境建模

基于强化学习的麻醉控制

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行