神经网络在现代机器学习中发挥着核心作用,并在计算机视觉[1]、自然语言处理[2]和机器人技术[3]等领域取得了显著成功。然而,传统的神经网络作为离散的输入-输出映射,缺乏对连续时间动态的显式表示,这限制了它们在模拟受物理或生理过程支配的系统时的有效性[4]。为了解决这一限制,引入了神经常微分方程(Neural ODEs)来通过神经网络参数化隐藏状态的演变作为连续时间动态系统[5]。虽然神经常微分方程提供了平滑的轨迹建模和更好的时间一致性,但它们本质上是马尔可夫的,因此在表示当前行为强烈依赖于过去状态和输入的系统时存在局限性。
分数阶微积分通过引入非整数阶导数,为经典整数阶微分方程提供了自然的扩展,这些导数明确编码了记忆和遗传效应[6]、[7]。与描述瞬时变化率的整数阶导数不同,分数阶导数将系统演化定义为过去状态随时间的加权累积。这一特性使得分数阶模型特别适合描述表现出长距离时间依赖性和历史依赖行为的物理[8]、生物[9]、[10]和经济系统[11]。基于这一理念,神经分数阶微分方程(Neural FDEs)将神经网络与分数阶动态相结合,为具有记忆的连续时间系统提供了灵活的数据驱动框架[12]、[13]、[14]。与神经常微分方程相比,神经分数阶微分方程无需显式状态增强或复杂的模型结构即可自然表示非马尔可夫动态。
需要强调的是,本工作中使用分数阶动态并不意味着麻醉药代动力学或药效学严格遵循内在的生理幂律机制。相反,分数阶导数作为一种现象学和数据驱动的建模工具,用于捕捉临床数据中观察到的历史依赖性和累积效应,提供了对聚合延迟、重新分配过程和延长神经反应的紧凑表示,这些效应使用整数阶系统难以明确建模。
在这项研究中,使用Caputo分数阶导数来构建神经分数阶微分方程,该导数允许使用物理上可解释且常用于控制应用的标准整数阶初始条件。相比之下,Riemann–Liouville导数需要难以测量的分数阶初始条件,而Grunwald-Letnikov形式常常引入数值不稳定性。因此,Caputo导数在可解释性、数值稳定性和准确性之间提供了实用的平衡,使其非常适合控制应用。其主要限制是由于评估历史项而导致的计算成本略微增加,但这种权衡因其捕捉长期依赖性的能力而得到证明。
这些方程通常使用数值稳定的方法求解,如Adams-Bashforth预测-校正方案,该方法支持对复杂时间依赖性的高效学习。选择Adams-Bashforth预测-校正方法是因为它在稳定性、准确性和计算成本之间提供了稳健的折中。与许多隐式分数阶求解器相比,它有助于训练期间的稳定梯度传播,并避免了Grunwald-Letnikov方法的数值不稳定性和高昂的内存需求。这使得它在需要重复前向仿真的强化学习框架中特别有效。最近的研究探讨了基于物理的神经分数阶微分方程[15]和变阶分数动态[16],证明了这些模型在表示复杂、记忆依赖系统方面的有效性。
自动化麻醉管理是一个具有挑战性和临床相关性的控制问题,需要在考虑患者个体差异和药物延迟效应的同时,准确调节患者的无意识程度。麻醉深度通常使用双谱指数(BIS)来监测,BIS是一个从脑电图(EEG)信号中得出的标量值[17]、[18]。传统的控制方法,如比例-积分-微分(PID)控制器,依赖于固定的控制律和有限的系统内存,这限制了它们适应患者特定反应和不断变化的生理条件的能力[19]、[20]。
人工智能和强化学习(RL)的最新进展推动了基于数据的麻醉剂量控制策略的发展。集成药代动力学/药效学(PK/PD)模型的模型驱动RL方法在多个医学领域展示了强大的精确剂量和自适应治疗潜力,包括麻醉、抗凝和化疗[21]、[22]。特别是,连续动作深度RL公式实现了细粒度的丙泊酚剂量调节,与传统的PID控制器相比,实现了更平滑和更安全的BIS调节[23]。此外,最近的综述强调自动化和闭环麻醉控制仍然是活跃的研究领域,存在与模型可解释性、鲁棒性和临床转化相关的持续挑战[24]、[25]。
强化学习(RL)已成为顺序决策和自适应控制的强大替代方案[26]。无模型RL算法,如Soft Actor–Critic(SAC),可以直接从与环境互动中学习最优控制策略,而无需显式模型[27]、[28]、[29]。在这项研究中,由于SAC算法的样本效率、训练稳定性和适用于连续动作空间的特点,因此采用了SAC算法作为强化学习的核心。SAC的离策略学习策略允许它重用回放缓冲区中的过去经验,显著提高了学习效率,尤其是在环境交互计算成本较高的情况下。此外,SAC的最大熵公式促进了探索与利用之间的平衡,确保了鲁棒收敛并防止了策略过早停滞。这些特性使得SAC特别适合实时、安全关键的控制任务,如麻醉剂量调节,其中适应性和可靠性至关重要[30]。SAC及相关RL方法在多个领域也取得了成功,包括多智能体通信系统[31]、金融投资组合优化[32]和基于EEG的情绪检测[33],在这些领域中实时决策和动态适应至关重要。然而,大多数现有框架仍然假设具有马尔可夫动态的离散时间环境,这限制了它们在需要连续时间建模和长期记忆整合的领域的适用性。
为了弥合这一差距,我们提出了神经分数阶微分方程与无模型强化学习的新型集成。在所提出的框架中,将神经网络嵌入到分数阶微分方程中以模拟环境动态。网络根据当前状态和动作预测系统状态的变化率,而分数阶导数捕捉记忆效应。神经分数阶微分方程的数值积分产生连续时间轨迹,SAC智能体利用这些轨迹学习自适应控制策略。这种组合使得该框架能够以无模型的方式处理非线性、历史依赖的动态,同时支持具有长距离依赖性建模和实时控制的连续时间模拟。我们将这种方法应用于自动化麻醉管理,证明了在比传统控制方法和基线RL环境更弱的建模假设下具有竞争力的跟踪性能。
本文的其余部分组织如下。第2节介绍了环境模型的基础组成部分,包括神经分数阶微分方程(Neural FDEs)、药代动力学/药效学(PK/PD)模型以及作为镇静指标的双谱指数(BIS)。第3节详细介绍了强化学习方法,涵盖了三种不同的环境表示形式:由PK/PD模拟驱动的状态更新、仅使用BIS数据的预训练神经分数阶微分方程模型以及基于实时神经分数阶微分方程的环境。第4节总结了本文的贡献和未来研究的方向。