《Neuroscience Research》:Gradual proactive regulation of body state by reinforcement learning of homeostasis
编辑推荐:
本研究针对生物体内稳态调节中前馈调控机制的计算基础展开探索,提出了一种扩展的稳态强化学习(HRL)框架,通过引入连续控制信号、非对称奖励加权及情境门控抑制学习,成功模拟了条件性体温调节中的渐进耐受、消退及快速再获取等现象,并进一步揭示了多变量共享调控下的权衡机制与失败模式,为理解自主神经失调等相关病理状态提供了新的计算视角。
生命体如何通过经验学习来预测并抵消外界干扰,维持体温、血压等内部生理变量的稳定?这一过程被称为稳态调节,是生物学中的核心问题。传统的稳态模型主要描述反应性反馈机制,即当身体状态偏离设定值后启动纠正过程。然而,越来越多的证据表明,生物体还能通过学习建立条件反射,提前发动补偿性反应。例如,反复接受乙醇注射的小鼠,在听到与注射配对的铃声(条件刺激)后,会提前升高体温以对抗乙醇引起的体温过低,从而逐渐产生耐受性。这种“前瞻性”调节机制对于生物适应环境至关重要,但其背后的计算原理仍不清楚。
早期的稳态强化学习(Homeostatic Reinforcement Learning, HRL)模型为理解这类行为提供了框架,但存在明显局限:它们通常采用离散动作选择,难以描述现实中渐进、试次间的调整过程;未能包含消退学习(即当条件刺激不再伴随非条件刺激出现时,反应减弱的现象)及其快速再获取的机制;并且普遍假设奖励和惩罚的价值是对称的,这与行为学观察到的“损失厌恶”现象不符。此外,生物体的调控通常是多变量的,共享有限的调控信号(如交感神经兴奋同时影响心率、血压等多个指标),如何在这样的约束下进行有效学习,协调不同生理变量之间的权衡,也是一个未解之谜。
为了解决这些问题,发表在《Neurosics Research》上的这项研究,提出了一个扩展的HRL计算框架。该研究旨在模拟生物体如何通过试错学习,逐步形成针对可预测干扰的前摄性补偿反应。为了开展研究,作者主要采用了基于强化学习的计算建模方法,结合了动态系统理论来刻画内部状态(如体温)的连续时间演化过程。模型的核心是通过定义基于内稳态偏差减少的瞬时奖励信号,来驱动对前摄控制信号强度的试次间更新学习。
研究结果主要从一维和多维模型两个层面展开。
3.1. 一维模型中的前摄性体温调节
研究人员首先构建了一个一维模型,模拟经典的体温调节条件反射实验。模型的核心动力学方程包含了三个部分:反应性稳态驱动(驱使状态回归设定点)、外部扰动(如乙醇引起的体温下降)和习得的前摄性补偿反应。学习过程通过调整前摄信号的幅度进行。
- •
渐进性耐受获得:模拟成功再现了随着条件刺激-非条件刺激(CS-US)配对试验的重复,补偿反应逐渐增强,体温偏差逐渐减小的现象,这与实验观察到的条件性耐受相符。
- •
消退与快速再获取:模型引入了一个情境门控变量χi。当在消退阶段(仅呈现CS)违反CS-US预期时(χi=1),抑制性学习被激活, suppressing the expression of the learned response without erasing it. 当CS-US配对恢复时,门控关闭(χi=0),抑制被解除,从而允许已习得的补偿反应快速重新表达,模拟了观察到的快速再获取现象。
- •
非对称奖励的关键作用:模型设定了一个非对称权重参数η>1,使得状态恶化(驱动函数D(x)增加)的惩罚权重高于等量改善的奖励权重。模拟表明,如果采用对称奖励(η=1),学习信号会相互抵消,导致学习失败,突显了“损失主导”机制对于驱动渐进学习的重要性。
- •
与基线模型对比:与先前采用离散动作选择的HRL模型相比,本研究提出的连续控制模型能平滑地获取耐受性,而基线模型则表现出不稳定的试次间奖励,证明了连续调控信号对于模拟渐进学习过程的必要性。
3.2. 共享控制下的多变量稳态调节与权衡
研究进一步将模型扩展到多维情况,其中多个内部变量(如x1, x2, x3)由数量更少的共享元信号(如z1, z2)通过一个固定的影响矩阵W进行调控。这种设置反映了生理现实中调控信号的共享性(例如,一个调控信号可能同时以相反的方向影响两个变量)。
- •
权衡的出现:在简单的单元信号调控双变量(K=1, N=2)的模型中,模拟显示,学习调整元信号以补偿一个变量(如受扰动的x1)时,会不可避免地导致另一个与之耦合的变量(x2)产生偏差,明确揭示了共享控制下固有的权衡关系。
- •
优先级的影响:通过为不同变量分配不同的优先级权重an,模型展示了优先级如何塑造权衡结果。当某个变量被赋予高优先级时,系统学习的结果会优先稳定该变量,而允许低优先级变量出现较大偏差。极端或不平衡的优先级配置可能导致学习无法收敛到奖励最优的配置,甚至引发系统性的调节失败。
- •
参数空间中的成功与失败:通过系统扫描奖励非对称性η和优先级模式θ参数空间,研究绘制了“学习性能相图”。结果表明,在平衡或适度不平衡的优先级 regime 下,强化学习能够成功协调多变量前摄调节,收敛到接近最优的元信号配置;而在极端优先级配置下,学习会稳定在明显次优的状态,揭示了特定参数条件下调节失败的风险模式。
综上所述,本研究发展了一个能够描述渐进性、情境依赖性前摄稳态调节的计算框架。该框架通过整合连续控制、非对称奖励评估和门控抑制学习,成功地模拟了条件性耐受、消退和再获取等关键学习现象。更重要的是,通过将模型扩展到多维共享控制系统,研究揭示了在多变量调控背景下,学习过程必然涉及权衡,而变量的相对优先级是决定学习成功与否以及权衡结果的关键因素。
这项工作的意义在于,它将强化学习原理与稳态调节的生物学约束相结合,为理解经验如何塑造我们的内部生理状态调控提供了一个可计算的模型。它不仅解释了已知的行为现象,如条件性药物耐受,更重要的是,它提出了一个可能导致调节失败的计算机制——即在多变量、资源共享的调控系统中,不当的优先级分配可能阻碍学习过程收敛到整体最优状态。这为理解某些自主神经失调(如自主神经功能障碍、肌痛性脑脊髓炎/慢性疲劳综合征(ME/CFS))的潜在机制提供了新的思路。在这些状况中,可能存在着对内部状态偏差的异常“优先级”评估或信号共享机制的紊乱,从而导致持续的多系统失调。未来,结合实证数据的模型验证和扩展(例如,通过逆向强化学习推断患者的隐含优先级),可能有助于将这一计算框架转化为理解病理生理和指导干预策略的有力工具。