一种受生物启发的神经共识模型：解决非稳态多臂赌博机中的探索-利用困境

【字体：大中小】 时间：2026年03月11日 来源：Biological Cybernetics 1.6

编辑推荐：

　　本文针对传统强化学习算法在解决多臂赌博机（MAB）问题时缺乏生物合理性的问题，提出了一种受眶额皮层（OFC）和前扣带回皮层（ACC）启发的、基于双神经群体交互的神经选择共识（NSA）模型。该模型在多种非稳态随机赌博机任务中表现出鲁棒性能，与Thompson Sampling、UCB等标准算法相当，并能自适应调整探索-利用策略。其进化优化后的参数与突触机制原理相符，为理解不确定决策的神经机制提供了计算框架。

在日常生活中，我们经常面临选择：今天午饭吃哪家餐厅？面对多支股票，该投资哪一只？这些都可以抽象为一个经典的决策问题——多臂赌博机（Multi-Armed Bandit， MAB）。想象你面前有几台老虎机（“臂”），每台吐钱的概率不同但未知，你的目标是通过有限的尝试次数，最大化总收益。这其中的核心矛盾是“探索”与“利用”：是继续玩目前看来最赚钱的那台（利用已知信息），还是去试试别的机器（探索新可能，以期发现更高的回报）？

尽管强化学习领域已为此类问题开发了诸多高效算法，如Thompson Sampling、UCB等，但它们通常被诟病为“黑箱”操作，其内部工作机制与生物大脑处理决策的神经机制相去甚远。这些算法往往是瞬时、确定性的数学更新，缺乏神经元之间动态交互、突触可塑性（Synaptic Plasticity）等生物系统的核心特征。能否构建一个既具备高性能，又能体现生物合理性的决策模型，从而架起计算智能与神经科学之间的桥梁？这正是本研究试图回答的问题。研究人员在《Biological Cybernetics》期刊上发表论文，提出了一种名为“神经选择共识”（Neural Selection Agreement， NSA）的极简生物启发模型，为上述挑战提供了一个新颖的解决方案。

为了构建和验证NSA模型，研究人员主要采用了以下几项关键技术方法：首先，模型构建基于由两个相互作用、基于发放率的神经元群体（U和V）组成的微分方程系统，其超参数（如时间常数、激活函数形状等）通过协方差矩阵自适应进化策略（Covariance Matrix Adaptation Evolution Strategy， CMA-ES）进行全局优化。其次，在多种非稳态多臂赌博机任务环境中对模型进行测试，包括分段平稳、带漂移的平稳、正弦波变化及部分正弦波变化等不同奖励分布动态，并与Thompson Sampling、UCB、ε-Greedy等经典算法进行性能对比。最后，通过分析选择臂的熵（Entropy）来量化决策策略的探索性，并研究了模型在不同环境熵水平下的鲁棒性。

研究结果

1. 模型架构与进化优化

研究人员提出的NSA模型包含两个神经群体：群体U代表K个可用选项（赌博机的臂），群体V编码基于当前策略的选项价值。两者通过可塑的、权重依赖的连接进行交互。决策分两阶段进行：首先施加恒定外部输入，随后让系统自主演化，最终根据两个群体活动最大值所对应的选项是否一致来做出选择（一致则选择该选项，否则随机探索）。模型的所有可调参数（共22个）通过CMA-ES算法在多种非稳态任务上进行进化优化。优化结果显示，神经响应函数进化出陡峭的sigmoid形状，类似生物中的III类神经元；而权重函数Φ_v和学习率函数Φ_η则分别呈现出sigmoid主导和递减的高斯形状，这分别有利于在价值确定时进行利用，以及在价值不确定时进行快速学习和避免权重更新震荡。

2. 在多种非稳态环境中的性能表现

NSA模型在四种不同的非稳态MAB变体（MAB-P, MAB-D, MAB-sin, MAB-sinP）中接受了测试，臂的数量（K）从5到1000不等。总体而言，NSA模型在所有环境中都表现出有竞争力的性能，其获得的累计奖励与Thompson Sampling、ε-Greedy和UCB算法相当，甚至在臂数较多时（如K=1000）表现更优。这表明该模型能够有效适应从缓慢漂移到快速周期性变化的各种非稳态（Concept Drift）环境。

3. 决策动力学与鲁棒性分析

通过分析模型在任务中选择臂的熵，可以揭示其决策策略。在奖励分布不确定性较低时，NSA模型能迅速锁定高奖励选项并采取贪婪（Greedy）策略，其选择熵很低，类似于Thompson Sampling。随着环境奖励分布熵的增高（即最优选项越来越不明显），NSA模型的选择熵会显著上升，转变为更具探索性的策略，行为上更接近UCB。这种自适应转换能力使其在面对高度不确定性时仍能保持稳健的性能。

研究结论与意义

本研究成功构建并验证了一个极简的、受生物启发的神经决策模型——神经选择共识模型。该模型的核心贡献在于，它仅通过两个交互的神经群体、权重依赖的连接以及一个简单的基于奖励的非赫布可塑性（non-Hebbian plasticity）规则，就能在多臂赌博机这一经典决策问题上取得与主流算法相媲美的性能。更重要的是，其通过进化优化得到的模型参数展现出与生物突触机制相符的特性，例如权重依赖的学习率与突触资源可用性的关联，以及陡峭的神经响应函数与特定类别神经元特性的对应。

在理论层面，该模型为连接计算决策理论与神经机制提供了具体的计算框架。它将探索-利用权衡的实现，映射为两个神经群体（可类比于眶额皮层OFC的选项表征和前扣带回皮层ACC的价值评估与行为调控）通过动态活动达成“共识”的过程。这种基于神经动态的共识机制，为理解大脑在不确定环境下如何整合信息、评估选项并最终做出灵活选择提供了新的视角。

在应用层面，这项工作展示了生物启发计算架构在解决适应性决策问题上的潜力。NSA模型不仅是一个高性能的问题解决者，其简洁、可解释的架构也为开发新一代类脑人工智能算法提供了灵感，特别是在需要适应动态变化环境的场景中，如自适应推荐系统、智能资源管理等。

当然，该模型目前仍处于高度抽象层面，未考虑神经噪声、更复杂的网络拓扑等生物细节。未来工作可引入脉冲神经元、更复杂的网络结构，并与更前沿的MAB算法进行对比。但无论如何，这项研究已然在迈向更具生物合理性的智能决策模型的征程上，迈出了坚实而富有启发性的一步。

热点排行