通过关键特征激活来解释多智能体强化学习中的决策

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Interpreting multi-agent reinforcement learning decisions via key feature activation

【字体：大中小】 时间：2026年02月21日 来源：Neurocomputing 6.5

编辑推荐：

　　可解释强化学习通过KFAI网络实现状态与动作的线性映射，提升多智能体系统决策的可视化与可靠性，实验验证其性能优于基准模型。

李培章|费青|陈震|孙中琦|王波

北京工业大学自动化学院，中国北京市中关村南大街5号，100081

摘要

深度强化学习（DRL）技术在无人系统的自主决策中展现了卓越的性能，但其缺乏可解释性对实际应用中的信任和信心构成了重大挑战。可解释强化学习（XRL）逐渐被视为解决这一问题的关键技术。然而，现有的XRL方法存在一些局限性，例如依赖外部数据进行间接解释，以及需要额外的信息编码来进行直接解释。为了克服这些挑战，本文提出了关键特征激活解释（KFAI）网络，该网络能够透明地将对智能体的状态和动作进行向量化处理，通过它们之间的路由形成可解释的线性组合。KFAI用状态和动作之间的可解释激活映射替换了DRL中典型的不透明决策路径，使智能体能够直接输出可解释的确定性策略。利用KFAI，我们开发了适用于多智能体系统的多智能体关键特征强化学习网络，实现了无人集群的可靠自主决策。为了评估所提出网络的有效性，我们在模拟环境中对各种连续和离散的MARL算法的可解释修改进行了比较研究。实验结果表明，通过这种修改赋予可解释性的方法在决策任务上的表现优于原始基线网络。此外，我们从多个维度评估了所提出方法的可解释性，包括稀疏性和忠实度，并设计了一种新的可视化技术，展示了如何在离线和实时环境中解释多智能体决策过程。

引言

多智能体系统的主要发展重点在于实现集体智能和决策智能[4]。多智能体强化学习（MARL）技术在推进这些目标方面显示出巨大的潜力[5]、[8]、[21]，并在各种复杂领域取得了显著进展[16]、[28]。然而，它们经常因“黑箱”性质而受到批评，导致缺乏可解释性。这种缺陷在实际应用中带来了重大挑战，尤其是在安全性和可靠性至关重要的情况下。在这种情况下，仅仅达到最先进的性能是不够的[15]。阐明观察结果与决策之间的因果关系对于确保系统输出的可信度至关重要。解释自主决策的难度使得深度强化学习（DRL）在安全关键领域（包括军事行动[17]、医疗保健[29]和自动驾驶[6]）的应用变得复杂。因此，提高决策的可解释性对于建立用户信任和确保这些系统的安全应用至关重要[13]、[14]。

可解释人工智能（XAI）是一个新兴且活跃研究的领域，特别是在基于视觉的可解释性方法开发方面，如LIME[18]、Grad-CAM[22]和Kernel SHAP[12]。然而，这些方法主要应用于深度学习的监督分类问题，因此不适用于决策场景。为了解决这个问题，可解释强化学习（XRL）最近受到了越来越多的关注，它专注于从多个维度解释强化学习中的决策过程，如可解释的环境交互、可解释的任务和奖励以及可解释的模型架构[14]。可解释的环境交互涉及阐明智能体与环境之间状态转换的内部机制，从而建立决策模型与环境数据之间的关联。例如，Sequeira等人通过统计过滤来自智能体-环境交互过程的信息来识别相关元素[23]，而Klein等人提出了一个框架来学习捕获语义上有意义的环境特征的解耦潜在特征[10]。可解释的任务和奖励旨在分解任务目标或奖励，以明确它们与决策之间的关系。例如，在[19]中，Rietz等人将目标分层结构化，并利用这一结构整合了奖励分解，从而逐步解释决策。同样，Juozapaitis等人将奖励分解为语义上有意义的类型来解释强化学习中的决策[9]。尽管将智能体的环境交互和任务奖励与其行为对齐可以提供直观的决策解释，但这种方法本质上只提供了间接解释。它无法直接阐明决策网络模型的内部结构和决策路径，从而留下了关于这些模型黑箱性质的疑问。此外，间接解释总是受到场景特定性的限制，其在分布外场景中的有效性和泛化能力尚未得到充分解决。

设计可解释的模型架构涉及重构强化学习框架，以产生直接阐明决策过程的透明结构。研究人员从不同角度着手实现这一目标。例如，Verma等人引入了可编程解释强化学习（PIRL）框架[27]，该框架允许使用高级、特定领域的编程语言表示策略。同样，Annasamy等人开发了一种可解释的深度Q网络（i-DQN），其中结合了注意力机制以实现全局可解释的模型行为[3]。Shi等人在他们的时空因果解释（TSCI）模型[24]中也利用了注意力机制，该模型突出了与任务相关的时空信息，以增强对智能体长期行为的理解。尽管这些方法具有潜力，但它们需要在强化学习网络中引入额外的组件。例如，PIRL框架在执行程序化策略时需要一个辅助的神经定向程序搜索（NDPS）过程。i-DQN模型集成了与状态没有直接关联的额外注意力编码单元，而TSCI模型依赖于一个单独的因果发现网络来识别时空因果特征。虽然这些方法通过将可解释的语义信息嵌入强化学习网络来实现直接可解释性，但它们也增加了复杂性和维度。这种额外的复杂性可能导致对专家演示的更大依赖性，并可能限制模型的表达能力。

为了解决间接解释中对外部数据依赖的挑战以及直接解释所需的额外信息编码问题，我们提出了一个具有内在可解释性的轻量级网络：关键特征激活解释（KFAI）网络，如图1所示。该网络通过向量化状态和动作来编码特征，并使用线性激活来表示它们之间的关系，从而为多个强化学习智能体识别决策路径。线性激活是稀疏的，表明智能体的决策主要受少数关键状态特征的影响。KFAI提供了智能体动作与观察结果之间关系的线性关联解释，使用户能够追踪和理解智能体所做的决策。此外，KFAI可以无缝且有效地集成到强化学习框架中。我们通过将其集成到广泛用于连续（或离散）动作空间并支持确定性（或随机）策略的基准强化学习算法中来验证这一点。然后在多智能体环境中评估了所得动作决策的性能，其中可解释的KFAI模块作为传统不可解释的多层感知器（MLP）网络的即插即用替代品。此外，我们从多个定性和定量角度验证了该方法的可解释性，并在现实挑战性任务场景中展示了该方法的价值。

本文的贡献可以总结如下：

•

开发了一种新的可解释决策框架KFAI网络，该网络通过关键状态特征向量的线性激活来表示智能体的行为特征，从而建立了可解释的决策路径。

•

基于KFAI产生的可解释动作策略，开发了一个过程和训练框架，以便将其插入强化学习（MARL）中。通过该框架，可以为连续（或离散）多智能体环境生成可解释的动作策略。

•

设计了一种新的可视化技术，有效地展示了模型的可解释性，并创建了基于现实世界挑战的模拟场景来演示这一能力。

本文的其余部分组织如下。第2节介绍了本文的背景知识。第3节详细介绍了KFAI网络的架构及其可解释性，以及其与确定性和随机策略梯度强化学习算法集成后的网络结构和训练框架。第4节描述了模拟场景，并通过一系列实验检验了MAKDPG的决策和可解释能力。最后，我们在第5节总结了本文并提出了未来的工作方向。

部分片段

背景知识

强化学习（MARL）是一类算法，其中多个智能体通过与同伴和环境的交互来学习进行序列决策。在每个时间步骤

，智能体根据其观察结果

选择一个动作

，随后从环境接收一个标量奖励

。同时，环境更新其状态，为智能体提供新的观察结果

。

形式上，强化学习任务可以建模为

智能体的马尔可夫决策过程（MDP），其特征是

方法论

在本节中，我们提出了KFAI网络并在第3.1节对其进行了全面解释。该框架采用了一种可解释的方法来向量化状态和动作的特征，从而通过建立这些特征之间的线性路由映射来实现决策路径的可解释表示。第3.2节提供了KFAI网络可解释性的全面解释。随后，在第3.3节中，介绍了KFAI的部署和训练过程

实验

为了验证所提出方法的有效性，我们建立了模拟实验来解决两个主要方面。首先，由于提出的KFAI作为强化学习网络的可解释修改插件模块，必须验证所得网络的决策性能不逊于原始基线网络。其次，设计了可视化方法来有效验证所提出方法的可解释性。

结论

本文提出了KFAI网络，这是一种新颖的方法，它通过构建特征向量的线性组合来识别基于智能体的系统中状态和动作之间的可解释路径，而不是使用非线性神经网络映射。在KFAI网络的基础上，进一步开发了一个适用于多智能体系统的强化学习框架。涉及各种主流多智能体强化学习（MARL）方法的比较实验结果

CRediT作者贡献声明

李培章：撰写——原始草案、软件、方法论、概念化。费青：监督、概念化。陈震：撰写——审阅与编辑、监督。孙中琦：撰写——审阅与编辑、可视化、方法论。王波：监督、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

李培章 2025年获得北京工业大学博士学位。主要研究方向：可解释强化学习、多智能体系统的智能决策。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号