通过多智能体强化学习实现合作特征选择中的弹性代理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Elastic Agents in Cooperative Feature Selection through Multi-Agent Reinforcement Learning

【字体：大中小】 时间：2026年03月07日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　提出基于多智能体强化学习的弹性代理合作特征选择框架EAC-FS，通过动态调整特征所有权、分层信用分配和并行转移策略解决高维特征依赖性问题，显著提升计算效率与模型可解释性，实验验证其优于传统及现有RL方法。

蔡明杰|周楚天|黄超群|詹嘉欣|藤田波美登

湖南大学数学学院，中国长沙，410082

摘要

特征选择（FS）对于高维数据分析至关重要。它能够产生紧凑且保留信息的表示形式，从而提高区分能力、计算效率以及可解释性。然而，现有方法在模拟复杂的特征间耦合关系时存在困难。基于强化学习（RL）的特征选择方法也面临动作空间庞大、信用分配模糊以及代理行为冗余等问题。为了解决这些问题，我们提出了弹性代理合作特征选择（EAC-FS），这是一个可扩展且可解释的多智能体强化学习（MARL）框架。EAC-FS将特征选择视为一个动态的合作过程。首先，它引入了弹性代理，这些代理能够动态转移特征所有权，以减少冗余计算并促进专业化。此外，局部观测编码器捕获每个特征组内的结构信息，而分层信用分配方案则将全局目标与局部贡献分开。并行转移策略进一步协调了代理间的特征路由。最终，EAC-FS是第一个在单一序列决策过程中共同演化特征分组、转移和选择的统一MARL框架。在九个基准数据集上的广泛实验表明，EAC-FS在准确性、鲁棒性和跨分类器泛化能力方面均优于传统方法和基于RL的方法。

引言

特征选择（FS）在高维学习中起着关键作用，它通过识别信息丰富且非冗余的变量来提升预测性能、降低计算成本并提高可解释性。在生物信息学、文本挖掘和计算机视觉等许多实际任务中[1]，[2]，数据集通常包含数百或数千个相关特征，这使得在保持可扩展性的同时模拟特征间依赖关系变得具有挑战性。这些挑战促使我们需要能够同时考虑特征相关性、冗余性和结构交互的特征选择方法。

现有的特征选择方法通常分为过滤器方法、包装器方法和嵌入方法，它们各自具有互补的优势，但也存在众所周知的局限性。过滤器方法计算效率高，但忽略了特征间的依赖性[3]，[4]，[5]，[6]。包装器方法能够捕捉特征间的交互，但由于其组合搜索方式而难以扩展[7]，[8]。嵌入方法将特征选择集成到模型训练中，但可能会引入模型特定的偏见或不稳定性[9]，[10]。随着维度的增加和特征相关性的增强，这些局限性变得更加明显。

强化学习（RL）使代理能够通过与环境的交互和来自奖励信号的反馈来学习序列决策策略[11]，[12]，[13]。通过解释来自环境的奖励信号，代理能够最大化长期累积奖励。RL具有两个核心特征：试错[14]学习和延迟奖励[15]。前者涉及通过实验调整行为并接收奖励或惩罚信号，后者表明当前行为不仅影响即时结果，还可能对所有后续状态和奖励产生长期影响。近年来，RL已经发展成为一个用于解决高维控制和决策问题的一般框架[16]，[17]。通过优化累积折扣奖励，RL代理学会了评估局部行为的长期后果，从而能够在贪婪或短视策略失败的情况下进行原则性的组合搜索空间探索。RL的优势为特征选择任务提供了新的视角。

先前的研究表明，基于RL的特征选择方法在准确性、鲁棒性和跨分类器泛化能力方面优于传统方法[18]，[19]，[20]，[21]，[22]，但单代理框架通常在高维环境中面临动作空间过大和探索效率低的问题。刘等人将特征选择问题重新定义为多智能体强化学习（MARL）挑战，并重新配置了状态表示，从而将每个代理的动作空间减少到特征数量[23]。

这些方法成功地将特征选择表述为一个RL问题。然而，在现有的基于RL的框架中仍存在几个关键挑战。首先，如何在各个代理之间有效分配全局任务奖励是一个复杂问题，因为特征间的依赖性使得精确的信用分配变得困难。其次，在单代理RL框架中，代理必须在一个大小为2^d的组合搜索空间中导航。随着d增加到数千，动作空间变得过大，导致奖励稀疏和探索效率低下。尽管最近的MARL方法[23]，[24]试图分解这个问题，但它们通常采用组合优化中常见的静态分配范式，即每个特征被分配给一个特定的代理。这种一对一的映射导致代理数量随特征维度的增加而线性增长。对于高维数据集，维护数千个代理会导致严重的非稳定性和计算开销，因为联合动作空间仍然呈指数级复杂。因此，现有范式难以在控制粒度与学习效率之间取得平衡。

第三，允许每个代理直接访问完整特征空间违反了可扩展合作MARL的核心原则——部分可观测性。

为了克服这些挑战，我们提出了EAC-FS，这是一个将特征选择重新表述为统一合作序列决策过程的新MARL框架。我们不是为每个特征分配一个代理，而是首先使用随机划分将特征分组，并将每个组分配给一个弹性代理。在训练过程中，代理可以通过学习到的并行转移策略动态转移特征所有权，从而促进专业化并消除冗余代理。这种弹性机制结合了局部结构化观测和分层信用分配方案，在端到端框架中共同优化特征分组、路由和最终选择，同时显著提高了可扩展性和与内在特征结构的协调性。

总结来说，本研究的主要贡献包括：

•

统一的MARL范式用于联合特征决策：首次提出了一个统一的MARL范式，用于特征选择，在该范式中，特征分组、所有权转移和最终选择在单一序列合作决策过程中共同且动态地得到优化。

•

具有自适应所有权转移的弹性代理：

引入了弹性代理，这些代理通过学习到的并行转移策略动态调整特征责任，从而在高维问题中实现专业化并大幅减少冗余和计算成本。

•

分层信用分配：

设计了一种分层奖励方案，结合了结构化的局部观测编码器，以更原则性和可解释的方式清晰地分离全局子集质量和局部代理贡献，使得合作学习比之前的平坦奖励MARL方法更加稳定。

部分摘录

特征选择

根据选择算法与预测模型的交互方式，特征选择可以分为三类：过滤器方法、包装器方法和嵌入方法。

过滤器方法根据内在相关性得分对特征进行排序并选择排名最高的特征。代表性技术包括单变量评分和基于相关性的标准[5]，[25]。尽管过滤器方法计算成本低，因此适用于高维问题，但它们通常忽略了特征间的依赖性

问题表述

考虑一个数据集

D = {(x_{i})}_{i = 1}^{n}

包含n个样本，其中

X \in R^{n}

表示输入数据矩阵，包含d个特征，

Y \in R^{n}

表示相应的目标标签。

F = f_{1}, f_{2,, \dots\dots, f_{d}}}

是完整的特征集。

特征选择的目标是识别一个最优子集F*?F，该子集能够在保证紧凑性的同时最大化下游分类器的预测性能。形式上，这个目标可以表示为：

F^{*} = \underset{S ? F}{\arg \max} (E (S, Y) ? λ|

合作特征选择中的弹性代理

本节详细介绍了提出的EAC-FS框架。图1展示了我们提出框架的总体结构。该框架引入了三种关键机制，以实现自适应和可解释的多智能体合作：(i) 用于结构化状态表示的局部观测编码；(ii) 用于稳定奖励传播的分层信用分配；(iii) 用于代理间动态调整所有权分配的弹性特征转移。

实验结果

在本节中，我们对九个数据集进行了广泛实验，以系统评估所提出的EAC-FS框架的有效性、稳定性和泛化能力。

结论

在本文中，我们提出了EAC-FS，这是一个基于MARL的弹性代理合作特征选择框架。通过将特征选择重新表述为一个序列合作决策过程，EAC-FS使代理能够动态转移特征所有权并自适应调整其选择策略。在CTDE架构下，每个代理维护自己的演员-评论家对，其中评论家评估局部价值函数，而训练可以利用共享的全局信息

未引用的引用

缺少引用表1。

CRediT作者贡献声明

蔡明杰：监督、软件、方法论、调查、资金获取、形式分析、数据整理。周楚天：撰写——原始草稿、可视化、验证、方法论。黄超群：撰写——审阅与编辑、监督、软件、形式分析。詹嘉欣：撰写——审阅与编辑、形式分析。藤田波美登：方法论、调查。

利益冲突声明

所有作者声明与本手稿无关的利益冲突。所有作者均已披露可能被视为利益冲突的任何财务和个人关系。

致谢

作者感谢编辑和匿名审稿人的建设性意见。本工作得到了国家自然科学基金（项目编号12471431, 12231007）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号