通过特征关联图在高维空间中进行进化式多任务特征选择

《Neurocomputing》：Evolutionary multi-task feature selection in high-dimensional spaces via feature association graph

【字体：大中小】 时间：2026年02月27日 来源：Neurocomputing 6.5

编辑推荐：

　　高维特征选择框架提出基于进化多任务和动态特征关联图的三任务协同优化策略，通过知识转移机制和双信息融合过滤方法有效解决特征依赖建模不足和任务同质化问题，实验验证在16个高维数据集上优于现有方法。

赵学雷|韩飞|凌清华|刘青|韩亨利

江苏大学计算机科学与通信工程学院，镇江，212013，中国

摘要

进化多任务（EMT）范式是进化计算领域中一种新兴且具有前景的方法，它在解决高维特征选择（FS）问题方面展现出巨大潜力。然而，现有的基于EMT的FS方法通常受到一些限制的制约，例如依赖于单一过滤策略的 homogeneous 任务生成方式以及对复杂特征依赖关系的建模不足。因此，本文提出了一种新的进化多任务特征选择框架——EMT-FAG。在该框架中设计了三个相互关联的任务：一个任务专注于挖掘有潜力的特征，另一个任务探索整个特征空间，第三个任务利用动态特征关联图来捕捉和建模复杂的特征交互关系。引入了一种知识传递机制，通过粒子群优化实现任务间的高效信息共享，从而提高优化效率并避免过早收敛。本文还提出了一种双信息融合过滤方法，通过整合多种指标来全面评估特征重要性，为高维特征选择提供了一个更加稳健和全面的评估框架。所提出的框架通过在16个高维数据集上的实验进行了广泛验证，结果表明EMT-FAG的性能与最先进的FS算法相当或更优。

引言

大数据技术的快速发展导致现实世界应用中特征维度和数据集规模的指数级增长[1]、[2]。然而，在大多数情况下，高维数据包含大量冗余或不相关的特征，这会对算法的性能产生不利影响[3]。为了解决这些问题，特征选择（FS）[4]、[5]已成为一种重要的预处理技术，在从情感分析[6]、农业监测[7]、[8]、[9]和癌症基因组学[10]到聚类分析[11]等多个领域展现出重要价值。

特征选择本质上是一个组合优化问题，因为需要从包含

个特征的数据集中选择

个不同的特征子集[12]。给定一个包含

个特征和

个样本的标记数据集

，FS的主要目标是识别一组

个特征（

），以优化预定义的性能指标

，其中

表示分类错误率。形式上，对于一个具有

个特征的FS问题，一个解可以编码为一个二进制向量：

，其中

表示包含

个特征的解，而

则表示相应的

特征将被选中，反之则不会。

特征选择的核心目标是找到在降低维度的同时实现最佳分类准确性的最小特征子集。作为一个NP难问题，它经常导致传统方法收敛到次优解，尤其是在高维空间中。进化计算（EC）[13]由于其出色的全局搜索能力（如遗传算法（GA）[14]、差分进化（DE）[15]和粒子群优化（PSO）[16]）而被广泛用于特征选择。在[12]中提出了一种基于离散表示策略的PPSO（PPSO）算法，以减少搜索空间。随后，在[17]中设计了一种基于特征相关性的变长PSO表示（VLPSO）来进一步提高PPSO的性能。这些算法主要提高了PSO处理FS问题的能力，但并未显著降低搜索空间的维度。HFS-C-P[18]提出了一种基于相关性引导的聚类和PSO的三阶段混合FS算法，有效解决了维度灾难问题，同时考虑了特征之间的交互作用。此外，竞争群优化器（CSO）作为PSO的变体，也被用于高维FS（HDFS）问题[19]，通过用群内的随机选择的竞争者替换全局或个人最佳位置。然而，为高维目标任务直接设计遗传操作符仍然面临挑战，包括陷入局部最优解的风险和缺乏有效的特征依赖关系建模。尽管如此，利用不同求解器提供的不同搜索偏置来解决高维FS问题的潜力仍有待探索。

上述基于EA的FS算法都将FS问题视为单一任务优化问题。与之不同，最近受到进化多任务（EMT）[20]的启发，基于EMT的高维FS算法受到了广泛关注。具体来说，原始的HDFS任务被分解为多个低维任务，并在低维任务之间传递有用的知识，这不仅可以解决HDFS的“维度灾难”，还能提升原始HDFS任务的解决方案质量。最近，基于EMT的几种FS方法[21]、[22]、[23]被提出，以提高基于EC的方法解决高维FS问题的有效性和效率[24]、[25]、[26]。例如，在PSO-EMT[24]中，仅使用一个过滤器来构建具有相关特性的FS任务，并通过知识传递与原始任务同时求解。由于其相对简单的结构，这种方法容易陷入局部最优解。随后，MTPSO[25]通过概率任务生成策略建立了多个FS任务，以实现它们之间的知识传递。然而，这种策略可能导致任务之间的相似性，从而导致资源利用效率低下。随后，MF-CSO[26]探索了使用多种过滤器方法生成多样化的任务集。虽然这种方法可以在一定程度上提高任务质量，但它未能充分考虑特征之间的潜在协同作用。尽管通过引入聚类算法构建了辅助任务，MO-FSEMT[27]仍未能充分捕捉特征之间的显式依赖关系。

通过上述文献分析，尽管基于EMT的FS方法在解决方案质量和收敛速度方面表现优异，但它们仍然面临两个关键限制。首先，基于EMT的FS迫切需要异构任务生成策略，以超越简单的过滤方法，创建具有真正多样化和互补搜索偏置的任务。其次，更重要的是，现有方法没有一个可扩展且动态的模型来捕捉特征交互关系，这对于复杂高维数据集中的有效特征选择至关重要。

为了解决这些限制，本文提出了一种基于EMT的高维FS问题框架EMT-FAG，通过三项协同创新解决了现有限制。开发了一个动态特征关联图来编码特征间的依赖关系，并在优化过程中进行迭代细化。通过结合聚焦特征探索、全空间搜索和FAG引导的任务协调，EMT-FAG在保持高搜索效率的同时增强了种群多样性。概率知识传递机制进一步将粒子群动态与图结构化的特征交互作用联系起来，有效避免了过早收敛。本研究的主要贡献如下：

首先，提出了一种新的进化多任务特征选择框架，整合了三个互补组件：用于识别高度相关属性的特征探索、用于捕捉潜在交互作用的全空间探索以及通过动态更新的特征依赖关系进行图引导的优化。通过这种集成架构，系统地解决了高维FS场景中单一任务同质性和特征交互关系建模不足等常见问题。

其次，提出了一种知识传递机制，将PSO与动态关联图协同整合，通过自适应信息交换促进跨任务协作优化。通过在进化过程中利用图结构化的特征依赖关系，提高了搜索效率，避免了过早收敛，并同时提高了预测建模中的分类准确性。

第三，提出了一种双指标融合策略，结合最大信息系数（Maximum Information Coefficient）和Relief-F来评估特征相关性，通过综合全局关联量化和局部区分能力评估来实现。这种混合方法将大规模统计依赖性与邻域级可区分性联系起来，从而显著增强了特征筛选的稳健性，同时保持了在不同数据分布下的适应性。

最后，在16个真实世界的高维数据集上对提出的EMT-FAG框架进行了全面实证评估，特征维度范围从2308到12,600。实验结果表明，我们的方法在有效性方面优于最先进的基于EC的FS方法。

本文的其余部分组织如下。第2节回顾了进化多任务特征选择的初步概念和相关工作。第3节详细阐述了所提出的EMT-FAG框架的技术细节。第4节通过比较实验验证了EMT-FAG的有效性。最后，第5节总结了研究并讨论了未来研究的潜在方向。

章节片段

进化多任务

进化多任务[28]是优化和进化计算领域中一个相对较新的研究课题，旨在促进任务间的知识传递，从而增强多个相关任务的并发优化并提高全局搜索能力。在多任务优化框架中，解决一个优化任务可能有助于解决其他任务，因为可以利用任务间的互补或共享知识。数学上，多任务

所提出的方法

与大多数现有的特征选择（FS）算法[35]类似，所提出的EMT-FAG框架将数据集划分为训练集和测试集。在训练集上进行模型优化，并在测试集上评估最终性能。如图1所示，EMT-FAG通过三个连续阶段进行操作：多任务生成、多任务优化和结果输出。

具体来说，在多任务生成阶段，采用了一种双信息融合过滤

数据集

为了进行实验评估，选择了16个广泛使用的高维数据集，特征数量范围从2308到12,600，以评估EMT-FAG在特征选择方面的性能。这些数据集在https://jundongl.github.io/scikit-feature/index.html上公开可用。如表1所示，这些数据集在特征数量、样本大小和类别标签方面各不相同，大多数数据集具有高维度、类别不平衡和样本量有限的特点。

结论与未来工作

在这项研究中，我们提出了EMT-FAG，这是一种新的进化多任务特征选择框架，旨在通过关注重要特征探索、全局特征空间分析和通过特征关联图动态建模特征依赖关系来解决高维分类问题。EMT-FAG采用双信息融合策略，有效平衡了全局统计相关性和局部区分模式，增强了特征筛选的稳健性。在16个数据集上的实验表明

CRediT作者贡献声明

赵学雷：撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、软件、资源、项目管理、方法论、调查、资金获取、数据管理、概念化。韩飞：撰写 – 审稿与编辑、可视化、验证、监督、软件、资源、项目管理、方法论、调查、资金获取、形式分析、数据管理、概念化。凌清华：撰写 – 审稿与编辑，

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了国家自然科学基金（项目编号61976108和62102002）的支持。

赵学雷目前正在江苏大学计算机科学与通信工程学院攻读硕士学位。他的主要研究兴趣包括特征选择和粒子群优化。

摘要

引言