大数据技术的快速发展导致现实世界应用中特征维度和数据集规模的指数级增长[1]、[2]。然而,在大多数情况下,高维数据包含大量冗余或不相关的特征,这会对算法的性能产生不利影响[3]。为了解决这些问题,特征选择(FS)[4]、[5]已成为一种重要的预处理技术,在从情感分析[6]、农业监测[7]、[8]、[9]和癌症基因组学[10]到聚类分析[11]等多个领域展现出重要价值。
特征选择本质上是一个组合优化问题,因为需要从包含个特征的数据集中选择个不同的特征子集[12]。给定一个包含个特征和个样本的标记数据集,FS的主要目标是识别一组个特征(),以优化预定义的性能指标,其中表示分类错误率。形式上,对于一个具有个特征的FS问题,一个解可以编码为一个二进制向量:,其中表示包含个特征的解,而则表示相应的特征将被选中,反之则不会。
特征选择的核心目标是找到在降低维度的同时实现最佳分类准确性的最小特征子集。作为一个NP难问题,它经常导致传统方法收敛到次优解,尤其是在高维空间中。进化计算(EC)[13]由于其出色的全局搜索能力(如遗传算法(GA)[14]、差分进化(DE)[15]和粒子群优化(PSO)[16])而被广泛用于特征选择。在[12]中提出了一种基于离散表示策略的PPSO(PPSO)算法,以减少搜索空间。随后,在[17]中设计了一种基于特征相关性的变长PSO表示(VLPSO)来进一步提高PPSO的性能。这些算法主要提高了PSO处理FS问题的能力,但并未显著降低搜索空间的维度。HFS-C-P[18]提出了一种基于相关性引导的聚类和PSO的三阶段混合FS算法,有效解决了维度灾难问题,同时考虑了特征之间的交互作用。此外,竞争群优化器(CSO)作为PSO的变体,也被用于高维FS(HDFS)问题[19],通过用群内的随机选择的竞争者替换全局或个人最佳位置。然而,为高维目标任务直接设计遗传操作符仍然面临挑战,包括陷入局部最优解的风险和缺乏有效的特征依赖关系建模。尽管如此,利用不同求解器提供的不同搜索偏置来解决高维FS问题的潜力仍有待探索。
上述基于EA的FS算法都将FS问题视为单一任务优化问题。与之不同,最近受到进化多任务(EMT)[20]的启发,基于EMT的高维FS算法受到了广泛关注。具体来说,原始的HDFS任务被分解为多个低维任务,并在低维任务之间传递有用的知识,这不仅可以解决HDFS的“维度灾难”,还能提升原始HDFS任务的解决方案质量。最近,基于EMT的几种FS方法[21]、[22]、[23]被提出,以提高基于EC的方法解决高维FS问题的有效性和效率[24]、[25]、[26]。例如,在PSO-EMT[24]中,仅使用一个过滤器来构建具有相关特性的FS任务,并通过知识传递与原始任务同时求解。由于其相对简单的结构,这种方法容易陷入局部最优解。随后,MTPSO[25]通过概率任务生成策略建立了多个FS任务,以实现它们之间的知识传递。然而,这种策略可能导致任务之间的相似性,从而导致资源利用效率低下。随后,MF-CSO[26]探索了使用多种过滤器方法生成多样化的任务集。虽然这种方法可以在一定程度上提高任务质量,但它未能充分考虑特征之间的潜在协同作用。尽管通过引入聚类算法构建了辅助任务,MO-FSEMT[27]仍未能充分捕捉特征之间的显式依赖关系。
通过上述文献分析,尽管基于EMT的FS方法在解决方案质量和收敛速度方面表现优异,但它们仍然面临两个关键限制。首先,基于EMT的FS迫切需要异构任务生成策略,以超越简单的过滤方法,创建具有真正多样化和互补搜索偏置的任务。其次,更重要的是,现有方法没有一个可扩展且动态的模型来捕捉特征交互关系,这对于复杂高维数据集中的有效特征选择至关重要。
为了解决这些限制,本文提出了一种基于EMT的高维FS问题框架EMT-FAG,通过三项协同创新解决了现有限制。开发了一个动态特征关联图来编码特征间的依赖关系,并在优化过程中进行迭代细化。通过结合聚焦特征探索、全空间搜索和FAG引导的任务协调,EMT-FAG在保持高搜索效率的同时增强了种群多样性。概率知识传递机制进一步将粒子群动态与图结构化的特征交互作用联系起来,有效避免了过早收敛。本研究的主要贡献如下:
首先,提出了一种新的进化多任务特征选择框架,整合了三个互补组件:用于识别高度相关属性的特征探索、用于捕捉潜在交互作用的全空间探索以及通过动态更新的特征依赖关系进行图引导的优化。通过这种集成架构,系统地解决了高维FS场景中单一任务同质性和特征交互关系建模不足等常见问题。
其次,提出了一种知识传递机制,将PSO与动态关联图协同整合,通过自适应信息交换促进跨任务协作优化。通过在进化过程中利用图结构化的特征依赖关系,提高了搜索效率,避免了过早收敛,并同时提高了预测建模中的分类准确性。
第三,提出了一种双指标融合策略,结合最大信息系数(Maximum Information Coefficient)和Relief-F来评估特征相关性,通过综合全局关联量化和局部区分能力评估来实现。这种混合方法将大规模统计依赖性与邻域级可区分性联系起来,从而显著增强了特征筛选的稳健性,同时保持了在不同数据分布下的适应性。
最后,在16个真实世界的高维数据集上对提出的EMT-FAG框架进行了全面实证评估,特征维度范围从2308到12,600。实验结果表明,我们的方法在有效性方面优于最先进的基于EC的FS方法。
本文的其余部分组织如下。第2节回顾了进化多任务特征选择的初步概念和相关工作。第3节详细阐述了所提出的EMT-FAG框架的技术细节。第4节通过比较实验验证了EMT-FAG的有效性。最后,第5节总结了研究并讨论了未来研究的潜在方向。