在基因组学、文本分析和图像处理等现代科学领域,数据通常具有高维特性[1]。虽然高维数据提供了有价值的信息,但它们也带来了重大挑战,尤其是“维数灾难”[2]。高维性增加了模型的复杂性,并减慢了算法的训练速度。为了解决这些问题,特征选择被广泛用作关键的降维方法[3],旨在识别与预测任务最相关的特征,同时最小化信息损失[4]。
现有的特征选择算法根据它们与分类器的关系,通常被分为三类:包装器方法、过滤方法和嵌入式方法[5]。过滤方法独立于机器学习分类器,包装器方法依赖于分类器的性能,而嵌入式方法将特征选择直接集成到分类器的学习过程中,将特征选择视为一个优化问题。在这些方法中,嵌入式算法通常表现出更好的性能和更低的计算复杂性,因此成为近期研究的重点。因此,本文重点讨论嵌入式特征选择算法的改进。
在多标签特征选择领域,从原始标签中提取有用信息和相关性以增强特征选择仍然是一个关键挑战。一些研究提出了学习数值伪标签来替代原始的二进制标签,以便更好地利用监督信息。例如,张等人[6]开发了一种非负多标签特征选择方法(NMDG),该方法利用伪标签的动态图结构来约束特征权重并探索标签相关性。同样,张等人[7]提出了一种基于潜在标签和动态图约束的多标签特征选择方法(LRDG),该方法在学习数值伪标签的同时利用其图结构来约束特征权重。尽管这些基于伪标签的方法取得了成功,但它们面临两个主要问题:
噪声信息:图1有效地突出了这个问题。与图像相关的原始标签包括“人”、“鞋”、“汽车”、“河流”和“草”。其中,“人”、“河流”和“草”是最突出和最重要的。相反,“猫”这个标签是无关的,因为图像中没有任何动物。然而,现有方法经常生成包含“猫”的伪标签,因为“猫”存在于原始标签空间中,从而降低了模型的泛化能力。
相比之下,图1中显示的二进制伪标签提供了更精细的标签表示。例如,“猫”被归类到无关的“动物”类别中,而“河流”、“汽车”和“草”被归类到“风景”类别中。这些低维二进制伪标签通过多种机制有效地减少了噪声。
首先,二进制标签通过为类别分配明确的值(0或1)来消除歧义,避免了连续伪标签的中间概率带来的不确定性。这防止了模型将低置信度的预测误认为是有用信息。其次,二进制标签通过将相似或无关的标签分组到更广泛、更有意义的类别中来简化标签空间,例如将“河流”、“汽车”和“草”归类到“风景”下。这种简化降低了对次要、无关变化的过拟合风险。第三,二进制伪标签强制在相关标签和无关标签之间做出更清晰的区分,使模型能够专注于学习显著特征,而不是被噪声或冗余信息分散注意力。
通过将无关标签(如“动物”)的值设置为0,二进制伪标签确保了紧凑性和清晰性,使我们的方法能够更好地区分相关类别。因此,使用这样的二进制潜在标签作为监督信号,通过有效减少噪声、过滤无关信息和促进对基本标签结构的高效学习,增强了模型的鲁棒性。
不可靠的图结构:一些算法(如NMDG[6]和LRDG[7])使用伪标签的图结构来约束其他变量以指导特征选择。然而,由于这些伪标签引入了噪声信息,这种图结构无法反映实际的数据分布,导致训练误差的累积。相比之下,二进制伪标签建立了清晰、离散和稳定的邻域关系,大大减少了图中的结构不确定性,并在迭代优化过程中减轻了误差累积。因此,鉴于上述分析,有必要学习二进制低维嵌入并基于其图结构细化伪标签学习。
为了解决这些限制,我们引入了二进制哈希学习,这是一种最初为信息检索中的相似性保持表示学习而开发的技术[8]。哈希学习将高维数据投影到紧凑的二进制代码中,同时保持基本的语义相似性[9]。因此,哈希学习的目标和表示形式与二进制伪标签学习的目标和表示形式非常一致。特别是,哈希学习自然产生了语义紧凑、具有区分性和明确性的二进制表示,使其特别适合解决先前伪标签学习的局限性,因为在这些方法中,监督信息通常是噪声较大且高度冗余的。通过离散化潜在标签表示,哈希学习有效地抑制了低置信度和无关标签信息,这在连续伪标签学习中通常会被放大。此外,生成的二进制代码诱导出更清晰、更稳定的邻域关系,从而在图正则化特征选择框架中构建了更可靠和结构一致的图。利用这些特性,学习到的二进制哈希代码自然可以作为潜在的监督信号,有效过滤噪声,同时保留进行鲁棒特征选择所需的主导语义结构。
基于这些见解,我们提出了一种新的多标签特征选择方法,称为BHDG。该方法将原始标签投影到低维二进制伪标签中,以减少噪声并保留关键信息。然后使用这些伪标签的图结构来动态约束样本投影空间,确保伪标签学习的鲁棒性。BHDG进一步在样本空间中加入了原始标签图约束和内积最小化,以捕获高质量的二进制伪标签。这些机制使模型能够有效地与二进制伪标签对齐,通过动态约束来减少噪声并最小化训练误差。然后利用这些精炼的二进制伪标签来指导特征选择过程。所有这些组件都被无缝集成到一个统一的目标函数中。为了优化这个函数,我们开发了一种高效的离散优化方法。这个综合框架确保了BHDG在多标签特征选择中同时实现了准确性和鲁棒性。本文的主要贡献如下。
- •
二进制伪标签学习:现有的伪标签方法经常忽略二进制形式。为了解决这个问题,我们提出了一种新的多标签特征选择方法BHDG,该方法结合了二进制潜在标签来增强伪标签学习。
- •
语义信息的保留:所提出的算法通过使用相似性矩阵的内积最小化和标签图约束来保留原始语义信息。它还使用哈希标签图结构动态约束样本投影空间,促进标签和样本空间之间的信息平滑传递,同时防止关键监督信号的丢失。
- •
高效优化:我们使用离散优化方法来解决目标函数,并提供了其收敛性的理论证明。实验结果证实了该方法的效率和可靠的收敛性。
- •
全面的性能评估:BHDG在10个多标签数据集上经过严格评估,涵盖了六个性能指标。实验结果表明,BHDG在11种最先进方法中表现最佳,验证了其在多标签特征选择中的有效性和优越性。