基于二进制哈希学习和动态图约束的多标签特征选择

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Multi-label feature selection based on binary hashing learning and dynamic graph constraints

【字体：大中小】 时间：2026年03月25日 来源：Pattern Recognition 7.6

编辑推荐：

　　针对多标签特征选择中存在的噪声信息和不可靠图结构问题，提出BHDG方法，通过二进制哈希编码降低噪声，动态图约束增强结构可靠性，结合标签图约束和内积最小化，实验表明BHDG在10个数据集上优于11种现有方法，平均排名提升3.2位。

作者：郭聪、黄长琴、周文华、黄晓迪

中国浙江省金华市浙江师范大学智能教育技术及应用重点实验室

摘要

多标签学习在从标签空间中提取可靠的监督信号方面面临重大挑战。现有方法通常使用连续的伪标签来替代二进制标签，以提高监督信息的表示能力。然而，这些方法可能会引入无关标签的噪声，并导致图结构的不可靠性。为了克服这些限制，本文提出了一种新的多标签特征选择方法，称为二进制哈希与动态图约束（BHDG）。BHDG利用低维二进制哈希码作为伪标签，以减少噪声并提高表示的鲁棒性。基于这些二进制伪标签的图结构，构建了一个动态受限的样本投影空间，从而增强了动态图的可靠性。为了进一步提高伪标签的质量，BHDG在样本空间中加入了标签图约束和内积最小化。此外，目标函数中还添加了一个l_2,1-范数正则化项，以促进特征选择过程。在10个基准数据集上的综合实验表明，BHDG在6个评估指标上的表现均优于11种现有方法，其整体性能排名最高，平均每个指标至少超过第二名3.2个排名，突显了其在多标签特征选择中的有效性和鲁棒性。

引言

在基因组学、文本分析和图像处理等现代科学领域，数据通常具有高维特性[1]。虽然高维数据提供了有价值的信息，但它们也带来了重大挑战，尤其是“维数灾难”[2]。高维性增加了模型的复杂性，并减慢了算法的训练速度。为了解决这些问题，特征选择被广泛用作关键的降维方法[3]，旨在识别与预测任务最相关的特征，同时最小化信息损失[4]。

现有的特征选择算法根据它们与分类器的关系，通常被分为三类：包装器方法、过滤方法和嵌入式方法[5]。过滤方法独立于机器学习分类器，包装器方法依赖于分类器的性能，而嵌入式方法将特征选择直接集成到分类器的学习过程中，将特征选择视为一个优化问题。在这些方法中，嵌入式算法通常表现出更好的性能和更低的计算复杂性，因此成为近期研究的重点。因此，本文重点讨论嵌入式特征选择算法的改进。

在多标签特征选择领域，从原始标签中提取有用信息和相关性以增强特征选择仍然是一个关键挑战。一些研究提出了学习数值伪标签来替代原始的二进制标签，以便更好地利用监督信息。例如，张等人[6]开发了一种非负多标签特征选择方法（NMDG），该方法利用伪标签的动态图结构来约束特征权重并探索标签相关性。同样，张等人[7]提出了一种基于潜在标签和动态图约束的多标签特征选择方法（LRDG），该方法在学习数值伪标签的同时利用其图结构来约束特征权重。尽管这些基于伪标签的方法取得了成功，但它们面临两个主要问题：

噪声信息：图1有效地突出了这个问题。与图像相关的原始标签包括“人”、“鞋”、“汽车”、“河流”和“草”。其中，“人”、“河流”和“草”是最突出和最重要的。相反，“猫”这个标签是无关的，因为图像中没有任何动物。然而，现有方法经常生成包含“猫”的伪标签，因为“猫”存在于原始标签空间中，从而降低了模型的泛化能力。

相比之下，图1中显示的二进制伪标签提供了更精细的标签表示。例如，“猫”被归类到无关的“动物”类别中，而“河流”、“汽车”和“草”被归类到“风景”类别中。这些低维二进制伪标签通过多种机制有效地减少了噪声。

首先，二进制标签通过为类别分配明确的值（0或1）来消除歧义，避免了连续伪标签的中间概率带来的不确定性。这防止了模型将低置信度的预测误认为是有用信息。其次，二进制标签通过将相似或无关的标签分组到更广泛、更有意义的类别中来简化标签空间，例如将“河流”、“汽车”和“草”归类到“风景”下。这种简化降低了对次要、无关变化的过拟合风险。第三，二进制伪标签强制在相关标签和无关标签之间做出更清晰的区分，使模型能够专注于学习显著特征，而不是被噪声或冗余信息分散注意力。

通过将无关标签（如“动物”）的值设置为0，二进制伪标签确保了紧凑性和清晰性，使我们的方法能够更好地区分相关类别。因此，使用这样的二进制潜在标签作为监督信号，通过有效减少噪声、过滤无关信息和促进对基本标签结构的高效学习，增强了模型的鲁棒性。

不可靠的图结构：一些算法（如NMDG[6]和LRDG[7]）使用伪标签的图结构来约束其他变量以指导特征选择。然而，由于这些伪标签引入了噪声信息，这种图结构无法反映实际的数据分布，导致训练误差的累积。相比之下，二进制伪标签建立了清晰、离散和稳定的邻域关系，大大减少了图中的结构不确定性，并在迭代优化过程中减轻了误差累积。因此，鉴于上述分析，有必要学习二进制低维嵌入并基于其图结构细化伪标签学习。

为了解决这些限制，我们引入了二进制哈希学习，这是一种最初为信息检索中的相似性保持表示学习而开发的技术[8]。哈希学习将高维数据投影到紧凑的二进制代码中，同时保持基本的语义相似性[9]。因此，哈希学习的目标和表示形式与二进制伪标签学习的目标和表示形式非常一致。特别是，哈希学习自然产生了语义紧凑、具有区分性和明确性的二进制表示，使其特别适合解决先前伪标签学习的局限性，因为在这些方法中，监督信息通常是噪声较大且高度冗余的。通过离散化潜在标签表示，哈希学习有效地抑制了低置信度和无关标签信息，这在连续伪标签学习中通常会被放大。此外，生成的二进制代码诱导出更清晰、更稳定的邻域关系，从而在图正则化特征选择框架中构建了更可靠和结构一致的图。利用这些特性，学习到的二进制哈希代码自然可以作为潜在的监督信号，有效过滤噪声，同时保留进行鲁棒特征选择所需的主导语义结构。

基于这些见解，我们提出了一种新的多标签特征选择方法，称为BHDG。该方法将原始标签投影到低维二进制伪标签中，以减少噪声并保留关键信息。然后使用这些伪标签的图结构来动态约束样本投影空间，确保伪标签学习的鲁棒性。BHDG进一步在样本空间中加入了原始标签图约束和内积最小化，以捕获高质量的二进制伪标签。这些机制使模型能够有效地与二进制伪标签对齐，通过动态约束来减少噪声并最小化训练误差。然后利用这些精炼的二进制伪标签来指导特征选择过程。所有这些组件都被无缝集成到一个统一的目标函数中。为了优化这个函数，我们开发了一种高效的离散优化方法。这个综合框架确保了BHDG在多标签特征选择中同时实现了准确性和鲁棒性。本文的主要贡献如下。

•
二进制伪标签学习：现有的伪标签方法经常忽略二进制形式。为了解决这个问题，我们提出了一种新的多标签特征选择方法BHDG，该方法结合了二进制潜在标签来增强伪标签学习。
•
语义信息的保留：所提出的算法通过使用相似性矩阵的内积最小化和标签图约束来保留原始语义信息。它还使用哈希标签图结构动态约束样本投影空间，促进标签和样本空间之间的信息平滑传递，同时防止关键监督信号的丢失。
•
高效优化：我们使用离散优化方法来解决目标函数，并提供了其收敛性的理论证明。实验结果证实了该方法的效率和可靠的收敛性。
•
全面的性能评估：BHDG在10个多标签数据集上经过严格评估，涵盖了六个性能指标。实验结果表明，BHDG在11种最先进方法中表现最佳，验证了其在多标签特征选择中的有效性和优越性。

提出的BHDG方法

为了进行二进制伪标签学习，我们首先使用稀疏回归作为基本框架，然后将原始标签投影到低维二进制伪标签中作为监督信息。基于动态图约束、标签图约束和内积的最小化，我们同时指导特征选择并约束哈希矩阵的结构。算法的总体框架如图2所示。

概念上，

解决方案

在本节中，我们介绍了第4.1节中提出的算法的优化方案，然后在第4.2节中展示了算法的计算复杂性，最后在第4.3节中讨论了其收敛性。

实验

在本节中，我们进行了多项实验来验证所提出的BHDG方法的有效性。我们使用多个不同领域的基准数据集来评估其性能。

结论

在本文中，我们提出了一种新的特征选择算法，称为二进制哈希与动态图约束（BHDG）。该方法结合了二进制哈希学习和动态图约束来提高特征选择性能。在10个多标签数据集上的综合实验表明，BHDG始终优于10种竞争方法，包括RF-ML、MSSL和MSFS。消融研究和收敛性分析进一步验证了BHDG每个组件的贡献

未引用的浮点数

图4

CRediT作者贡献声明

郭聪：撰写——原始草稿、方法论、调查、形式分析、数据整理、概念化。 黄长琴：撰写——审阅与编辑、监督。 周文华：撰写——审阅与编辑。 黄晓迪：撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作