具有非光滑性和正交性约束的双超图正则化非负矩阵分解方法在数据聚类中的应用
《Neurocomputing》:Dual hypergraph regularized nonnegative matrix factorization with nonsmooth and orthogonality constraints for data clustering
【字体:
大
中
小
】
时间:2026年01月26日
来源:Neurocomputing 6.5
编辑推荐:
本文提出双超图正则化非平滑非负矩阵分解(DHNNMF)框架,通过整合双超图正则化捕捉高阶关系、非平滑约束增强特征稀疏性、正交性约束提升分解稳定性,解决现有NMF方法在建模高阶关系、同时满足特征稀疏与几何结构保持方面的不足,实验验证其聚类性能优于基准方法。
宋春丽|卢林章|曾成斌
贵州师范大学数学科学学院,中国贵阳550025
摘要
非负矩阵分解(NMF)作为一种强大的数据聚类工具而崭露头角,这主要归功于它能够产生可解释的低维表示。然而,现有的基于NMF的方法难以完全模拟样本空间和特征空间中的高阶关系。它们也无法同时实现特征稀疏性和保持内在的几何结构,而这些是聚类复杂数据集的关键因素。为了解决这些挑战,本文提出了一种新的框架,即具有正交性约束的双超图正则化非光滑非负矩阵分解(DHNNMF)。该模型采用双超图正则化来捕捉高阶相关性,通过平滑矩阵实现非光滑约束以增强特征稀疏性和可解释性,并对因子矩阵施加正交性约束以防止解的退化并提高聚类质量。我们为非凸目标函数开发了一种高效的乘法优化算法,并通过严格的理论分析保证了单调收敛性。在基准数据集上的广泛实验表明,DHNNMF的性能优于或可与基线方法相媲美。
引言
数据聚类是一种基本的无监督学习任务,在图像处理、文本挖掘和生物信息学等领域有着广泛的应用[1]、[2]、[3]、[4]。然而,随着高维和复杂数据量的增加,直接在原始特征空间进行聚类往往由于维数灾难、噪声干扰以及内在结构的模糊等问题而表现不佳[5]、[6]、[7]。因此,学习一个低维的判别性表示成为提高聚类性能的关键步骤。在各种表示学习技术中,非负矩阵分解(NMF)因其独特的基于部分的表示范式而受到持续关注[8]、[9]、[10]。与主成分分析(PCA)等方法不同,NMF施加了非负性约束,将数据矩阵分解为两个低维非负因子矩阵的乘积。这一特性不仅符合现实世界数据(如图像像素强度和文本词频)的内在性质,还产生了直观的可加性和可解释性——每个样本可以表示为几个“基础”部分的非负线性组合[11]、[12]。得益于这些优势,NMF及其变体已成功应用于多个领域,包括多视图聚类[13]、[14]、[15]、高光谱解混以及生物医学数据分析[16]、[17]、[18]。为了提高标准NMF在复杂数据上的性能,研究人员主要沿着两个方向进行了扩展:将数据的几何结构整合到模型中,以及结合多种表示约束来提高特征质量[19]、[20]。
在几何结构建模方面,一种主要方法是图正则化。蔡等人[21]提出了图正则化NMF(GNMF),通过构建k最近邻图来保持样本空间的局部几何结构。冷等人[22]通过整合平滑约束开发了图稀疏NMF(GSNMF)。尚等人[23]进一步引入了双图正则化NMF(DNMF),同时考虑数据流形和特征流形的结构。刘等人[24]提出了图正则化判别性非负矩阵分解(GDNMF),通过同时结合局部几何结构和标签信息约束来提高系数矩阵的判别能力。李等人[25]提出了一种半监督双图正则化非负矩阵分解方法(SDGNMF-BO),通过同时结合数据和特征空间的双图流形正则化项以及对基础矩阵和系数矩阵施加双正交约束,有效增强了子空间中特征的判别表示。孟等人[26]提出了具有稀疏性和正交性约束的双图正则化非负矩阵分解(SODNMF),通过同时整合数据和特征空间的双图流形结构、稀疏约束和双正交约束,有效提高了子空间聚类的判别性能。传统的图模型仅捕捉样本之间的成对关系,然而现实世界数据通常涉及多个样本或特征之间的高阶相关性。为了解决这个问题,曾等人[27]提出了超图正则化NMF(HNMF),利用连接多个顶点的超边来捕捉样本空间内的高阶几何关系。徐等人[28]开发了一种结合超图正则化和平滑约束的方法。这些研究表明,整合几何信息可以有效提高聚类性能。
在表示约束增强方面,正交性约束和非光滑约束是两种积极研究和发展中的技术。正交性约束减少了特征冗余,增强了可解释性,并捕捉了数据的内在结构。最近的研究仍然非常活跃:丁等人[29]提出了正交非负矩阵三分解(ONMF)以促进基于部分的表示和严格的聚类解释;刘等人[30]引入了具有标签传播的鲁棒正交NMF(RONMF),通过非凸损失-正交性协同作用增强了特征选择和噪声鲁棒性;Nkurunziza等人[31]提出了基于KL散度的ONMF(KL-ONMF)用于类泊松数据;在多视图学习中,李等人[32]开发了正交和对抗图正则化NMF(OAGNMF)以捕捉跨视图互补性,张等人[33]提出了正交和多样化NMF(ODNMF)以增强多样性,郭等人[34]提出了超图诱导的半监督正交NMF(PNLP-SCONMF),结合了超图传播和双重正交性。总体而言,这些工作反映了正交性约束与多种学习机制之间深度整合的趋势。同时,非光滑约束通过一种独特的机制提高了特征质量:Pascual-Montano等人[35]提出了非光滑NMF(nsNMF),通过特定的平滑矩阵实现了基础矩阵和系数矩阵的共稀疏化,无需额外的稀疏惩罚。这种机制在保持高数据拟合度的同时提高了可解释性,有效补充了正交性约束在减少冗余和稳定分解方面的关注——这两者都是高维数据表示的关键工具。
考虑到现有的工作,尽管在两个方向上都取得了显著进展,但几何结构建模和表示约束的融合主要仍停留在成对组合的范式[36]。它尚未系统地整合三个核心技术维度:高阶结构建模、稀疏表示增强和分解稳定性保证。因此,它难以同时解决复杂数据中相互交织的挑战——特征冗余、高阶相关性的丢失以及矩阵分解的退化。为了系统地克服这些限制,本文提出了一种新的NMF框架——具有正交性约束的双超图正则化非光滑非负矩阵分解(DHNNMF)。我们引入双超图正则化来捕捉样本空间和特征空间中的高阶几何结构;结合非光滑约束来增强特征稀疏性和可解释性;并施加正交性约束来提高因子矩阵的判别能力和确保分解稳定性。
主要贡献总结如下:
•我们提出了统一的DHNNMF框架,首次系统地整合了三个核心技术维度——双超图高阶结构建模、非光滑稀疏性增强和正交稳定性——构建了一个能够同时实现高阶结构捕捉、稀疏表示和稳定分解的新表示学习框架。
•我们为DHNNMF设计了一种高效的乘法优化算法,并提供了严格的理论收敛性保证。
•我们在基准数据集上进行了广泛的实验,证明DHNNMF在聚类准确率(ACC)和标准化互信息(NMI)方面优于其他比较算法,消融研究进一步证实了每个核心组件的有效性。
本文的其余部分组织如下:第2节全面回顾了NMF和超图学习的相关工作。第3节详细介绍了DHNNMF模型的构建和推导出的优化算法。第4节展示了详尽的实验结果和深入分析。最后,第5节总结了本文并概述了有前景的未来研究方向。
章节片段
相关工作
本节首先定义了本文中使用的统一数学符号(表1),然后系统地介绍了两个核心技术基础:NMF和超图学习。
提出的模型
本节详细介绍了所提出模型的构建,介绍了一种高效的乘法优化算法(算法1中的伪代码),并为其收敛性和复杂性提供了理论保证。
数值实验
本节对DHNNMF算法的实验结果进行了系统分析。我们在四个基准数据集上测试了该算法:YALE、ORL、MNIST和COIL100。使用两个评估指标(ACC和NMI),我们将它的性能与八个基线算法进行了比较:NMF、GNMF、GSNMF、HNMF、GSNMF-EMD、DONMF和DCDMF。
结论
在本文中,我们提出了一种名为DHNNMF的新非负矩阵分解框架。通过将双超图正则化、非光滑约束和正交性约束整合到一个统一模型中,该框架专门设计用于学习具有判别性和可解释性的低维表示。双超图有效地捕捉了样本空间和特征空间中固有的复杂高阶关系。
CRediT作者贡献声明
宋春丽:撰写——原始草稿,方法论。卢林章:方法论。曾成斌:撰写——审稿与编辑,软件。
资助
本工作得到了中国国家自然科学基金(12161020, 12061025, 61966006)、贵州省基础研究计划(自然科学)(QKHJC-ZK[2024]YB528)、贵州省科技计划(KXJZ[2024]002, CXTD[2025]024)、贵州省新型电力系统运行控制重点实验室(Qiankehe Platform ZSYS[2025]007)以及贵州师范大学学术人才基金(QSXM[2022]04)的支持。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
如果有其他作者,他们也声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
宋春丽2009年在中国北电大学获得软件工程学士学位,2012年在中国贵州师范大学获得计算机应用技术硕士学位。她目前正在贵州师范大学攻读博士学位。她当前的研究兴趣包括遥感图像处理、矩阵分解和张量分解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号