MvMENSVM:一种结合流形弹性网正则化的多视图支持向量机

《Expert Systems with Applications》:MvMENSVM: A Multi-View Support Vector Machine with Manifold Elastic Net Regularization

【字体: 时间:2026年02月15日 来源:Expert Systems with Applications 7.5

编辑推荐:

  多视图学习通过整合不同数据视图的信息提升模型性能,但现有方法存在三方面局限:忽视数据内在几何结构导致泛化能力下降,缺乏跨视图稀疏特征选择机制引发冗余,鲁棒性不足易受异常值和噪声干扰。本文提出MvMENSVM框架,通过鲁棒Huber化hinge损失、弹性网正则化联合稀疏特征选择、可学习系数的联合几何正则化项及显式跨视图一致性约束,实现多目标优化。实验表明,该方法在分类准确率、F1分数、AUC和G-mean等指标上均优于现有方法,尤其在复杂噪声环境中更具鲁棒性。

  
朱文欣|宋云燕|刘琪
天津农业大学基础科学学院,天津,300392,中国

摘要

多视图学习通过整合来自不同数据源的信息来提高模型性能。多视图支持向量机(SVM)在分类任务中特别有效。然而,当前方法存在三个关键局限性。首先,它们经常忽略数据的内在几何流形结构,这降低了它们的泛化能力。其次,它们缺乏跨视图的集成稀疏特征选择机制,这可能导致高维场景中的冗余。第三,它们对异常值和视图特定噪声的鲁棒性不足。为了解决这些问题,我们提出了多视图流形弹性网络SVM(MvMENSVM),这是一个结合了流形学习、稀疏建模和多视图一致性的统一框架。我们的主要贡献包括引入鲁棒的Huber化铰链损失来容忍标签噪声,以及弹性网络正则化来处理相关特征并执行联合稀疏特征选择。我们还引入了一个新的联合流形正则化项,该项使用可学习的视图特定系数来适应性地保持数据几何结构。此外,我们加入了显式的多视图一致性约束来对齐不同模态的预测。我们通过结合互补组件创建了一个新的优化目标,这带来了相当大的计算难度。我们开发了一个定制的近端梯度算法,并结合了回溯线搜索,从而能够有效地获得严格的理论收敛保证。在八个真实世界和合成数据集上的研究表明,MvMENSVM在各种性能指标(包括分类准确性、F1分数、曲线下面积(AUC)和G均值)方面优于现有的多视图SVM。它在具有多种复杂性的噪声环境中也表现出更大的鲁棒性。这项工作有效地弥合了流形学习和多视图分类之间的差距。

引言

多视图学习通过整合来自不同数据表示或“视图”的互补信息来提高模型性能。这种方法也被称为数据融合,对于处理来自各种来源的真实世界数据至关重要。常见的方法包括表示对齐(例如,典型相关分析)和通过生成模型或基于图的模型进行融合(Nie, Cai, Li, & Li (2018))。
在这些多视图学习方法中,多视图支持向量机(SVM)因其同时利用不同视角的共识和互补信息来提高分类性能而成为一种流行的方法。最近的进展包括新模型的开发。一个例子是多权重向量投影SVM(Yan, Wang, Chen, & Zhu (2025))。此外,泛化多视图SVM通过结合共正则化和自适应加权机制,利用一致性和互补性在复杂数据集上实现了更好的性能(参见Xie et al., Xie, Sun, 2020a, Xie, Sun, 2020b; Xie & Xiong (2022))。除了标准公式之外,还提出了几种专门的多视图SVM变体。这些包括利用类内和类间信息的特权加权孪生SVM(Xu & Wang (2022),以及利用单个视图内层次结构的子视图学习框架(Hao, Zheng, Xiao, & Zhu (2023))。此外,多视图最小二乘和缩放SVM通过耦合项和特征缩放整合了所有视图的信息,实现了高分类准确性(Houthuys, Langone, & Suykens (2017); Xu, Han, Nie, & Li (2020))。该框架还扩展到了半监督和单类设置。例如,拉普拉斯最小二乘SVM将视图不一致性作为正则化项来强制共识(Xie & Sun (2020a),并且多流形正则化已应用于半监督学习(Xiao et al. (2023))。总的来说,这些创新表明,多视图SVM框架通过有效平衡共识和互补性,始终优于单视图对应方法。值得注意的是,利用多视图共识和互补性的原则也是最近在半监督学习中的超图神经网络方面的进展的核心。例如,具有密度意识的双重超图模型(Liao, Yan, & Tao (2023)和可学习的统一超图动态系统(Shi, Lin, Lin, & Wang (2025))。同时,弹性网络正则化在多视图学习中提供了独特的优势。通过结合?1和?2惩罚,弹性网络多视图方法能够有效地选择变量和处理高维多视图数据中的相关特征(参见Lin, Wang, Chen, & Zhong (2021); Qin & Qian (2024))。
另一个重要的研究领域是将流形正则化整合到多视图SVM中用于半监督学习。这些方法结合了几何约束,通常来自图拉普拉斯或超图,以鼓励决策边界反映数据的内在结构。这些方法使用标记和未标记的样本。早期方法,如多视图拉普拉斯SVM,通过流形和多视图正则化项扩展了标准公式(Sun (2011))。更近期的扩展包括超图正则化最小二乘孪生SVM(Lu et al., Lu, Xie, & Xiong (2024))、用于两视图设置的传递SVM(Li et al., Li, Chang, & Hoi (2012))、共正则化框架(Sindhwani et al., Sindhwani, Niyogi, & Belkin (2005))和基于流形能量的模型(Zhou et al., Zhou & Feng (2025))。这些方法通常通过惩罚视图间不一致性来促进共识,同时自适应地加权每个视图以保留视图特定信息。最近的方法将这些概念扩展到了一般的多视图和多流形设置。这允许整合两个以上的视图,并通过超图或向量值再生核希尔伯特空间捕获更复杂的数据关系(Minh et al. Minh, Bazzani, & Murino (2016))。这些框架通常解决线性系统或二次规划问题。实证结果表明,在标记数据稀缺的情况下,将流形正则化整合到多视图SVM中显著提高了分类准确性和鲁棒性。
尽管有这些进展,多视图SVM在有效整合来自多个数据视图的信息的同时保持数据的内在几何结构方面仍面临几个持续的挑战。传统SVM的一个根本局限性是它们经常忽略底层流形结构,这可能会损害泛化能力并增加对噪声或污染训练数据的敏感性。多视图学习进一步复杂化了这个问题,因为它需要以非成对的方式结合来自不同视图的信息,同时管理视图之间的不一致性。这通常是通过鼓励共识和利用互补信息的正则化项来完成的(Hong et al. Hong, Yu, You, Chen, & Tao (2015))。
将流形学习与弹性网络正则化结合起来的动机是处理高维数据的需求,在这些数据中特征往往高度相关(Liang et al. Liang, Wu, & Zhang (2023))。这种结合方法,有时被称为“流形弹性网络”,同时解决了两个挑战:弹性网络正则化选择相关特征组,流形正则化保持数据的内在几何结构。通过同时强制特征稀疏性和几何一致性,该模型实现了更稳健的表示,从而提高了泛化和对噪声的抵抗力。通常使用高效算法(如交替方向方法)来处理相关的优化复杂性。实证研究证实,该框架显著提高了分类准确性和计算效率。
然而,我们的文献回顾揭示了一个关键的整合缺口,这体现在三个关键限制上。首先,现有的多视图流形方法(例如Sun等人提出的MvLapSVM (Sun (2011))缺乏集成的稀疏特征选择。其次,多视图稀疏模型(例如Niu等人提出的MSVMCFS (Niu, Shang, & Tian (2019))经常忽略底层数据几何结构,这对于半监督学习至关重要。第三,虽然一些半监督多视图框架(例如Huang等人提出的ERL-MVSC (Huang, Wang, Zheng, Zhao, & Lin (2021))结合了共识和稀疏性的方面,但它们未能在最大间隔SVM公式内统一流形学习和弹性网络正则化。
为了解决这些限制,我们提出了流形弹性网络正则化多视图支持向量机(MvMENSVM)。我们的新框架将几个关键创新整合到一个优化目标中。
  • 一种鲁棒的Huber化铰链损失,它结合了标准SVM的间隔最大化原则和增强处理异常值和标签噪声的能力。
  • 集成的弹性网络正则化通过?1-范数实现所有视图之间的联合稀疏特征选择,同时通过?2-范数保持模型稳定性并保留预测特征之间的相关性。这在高维稀疏领域尤为重要。
  • 一个新的联合流形正则化项使用可学习系数来适应性地结合视图特定的图拉普拉斯。该项明确保留了标记和未标记数据点的内在几何结构,促进了反映真实底层数据流形的统一表示。
  • 显式的多视图一致性约束积极地对齐不同模态的预测,减轻了视图特定噪声和偏差的不利影响,从而提高了整体预测的可靠性。
我们开发了一个定制的近端梯度算法,其中结合了回溯线搜索,以高效解决这个复杂的优化问题。该算法确保了实际可用性,同时提供了收敛保证。
本文的其余部分组织如下:第2节对现有多视图学习方法在处理稀疏性、几何学习和一致性约束方面的局限性进行了批判性分析,特别关注现有的代表性方法。第3节正式定义了问题框架,并详细介绍了MvMENSVM的数学模型,包括联合优化目标的构建及其理论基础。第4节描述了高效的近端优化算法,推导了更新步骤,并分析了其计算复杂性和收敛属性。第5节在合成数据集和七个基准数据集上进行了全面实验。第6节基于严格的统计比较提供了MvMENSVM优越性的讨论。最后,第7节总结了本文并概述了未来的研究方向,例如扩展到非线性核版本和自适应图学习机制。

相关工作

相关工作

本节回顾了相关文献,分为三个关键问题。首先,我们研究了多视图学习和SVM的基础和最新进展。接下来,我们研究了SVM的正则化技术,重点关注弹性网络的稀疏性和分组属性。综合这些领域揭示了当前文献中的一个明显差距,我们对此进行了概述

提出的框架:MvMENSVM

为了克服现有方法的局限性,本节介绍了流形弹性网络多视图SVM(MvMENSVM),这是一种统一的多视图半监督学习模型。MvMENSVM整合了四个互补组件:弹性网络正则化、联合流形正则化、Huber化铰链损失和跨视图一致性约束。

交替最小化架构

所提出的优化框架通过交替最小化方法解决了联合学习视图特定参数{wm, bm}和视图权重系数βm的挑战。这种策略有效地将计算密集的联合优化问题分解为更容易解决的子问题。算法首先更新视图特定参数,然后固定视图权重。然后,它优化视图权重

硬件和软件配置

所有实验均使用MATLAB R2023a在配备第13代Intel Core i5-13500H处理器和32 GB DDR4 RAM(运行速度为3200 MT/s)的工作站上完成。这种设置为所有方法提供了稳定且可重复的计算条件。

基线方法

为了全面评估所提出的MvMENSVM框架,我们将其与九种最先进的多视图半监督学习方法进行了比较。选择这些基线是为了涵盖广泛的常见正则化方法

结论和未来工作

本文系统地研究了当前关于多视图支持向量机的研究现状。它指出了现有方法的三个局限性:多源信息的整合不足、数据内在流形结构的利用不足以及跨视图稀疏特征选择的效率低下。为了解决这些问题,我们提出了一个新的多视图流形弹性网络支持向量机(MvMENSVM)框架。

CRediT作者贡献声明

朱文欣:概念化、方法论、软件、写作——审阅与编辑、原始草稿撰写。宋云燕:方法论、形式分析、调查、写作——审阅与编辑。刘琪:形式分析、数据整理、可视化、写作——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号