编辑推荐:
多模态学习通过动态结构风险最小化课程(DSRMC)优化训练策略,引导模型避开局部极小,提升泛化能力。在BRCA、GBM、ROSMAP数据集上,提出的CTML方法较SOTA平均提升6.7%,验证了课程学习与结构风险最小化的有效结合。
Jian Zhu|Xin Zou|Jun Sun|Bian Wu|Lingfang Zeng|Linqing Feng|Lei Liu|Chang Tang
中国杭州浙江实验室,310000
摘要
可靠的多模态学习能够有效地整合多种数据源。然而,现有方法常常面临一个挑战,即深度神经网络本身的非凸性质。这导致它们容易陷入局部最小值,从而降低了泛化能力。为了解决这个问题,我们首先构建了一个理论框架,将课程学习的应用扩展到多模态场景中。其次,我们提出了一种名为
动态SRM课程(DSRMC)的新方法。该方法包括两个模块:评分函数和训练计划。评分函数根据复杂性对样本进行排序;训练计划则控制训练过程中每一轮提供的样本数量。DSRMC有助于将学习到的模型置于损失函数的平坦区域,从而提高其整体泛化能力。在DSRMC的基础上,我们进一步提出了一种称为
课程可信多模态学习(CTML)的创新方法。该方法将DSRMC应用于多模态学习场景。在三个公开数据集上的广泛实验表明,所提出的CTML性能优于现有方法,宏观F1分数最高提升了6.7%。我们的代码和数据集可在以下链接公开获取:
https://github.com/HackerHyper/DSRMC.git引言
课程学习(CL)(Bengio,2014)借鉴了人类和动物的学习模式。它通过使用一系列按复杂性递增排列的任务或样本来训练深度网络。由于这种方法模仿了自然学习过程,模型能够提高泛化能力。如图1所示,课程学习涉及同一组参数上的一系列损失函数。它通过添加额外的损失函数{F1(θ), F2(θ), ..., FT(θ}来增强模型能力,这些损失函数逐渐增加优化难度。其中F1(θ)被认为是最简单的。整个过程的控制损失函数由以下公式表示:
可信多模态学习广泛应用于自动驾驶、医学诊断和机器人技术领域(Ahmad, Jindal, Mukuntha, Ekbal, & Bhattachharyya, 2022;Li et al., 2024;Mousa, Rezaei, Mahmoudi, & Abdollahi, 2025;Yu et al., 2023;Zou et al., 2025)。多模态学习的目标是最小化结构风险。可信多模态分类的结构风险最小化(SRM)包括分类损失、置信损失和正则化。这些是本文的研究起点。
多模态分类通过开发深度神经网络实现可信学习。然而,可信多模态学习忽略了训练策略的重要性。例如,当前方法(如MD Han, Yang, Huang, Zhang, & Yao, 2022a 和 TMLOA Liu, Yue, Chen, & Denoeux, 2022)由于深度神经网络的非凸性质而容易陷入局部最小值,从而降低了分类准确性。本质上,模型被困在局部最小值中,导致泛化能力下降。
为了解决上述问题,我们开展了两个方面的工作。首先,我们提出了一个理论框架,将课程学习应用于多模态分类。其次,我们提出了创新的动态SRM课程(DSRMC)。DSRMC是一种简单、有效且可插拔的优化方法,包括评分函数和训练计划。评分函数按复杂性对样本进行排序;训练计划控制训练过程中每轮添加的样本数量。DSRMC使用SRM作为评分函数。在实际训练中,我们根据评分函数为每个批次计算排名值,分数越高表示批次越复杂。训练计划逐步增加批次数量,先使用较简单的批次进行训练,然后逐渐引入更复杂的批次,最终使用整个数据集。通过模拟人类学习过程,这种顺序策略成功提高了模型的泛化能力。
在DSRMC的基础上,本文提出了一种新的
课程可信多模态学习(CTML)方法。据我们所知,这是首次使用DSRMC进行可信多模态分类的研究。深度可信多模态网络通过逐步方式系统地进行训练。我们利用三个公开数据集(Zou et al., 2023b)的多模态分类基准测试评估了CTML方法的有效性。实验结果显示CTML在宏观F1分数上提升了高达6.7%。实验结果经过全面的统计显著性分析,证实了该方法在三个数据集上的统计显著性。本文的主要贡献如下:
•我们提出了一种创新的DSRMC方法,以提高可信多模态学习的泛化能力。该方法包括评分函数和训练计划。
•在DSRMC的基础上,我们提出了一种名为CTML的新多模态学习方法。CTML是一种强大的多模态分类方法。
•所提出的CTML在三个公开数据集上取得了最先进的结果。
部分摘录
可信多模态学习
深度学习在许多应用中表现出显著的效果。然而,它很少提供可靠的置信度或不确定性(Abdar et al., 2021),而这对于可信模型是必要的。贝叶斯方法(Welling & Teh, 2011)通过用分布替换置信参数来表达不确定性,但其计算复杂性使其不太适用于深度神经网络。多个神经网络被训练并集成以使用集成方法计算置信度。
提出的方法论
我们建立了一个理论框架,将结构风险最小化(SRM)应用于课程学习框架中。为了提高多模态学习的泛化能力,我们提出了一种创新的动态SRM课程(DSRMC)。基于DSRMC,我们提出了课程可信多模态学习(CTML)方法。如图2所示,CTML结合了深度可信多模态网络和DSRMC方法。
实验
在三个公开数据集(BRCA、GBM和ROSMAP,Zou et al., 2023b)的多模态分类任务中,评估了课程可信多模态学习(CTML)方法的有效性。我们使用分类性能指标来评估CTML的效果。通过大量实验,我们证明了所提出的CTML具有出色的性能。此外,动态SRM课程(DSRMC)方法的有效性也得到了验证。
结论与讨论
动态SRM课程(DSRMC)具有简单、可插拔和有效的优点。它通过模仿人类认知过程(从简单任务逐步过渡到复杂任务)来提高多模态学习的泛化能力。首先优化了原始目标的平滑版本,然后逐步接近目标。通过监控训练过程中的局部最小值,学习到的模型被引导到更平坦的区域。
局限性
动态SRM课程(DSRMC)用于提高可信多模态分类方法的泛化能力。我们仅验证了DSRMC方法在多模态任务场景中的有效性。我们认为DSRMC具有通用性,也可以应用于某些单模态分类任务,但未进行实验验证。
CRediT作者贡献声明
Jian Zhu:概念化、方法论、软件开发、数据分析、正式分析、撰写初稿;Xin Zou:数据整理、撰写初稿;Jun Sun:手稿修订;Bian Wu:手稿修订;Lingfang Zeng:手稿修订;Linqing Feng:手稿修订;Lei Liu:可视化、数据分析;Chang Tang:资源协调、监督。
利益冲突声明
我们声明在本文中没有任何可能影响研究的财务或个人利益冲突。