课程可信的多模态学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

课程可信的多模态学习

《Expert Systems with Applications》：Curriculum Trustworthy Multi-modal Learning

【字体：大中小】 时间：2026年02月10日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　多模态学习通过动态结构风险最小化课程（DSRMC）优化训练策略，引导模型避开局部极小，提升泛化能力。在BRCA、GBM、ROSMAP数据集上，提出的CTML方法较SOTA平均提升6.7%，验证了课程学习与结构风险最小化的有效结合。

中国杭州浙江实验室，310000

摘要

可靠的多模态学习能够有效地整合多种数据源。然而，现有方法常常面临一个挑战，即深度神经网络本身的非凸性质。这导致它们容易陷入局部最小值，从而降低了泛化能力。为了解决这个问题，我们首先构建了一个理论框架，将课程学习的应用扩展到多模态场景中。其次，我们提出了一种名为动态SRM课程（DSRMC）的新方法。该方法包括两个模块：评分函数和训练计划。评分函数根据复杂性对样本进行排序；训练计划则控制训练过程中每一轮提供的样本数量。DSRMC有助于将学习到的模型置于损失函数的平坦区域，从而提高其整体泛化能力。在DSRMC的基础上，我们进一步提出了一种称为课程可信多模态学习（CTML）的创新方法。该方法将DSRMC应用于多模态学习场景。在三个公开数据集上的广泛实验表明，所提出的CTML性能优于现有方法，宏观F1分数最高提升了6.7%。我们的代码和数据集可在以下链接公开获取：https://github.com/HackerHyper/DSRMC.git

引言

课程学习（CL）（Bengio，2014）借鉴了人类和动物的学习模式。它通过使用一系列按复杂性递增排列的任务或样本来训练深度网络。由于这种方法模仿了自然学习过程，模型能够提高泛化能力。如图1所示，课程学习涉及同一组参数上的一系列损失函数。它通过添加额外的损失函数{F¹(θ), F²(θ), ..., F^T(θ}来增强模型能力，这些损失函数逐渐增加优化难度。其中F¹(θ)被认为是最简单的。整个过程的控制损失函数由以下公式表示：

F^{T} (θ) = F (θ) 。早期损失函数

F^t(θ)的复杂性逐渐增加，这意味着它在更广泛的参数值范围内表现良好。由于这一特性，随机初始化更有可能发生在可以通过局部梯度下降有效优化的区域。这些损失函数的顺序排列确保了解决一个问题可以为解决下一个问题提供坚实的基础。因此，CL从非常简单的问题开始，逐步改进方法以应对更复杂的挑战，最终解决主要问题。

可信多模态学习广泛应用于自动驾驶、医学诊断和机器人技术领域（Ahmad, Jindal, Mukuntha, Ekbal, & Bhattachharyya, 2022；Li et al., 2024；Mousa, Rezaei, Mahmoudi, & Abdollahi, 2025；Yu et al., 2023；Zou et al., 2025）。多模态学习的目标是最小化结构风险。可信多模态分类的结构风险最小化（SRM）包括分类损失、置信损失和正则化。这些是本文的研究起点。

多模态分类通过开发深度神经网络实现可信学习。然而，可信多模态学习忽略了训练策略的重要性。例如，当前方法（如MD Han, Yang, Huang, Zhang, & Yao, 2022a 和 TMLOA Liu, Yue, Chen, & Denoeux, 2022）由于深度神经网络的非凸性质而容易陷入局部最小值，从而降低了分类准确性。本质上，模型被困在局部最小值中，导致泛化能力下降。

为了解决上述问题，我们开展了两个方面的工作。首先，我们提出了一个理论框架，将课程学习应用于多模态分类。其次，我们提出了创新的动态SRM课程（DSRMC）。DSRMC是一种简单、有效且可插拔的优化方法，包括评分函数和训练计划。评分函数按复杂性对样本进行排序；训练计划控制训练过程中每轮添加的样本数量。DSRMC使用SRM作为评分函数。在实际训练中，我们根据评分函数为每个批次计算排名值，分数越高表示批次越复杂。训练计划逐步增加批次数量，先使用较简单的批次进行训练，然后逐渐引入更复杂的批次，最终使用整个数据集。通过模拟人类学习过程，这种顺序策略成功提高了模型的泛化能力。

在DSRMC的基础上，本文提出了一种新的课程可信多模态学习（CTML）方法。据我们所知，这是首次使用DSRMC进行可信多模态分类的研究。深度可信多模态网络通过逐步方式系统地进行训练。我们利用三个公开数据集（Zou et al., 2023b）的多模态分类基准测试评估了CTML方法的有效性。实验结果显示CTML在宏观F1分数上提升了高达6.7%。实验结果经过全面的统计显著性分析，证实了该方法在三个数据集上的统计显著性。本文的主要贡献如下：•

我们提出了一种创新的DSRMC方法，以提高可信多模态学习的泛化能力。该方法包括评分函数和训练计划。

•

在DSRMC的基础上，我们提出了一种名为CTML的新多模态学习方法。CTML是一种强大的多模态分类方法。

•

所提出的CTML在三个公开数据集上取得了最先进的结果。

部分摘录

可信多模态学习

深度学习在许多应用中表现出显著的效果。然而，它很少提供可靠的置信度或不确定性（Abdar et al., 2021），而这对于可信模型是必要的。贝叶斯方法（Welling & Teh, 2011）通过用分布替换置信参数来表达不确定性，但其计算复杂性使其不太适用于深度神经网络。多个神经网络被训练并集成以使用集成方法计算置信度。

提出的方法论

我们建立了一个理论框架，将结构风险最小化（SRM）应用于课程学习框架中。为了提高多模态学习的泛化能力，我们提出了一种创新的动态SRM课程（DSRMC）。基于DSRMC，我们提出了课程可信多模态学习（CTML）方法。如图2所示，CTML结合了深度可信多模态网络和DSRMC方法。

实验

在三个公开数据集（BRCA、GBM和ROSMAP，Zou et al., 2023b）的多模态分类任务中，评估了课程可信多模态学习（CTML）方法的有效性。我们使用分类性能指标来评估CTML的效果。通过大量实验，我们证明了所提出的CTML具有出色的性能。此外，动态SRM课程（DSRMC）方法的有效性也得到了验证。

结论与讨论

动态SRM课程（DSRMC）具有简单、可插拔和有效的优点。它通过模仿人类认知过程（从简单任务逐步过渡到复杂任务）来提高多模态学习的泛化能力。首先优化了原始目标的平滑版本，然后逐步接近目标。通过监控训练过程中的局部最小值，学习到的模型被引导到更平坦的区域。

局限性

动态SRM课程（DSRMC）用于提高可信多模态分类方法的泛化能力。我们仅验证了DSRMC方法在多模态任务场景中的有效性。我们认为DSRMC具有通用性，也可以应用于某些单模态分类任务，但未进行实验验证。

CRediT作者贡献声明

Jian Zhu：概念化、方法论、软件开发、数据分析、正式分析、撰写初稿；Xin Zou：数据整理、撰写初稿；Jun Sun：手稿修订；Bian Wu：手稿修订；Lingfang Zeng：手稿修订；Linqing Feng：手稿修订；Lei Liu：可视化、数据分析；Chang Tang：资源协调、监督。

利益冲突声明

我们声明在本文中没有任何可能影响研究的财务或个人利益冲突。

联系信箱：

粤ICP备09063491号

摘要

引言