通过深度非一致性均值教师模型和完全协作学习来减轻半监督分割中的模型耦合问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Neurocomputing 6.5

编辑推荐：

　　ComMatch通过深度不一致架构和全协作学习策略解决半监督分割中的子网耦合和未标注数据利用问题，在PASCAL VOC和Cityscapes上mIoU分别达78.68%和77.89%。

作者：Min Chongdan、Lei Tao、Wang Xingwu、Wang Yingbo、Meng Hongying、Nandi Asoke K.

中国陕西省西安市，陕西科技大学人工智能联合实验室，邮编710021

摘要

基于教师-学生框架的半监督学习方法在图像分割领域取得了显著的成功。然而，流行的教师-学生模型容易发生早期子网络耦合，这限制了分割性能。此外，大多数现有方法依赖于强-弱扰动方案进行一致性学习，忽视了不同扰动之间的同级监督，并未能充分利用未标记数据中的潜在信息。为了解决这些问题，我们提出了ComMatch，这是一种基于深度非一致性和完全协作学习的新型半监督图像分割方法。具体来说，我们设计了一种深度非一致的均值教师结构，在多流学习框架中在数据和网络层面构建深度不一致性，有效缓解了早期子网络耦合的问题。同时，为了最大化未标记数据中的潜在信息，我们提出了一种完全协作学习策略，探讨了在深度不一致性扰动下同级损失的必要性，并进一步结合了跨级和同级损失来深入挖掘未标记数据中的潜在知识。实验结果表明，所提出的ComMatch方法超越了当前的最先进方法，在PASCAL VOC和Cityscapes数据集上的mIoU指标上分别达到了78.68%和77.89%的分割精度。代码可在以下链接获取：https://github.com/Minchongdan/ComMatch

引言

语义分割是一种为图像提供像素级预测的分类任务，广泛应用于场景理解、自动驾驶、医学图像分析、机器人视觉等领域。然而，由于像素级注释成本高昂且耗时，传统的完全监督方法在标注数据有限的许多场景中面临巨大挑战。因此，半监督语义分割成为学术界和工业界的热点，以减少模型对像素级注释的过度依赖。

半监督学习（SSL）旨在利用少量的标记数据和大量的未标记数据来实现与完全监督方法相当甚至更优的性能。目前，半监督语义分割已经从基于GAN的对抗训练范式[5]、[6]、[7]发展到广泛使用的一致性正则化[8]、[9]、[10]、[11]、自训练机制[12]、[13]、伪标记[15]、[16]、对比学习[17]及其组合方法。FixMatch[19]的引入通过使用弱扰动输入的预测来监督强扰动输入的预测，进一步提升了半监督学习的效果。其有效性源于观察到的现象：模型在弱扰动数据上产生的预测更可靠，而强扰动输入为参数更新提供了更强的监督信号。此外，强扰动不仅引入了额外的多样性，还有助于减轻确认偏差。

在这项工作中，我们对主流的一致性基方法进行了深入分析，并发现了三个关键挑战：1) 基于均值教师和交叉伪监督的方法在训练过程中容易发生子网络耦合，从而限制了性能提升；2) 在同构的CNN架构中，一致性正则化和相互学习空间受到固有约束，使得在后期训练阶段难以提供额外的有用信息；3) FixMatch仅使用弱扰动输出来监督强扰动预测，忽视了其他潜在的监督信息，未能充分利用未标记数据中的有用信息。一般来说，半监督语义分割方法大致可以分为两类：1) 通过额外的校正网络[15]、[16]、[20]、类别平衡策略[13]或多个预测[21]来校正伪标签；2) 通过使用额外的损失[8]、应用更强的增强[14]、[22]或采用先进的对比学习技术[17]、[18]、[23]来探索更有效的信息。与现有的流行方法相比，我们的方法不依赖于额外的校正模块或辅助损失。相反，我们提出了一种基于多流数据学习的深度半监督框架，其中教师-学生互动和不同流之间的协作学习扩展了学习空间并提高了分割性能。

关于异构网络、协同训练和相互学习以及多视图一致性的现有研究表明，保持模型多样性有利于半监督学习。然而，在现代基于EMA的教师-学生框架中，教师和学生形成了一个紧密耦合的反馈循环：当架构、扰动视图和监督信号变得过于相似时，它们的预测误差往往会相关，导致早期子网络耦合和自我强化的伪标签过程。在这项工作中，我们将耦合视为基于均值教师的分割中的主要障碍，并提出了一种具有耦合意识的适应方法，同时在架构层面（异构的双学生）、视图层面（深度非一致扰动）和监督层面（结合跨级和同级损失的全协作学习）保持多样性。这种统一设计使模型能够持续利用未标记数据中的互补信号，而不是分裂成几乎相同的分支。

为了解决上述问题，我们提出了ComMatch，这是一种基于深度非一致性和完全协作的半监督学习框架，用于语义分割。ComMatch结合了架构异构性和均值教师范式，以扩展有效学习空间并减轻早期耦合，同时利用互补的协作监督来更好地利用未标记数据。主要贡献如下：

(1) 提出了一种深度非一致的均值教师架构（DNC-MT），以解决半监督学习过程中特征信息相似性增加导致的模型耦合问题。与传统方法不同，DNC-MT基于均值教师框架构建了一个异构的双学生架构，并设计了非一致学习来扩展扰动空间。这种设计防止了特征表示在协作学习过程中变得过于相似，使两个子网络对相同输入保持更独特的表示。通过减少分支之间的误差相关性，它减轻了由子网络耦合引起的过早收敛，并最终提高了分割精度。

(2) 提出了一种完全协作学习策略（FCL），以解决未标记数据中潜在有价值信息利用不足的问题。与仅依靠跨级一致性来监督强增强预测和弱预测的现有方法不同，FCL引入了显式的同级监督。基于DNC-MT架构，FCL涉及同级和跨级协作学习。具体来说，它学习了教师-学生和学生-学生子网络之间各种扰动流之间的差异，从而进一步探索了未标记数据中的互补信息，最大化了监督信息的利用。

(3) 所提出的方法结合了DNC-MT和FCL，与当前的最先进方法相比取得了更好的性能。在PASCAL VOC和Cityscapes数据集（1/16划分）上，其分割精度分别达到了78.68%和77.89%。这种方法适用于任何多分支学习框架，并可根据需要添加额外的功能模块。

章节片段

图像语义分割

图像语义分割的目标是为图像中的每个像素分配一个特定的类别标签。全卷积网络（FCN）[24]作为最早引入全卷积结构用于图像分割的网络之一，利用跳跃连接融合多级特征，实现了更精确的目标边界预测。尽管FCN在语义分割方面表现良好，但在处理高度不确定的区域时存在局限性。随后，扩张卷积

方法

半监督语义分割方法旨在充分利用来自标记图像的有限注释和未标记图像的信息

设

表示第个未标记输入图像，表示第个标记输入图像，两者大小均为（H表示图像的高度，W表示宽度，C表示深度），表示像素级标签，其中c是类别总数。给定训练数据集，半监督语义分割的目标是

数据集和预处理

Pascal VOC是一个以对象为中心的语义分割数据集，包含20个对象类别和一个背景类别。标准训练集、验证集和测试集分别包含1464、1449和1456张图像。按照常见协议，我们使用增强集作为完整的训练集（10,582张图像）。在训练过程中，我们首先将图像调整为531×531像素大小，然后裁剪为321×321像素大小进行训练。Cityscapes是为语义分割设计的

结论

在这项工作中，我们提出了ComMatch，这是一种半监督语义分割方法，旨在探索未标记数据中潜在的有效信息。基于均值教师（MT）方法，我们提出了一种深度非一致性多流学习结构，有效探索了更多的互补学习空间，同时减轻了由特征耦合引起的性能限制。此外，我们研究了将同级损失监督与跨级监督结合的必要性

CRediT作者贡献声明

Min Chongdan：撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、软件、项目管理、方法论、调查、形式分析、数据管理、概念化。Tao Lei：撰写 – 审稿与编辑、监督、资源获取、概念化。Xingwu Wang：撰写 – 审稿与编辑、软件。Yingbo Wang：撰写 – 审稿与编辑、项目管理、概念化。Hongying Meng：撰写 – 审稿与编辑、监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

这项工作部分得到了中国国家自然科学基金项目（编号62271296和62201452）的支持。

Min Chongdan是陕西科技大学电子信息与人工智能学院的博士候选人，研究方向是计算机视觉。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

图像语义分割

方法

数据集和预处理

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行