《Engineering Applications of Artificial Intelligence》:Prototype-guided domain-invariant enhancement and domain-specific normalization for domain generalization semantic segmentation
编辑推荐:
语义分割领域泛化、原型引导、DINOv2增强、跨域适应、mIoU优化 |
廖木欣|尹成乐|张宇航|杨浩远|黄文竹|彭英琼|王英龙
江西农业大学计算机科学与工程学院,南昌,330045,中国
摘要 现有的基于视觉基础模型(VFMs)的领域泛化语义分割(DGSS)方法在未见过的领域中取得了显著的性能。由于VFMs是在来自多个领域的大规模数据上预训练的,这些方法会冻结VFMs的骨干网络以获得丰富的表示,并使用它们来训练跨领域的鲁棒解码器以进行语义分割。然而,VFMs的部分表示(例如DINOv2)在多个领域中是共享的,而其他表示仅对几个特定领域有效,这促使我们增强VFMs的领域不变信息并消除领域特定信息。在本文中,我们提出了一种原型引导的领域不变增强和领域特定规范化(PIESN)方法用于DGSS。PIESN维护两个非参数矩阵,包括类内关系不变矩阵和类间关系差异矩阵。前者用于为各个语义类别生成共同的表示嵌入,旨在增强每个语义类别的领域不变信息。后者旨在通过保持一致的类间关系来规范化领域特定信息。广泛的实验表明,所提出的方法具有更少的可训练参数,并在多个基准测试中取得了优越的性能,例如在“Grand Theft Auto V (GTA5) {Cityscapes, Berkeley DeepDrive 100K (BDD100K), Mapillary Vistas Dataset”设置中实现了66.8%的平均mIoU,其中可训练参数数量为329万(M)。代码可在
https://github.com/seabearlmx/PIESN 获取。
引言 城市场景的语义分割是自动驾驶系统中的一个关键任务(Cho等人,2025年;Yang等人,2025a年;Chen等人,2025a年;Chen等人,2025b年)。依赖于大规模数据集,基于监督学习的方法在独立同分布的假设下取得了显著进展,这意味着训练数据和测试数据具有相似的分布。然而,这些方法在现实世界场景中受到了阻碍,因为训练数据和测试数据之间的分布存在差异,这被称为分布偏移问题,其中训练数据和测试数据通常分别称为源域和目标域。例如,在自动驾驶应用中,不同城市的道路布局、交通标志样式、建筑风格等方面在颜色和形状上存在显著差异。这些差异导致在一个城市训练的监督语义分割模型直接应用于其他城市时性能大幅下降,从而阻碍了语义分割模型为自动驾驶应用提供准确的环境感知。无监督的领域适应(UDA)(Liao等人,2022年;Liao等人,2024d年)作为一种可行的解决方案,可以提高模型在目标域的性能,从而避免了为模型重新训练而进行耗时且费力的大规模目标域数据注释。
UDA语义分割(UDASS)(Song等人,2024年;Liao等人,2024e年)旨在从源域和目标域中挖掘不变的表示,以便在目标域中泛化得更好。尽管UDASS在特定目标域中取得了显著的性能,但由于现实世界中的场景多种多样,收集包含所有目标域场景的大规模数据是不切实际的。因此,考虑了领域泛化(DG)(Yang等人,2025b年;Chen等人,2024a年;Renfei等人,2024年;Liang等人,2025年),其目标是从源域仅学习领域不变的表示,以提高在未见过的领域中的性能。特别是,与UDA不同,在DG的训练阶段无法访问未见过的领域数据。
现有的基于经典骨干网络的DG语义分割(DGSS)方法(Liao等人,2023a年;Liao等人,2023b年;Liao等人,2024b年;Liao等人,2025年),如Transformer(Dosovitskiy等人,2020年)、ResNet(He等人,2016年)、VGG(Simonyan和Zisserman,2014年)、ShuffleNetv2(Ma等人,2018年)和MobileNetv2(Sandler等人,2018年),通常使用源域图像并采用领域随机化策略(Liao等人,2024a年;Liao等人,2024c年)来生成风格化图像,并利用源域图像和风格化图像之间的一致性约束(Li和Liao,2025年)来提高在未见过的领域中的泛化能力。得益于这些DG策略的有效性,预先在ImageNet(Deng等人,2009年)数据集上预训练的经典骨干网络可以通过学习领域不变的表示来在未见过的领域中实现更好的性能。
随着大规模视觉基础模型(VFMs)如CLIP(Radford等人,2021年)、SAM(Kirillov等人,2023年)、EVA02(Fang等人,2023年、Fang等人,2024年)和DINOv2(Oquab等人,2023年)在各种视觉任务中取得了显著的性能提升,一些DGSS方法(Wei等人,2024年;Hümmer等人,2024年;Fahes等人,2024年)提出使用VFMs作为冻结的骨干网络来获得包含丰富语义信息的表示,并使用它们来训练跨领域的鲁棒解码器,以提高在未见过的领域中的性能。与使用经典骨干网络的方法相比,这些方法在性能上取得了显著改进。特别是,研究(Wei等人,2024年)表明,使用DINOv2(Oquab等人,2023年)的冻结骨干网络作为编码器在未见过的领域中实现了优于其他VFMs的性能。然而,我们观察到使用DINOv2(Oquab等人,2023年)的冻结骨干网络作为编码器时存在一个限制。这个限制是DINOv2的冻结骨干网络提供的领域不变信息有限,可能会阻碍在未见过的领域中进一步提高泛化能力。
如表1所示,当在推理阶段随机丢弃DINOv2(Oquab等人,2023年)最后一层的表示时,某些未见过的领域的性能得到了提高。在表1中,基线方法是Rein(Wei等人,2024年),它使用DINOv2的冻结骨干网络作为DGSS的编码器。当表示随机丢弃10%时,在Cityscapes(Cordts等人,2016年)数据集中的性能保持一致,并在Mapillary(Neuhold等人,2017年)数据集中取得了改进。此外,当表示随机丢弃40%时,在BDD100K(Yu等人,2020年)数据集中的性能提高了1.0%。我们认为这种现象可以归因于当丢弃了关于Cityscapes和Mapillary数据集的领域特定信息时,关于BDD100K数据集的领域特定信息主导了语义分割任务的完成。这些结果表明,DINOv2在DGSS中的成功可以归因于其表示包含了来自多个领域的领域特定信息,因为它们在大规模数据集上的预训练涵盖了多个领域的数据,而不仅仅是为DGSS提供更多的领域不变表示。图1(a)展示了这种情况。换句话说,DINOv2提供的表示只有部分在多个领域中共享,而其他的是多个特定领域的领域特定信息,这意味着领域不变信息不足。这一限制促使我们增强DINOv2提供的表示的领域不变信息并消除领域特定信息,图1(b)展示了预期的目标,即增强DINOv2的冻结骨干网络提供的表示的领域不变信息。
基于此,我们提出了一种原型引导的领域不变增强和领域特定规范化(PIESN)方法用于DGSS。PIESN包含一个原型引导的领域不变增强(PIE)模块和一个原型引导的领域特定规范化(PSN)模块。具体来说,PIE模块用于为各个语义类别生成共同的表示嵌入,旨在增强每个语义类别的领域不变信息。首先,构建原型来为各个语义类别生成表示嵌入。然后,在每次迭代中获取并更新表示嵌入的类内关系,以使用类似注意力的机制增强每个语义类别的领域不变信息。PSN模块旨在通过保持一致的类间关系来规范化领域特定信息。首先,计算原型和PIE模块获得的分类表示嵌入之间的类间关系差异,用于生成一个领域特定掩码。在领域特定掩码中,将较大的差异值设置为0,其他值设置为1。然后,利用领域特定掩码来规范化分类表示嵌入的领域特定信息。由于类内和类间关系被保留为两个非参数矩阵,PIESN在训练阶段的可训练参数较少。全面的实验表明,PIESN方法在各种基准测试中取得了出色的性能。本工作的贡献总结如下:
• 本文提出了一种原型引导的领域不变增强和领域特定规范化方法用于DGSS,旨在在规范化DINOv2提供的表示中的领域特定信息的同时增强领域不变信息,以提高泛化能力。
• 提出了一种原型引导的领域不变增强模块,使用原型为各个语义类别生成共同的表示嵌入,旨在增强每个语义类别的领域不变信息。
• 提出了一种原型引导的领域特定规范化模块,通过保持原型和分类表示嵌入之间的一致类间关系来规范化领域特定信息。
• 所提出的方法在多个DGSS基准测试中取得了优于现有DGSS方法的性能。
相关工作 相关工作 最近,提高模型在未见过的领域中的泛化能力在各个研究领域受到了越来越多的关注。例如,在异构社交网络中的链接预测任务中,Wang等人(2023年)提出了一种可迁移的领域对抗网络,从已知的历史链接类型中学习可迁移的类型共享知识,以实现未见过的链接类型的准确预测。在序列推荐任务中,Chen等人……
方法 受到在规范化DINOv2提供的表示中的领域特定信息的同时增强领域不变信息的动机驱动,我们提出了一种原型引导的领域不变增强和领域特定规范化(PIESN)方法。PIESN包含一个原型引导的领域不变增强(PIE)模块和一个原型引导的领域特定规范化(PSN)模块,这些模块按以下顺序介绍
数据集 所提出的方法在两个合成到真实的DGSS基准测试和一个真实到真实的DGSS基准测试上进行了评估,涵盖了“G→ {C, B, M}”、“S→ {C, B, M}”和“C→ {B, M}”。数据集的描述总结在表2中,一些数据集的示例显示在图5中。具体来说,“G (GTA5 (Richter等人,2016))”和“S (SYNTHIA (Ros等人,2016))”是合成数据集,分别包含24,966张和9,400张合成图像。同时,“C (Cityscapes (Cordts等人,2016)
结论 在本文中,我们提出了一种新颖的原型引导的领域不变增强和领域特定规范化(PIESN)方法用于DGSS,它包含一个原型引导的领域不变增强(PIE)模块和一个原型引导的领域特定规范化(PSN)模块。PIE模块动态更新类内关系,以增强原型生成的分类特征的领域不变信息。PSN模块旨在通过……
CRediT作者贡献声明 廖木欣: 写作 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,方法论。尹成乐: 写作 – 审稿与编辑,撰写 – 原始草稿,方法论。张宇航: 可视化,验证,方法论。杨浩远: 可视化,验证。黄文竹: 可视化,验证。彭英琼: 写作 – 审稿与编辑,监督,资金获取。王英龙: 写作 – 审稿与编辑,监督,项目管理。
利益冲突声明 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢 本工作部分得到了国家自然科学基金 (项目编号:62561030、62262028)的支持,部分得到了江西省自然科学基金 (项目编号:20252BAC200177、20242BAB25082)的支持,部分得到了江西省青年人才培训项目 (项目编号:20252BEJ730059)的支持。