基于图像与文本的样式随机化方法，用于领域泛化的语义分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Image-text driven style randomization for domain generalized semantic segmentation

【字体：大中小】 时间：2026年02月05日 来源：Neurocomputing 6.5

编辑推荐：

　　语义分割模型面临异构域泛化不足的问题，本文提出两阶段框架：第一阶段通过图像-文本联合驱动的实例归一化（I-PIN）优化风格参数，减少语义干扰；第二阶段采用双路径风格不变特征学习（DSFL），结合跨风格一致性和单风格内空间一致性损失，提升模型在未知域的鲁棒性。实验表明，该方法在多个挑战性域中优于现有SOTA方法。

李俊浩|尹智秀|金智松|崔俊元

韩国首尔汉阳大学电气工程系，邮编04763

摘要

在源领域上训练的语义分割模型通常由于环境条件的变化导致的领域差异而无法泛化到未见过的领域。虽然现有方法仅依赖文本提示进行领域随机化，但它们生成的风格往往与现实世界的分布存在偏差。为了解决这一限制，我们提出了一个新颖的两阶段框架，用于语义分割中的领域泛化（DGSS）。首先，我们引入了图像提示驱动的实例规范化（I-PIN），该方法利用风格图像和文本提示来优化风格参数，与仅使用文本的方法相比，能够实现更准确的风格表示。其次，我们提出了双路径风格不变特征学习（DSFL），该方法采用风格间和风格内的一致性损失，确保在不同风格下保持一致的预测结果，同时促进语义类别内的特征对齐。广泛的实验表明，我们的方法在多个具有挑战性的领域中始终优于现有的最先进方法，有效解决了语义分割中的领域差异问题。

引言

语义分割是自动驾驶中的一个基本任务，它能够准确感知周围的道路环境，从而实现安全驾驶[1]、[2]、[3]、[4]。尽管深度学习的最新进展提高了基准数据集上的分割性能，但这些模型在未见过的数据集上往往表现不佳。这个问题被称为领域差异问题，它显著影响了自动驾驶系统的可靠性和可扩展性[5]、[6]、[7]、[8]、[9]。

领域差异问题源于多种环境因素，如天气条件、地理差异、传感器噪声等。传统的监督学习方法难以应对领域差异，因为它们假设训练和测试之间的数据分布相似，这限制了它们在多样化现实世界场景中的有效性。虽然领域适应（DA）策略[[7]、[8]、[9]、[10]]作为解决分布差异问题的方法已经出现，但它们需要在训练期间访问目标领域的数据，这使得它们在实际应用中不切实际。

为了克服这些限制，语义分割的领域泛化（DGSS）[5]、[6]、[12]、[13]、[14]、[15]、[16]作为一种有前景的范式应运而生，它可以在不访问目标领域数据的情况下学习领域不变的表示。这些方法旨在在未见过的领域中保持一致的分割性能。DGSS中的一个突出方法是领域随机化（DR），它通过引入纹理、颜色和光照条件等视觉属性的人为变化来增强训练数据。其核心思想是让模型接触多样化的训练环境，使它们对领域差异的敏感度降低。早期的DR方法主要关注基本的数据增强，但它们常常难以处理涉及语义变化和上下文变化的复杂领域差异。最近的DR方法利用了像CLIP这样的视觉-语言模型，在领域不变学习和风格多样性方面展示了有希望的结果。P?DA [11]引入了提示驱动的实例规范化（PIN），通过文本提示来学习目标风格，而FAMix [16]通过多样化风格化进一步增强了这种方法。然而，如图1所示，t-SNE [17]的可视化显示，PIN风格化的特征与实际目标领域的分布存在显著差异。这种不对齐表明了基于文本的风格化在捕捉真实世界风格方面的局限性。

为了解决基于文本的风格化的局限性，我们提出了一个新颖的两阶段训练框架，称为图像-文本驱动的风格随机化（ITSR）。在第一阶段，我们引入了图像提示驱动的实例规范化（I-PIN），该方法利用风格图像和文本提示来优化特征风格化。与仅依赖文本描述的PIN不同，I-PIN从两种模态中学习最佳风格参数（均值和标准差），从而实现更准确和多样化的风格化。由于CLIP嵌入同时编码了语义和视觉线索，仅使用文本嵌入进行风格监督可能会引入语义干扰，从而限制了捕捉准确视觉风格的能力。I-PIN通过结合风格图像来减轻语义干扰，并鼓励风格参数反映真实的视觉统计特性，从而解决了这个问题。通过将基于真实图像的风格分布与文本嵌入相结合，I-PIN生成了与真实世界风格变化更一致的风格转换。这些优化后的风格参数存储在风格记忆库中，用于后续的随机化阶段。

在第二阶段，从记忆库中抽取的风格通过线性插值混合，以创建新的风格变体。为了有效地从这些多样化的风格中学习，我们提出了双路径风格不变特征学习（DSFL）来增强分割的鲁棒性。尽管领域随机化增加了风格多样性，但模型在面对同一图像的不同风格化版本时仍可能面临预测不一致的问题。此外，即使在单一风格内，分割输出也可能在对象边界或遮挡区域表现出空间不一致性。为了解决这些挑战，DSFL包括两个互补的学习目标：风格间一致性学习和风格内一致性学习。风格间一致性学习确保同一图像在不同风格下产生一致的预测结果，从而防止模型过度拟合于特定领域的特征。我们通过应用Jensen-Shannon（JS）散度损失来达到这一目标，该损失比较同一图像的两个不同风格化版本的输出，鼓励模型关注语义内容而非表面风格变化。此外，风格内一致性学习确保同一风格内的空间一致性，确保预测在语义区域内保持稳定。标准的分割模型在面对噪声、遮挡或不同光照条件时往往无法保持类区域内的平滑空间关系。为了解决这个问题，我们引入了按类别的总变异（TV）损失，通过最小化属于同一类的相邻像素之间的变化来强制空间对齐。这种正则化防止了在均匀区域内分割输出的突然变化，即使在具有挑战性的条件下也能保持结构化的特征表示。

这种双重一致性框架实现了鲁棒的领域不变学习，提高了对未见过的领域的泛化能力。我们的广泛实验证明了ITSR在多种场景中的有效性。实验结果表明，我们的方法在领域泛化的语义分割中始终优于之前的最先进方法，验证了我们两阶段框架的鲁棒性。

本工作的关键贡献如下：

•

我们提出了一种新颖的图像提示驱动的实例规范化（I-PIN）方法，通过整合视觉和文本信息来增强风格迁移。与仅依赖文本的提示驱动的实例规范化（PIN）[11]不同，I-PIN使用两种模态来优化风格参数，实现了更精确和多样化的风格化，更好地捕捉了真实世界的领域变化。

•

我们引入了双路径风格不变特征学习（DSFL），其中风格间一致性确保了不同风格之间的一致预测结果，而风格内一致性保持了同一语义类别内的局部空间一致性。

•

我们通过跨多个领域的全面实验证明了该方法优于现有的最先进方法。

章节片段

领域泛化

领域泛化旨在使模型在训练期间无需任何目标领域数据即能在未见过的领域中表现良好[18]、[19]、[20]、[21]。在语义分割中，领域泛化方法通常分为两大类：规范化和白化（NW）方法和领域随机化（DR）方法。NW方法[[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[22]试图通过

初步介绍

自适应实例规范化（AdaIN）[29]是一种风格迁移方法，它将内容图像和风格图像之间的特征统计信息对齐。给定一个内容特征图

和一个风格特征图

，AdaIN通过以下操作调整通道间的均值和标准差以匹配风格特征：

其中

和

分别表示通道间的均值和标准差操作。样本平均是在空间上进行的。这个过程保留了语义信息

数据集

我们在涵盖真实世界和合成场景的多个数据集上评估了我们的方法。我们遵循Cityscapes [36]定义的19类语义分割类别来进行跨领域的评估。性能使用平均交并比（mIoU）来衡量所有语义类别。

真实世界数据集。我们的评估包括四个真实世界数据集。Cityscapes [36]是一个包含2975张训练图像和500张验证图像的德国城市街道场景数据集。

结论

在本文中，我们通过一个新颖的两阶段框架解决了语义分割中的领域泛化挑战。我们的框架引入了图像提示驱动的实例规范化（I-PIN）和双路径风格不变特征学习（DSFL），以解决现有方法在捕捉真实世界风格多样性和实现领域不变特征表示方面的局限性。I-PIN利用风格图像和文本提示来产生准确且多样的风格

CRediT作者贡献声明

李俊浩：撰写——审阅与编辑，撰写——原始草稿，方法论，形式分析，概念化。尹智秀：撰写——审阅与编辑，撰写——原始草稿，可视化，方法论，形式分析。金智松：撰写——原始草稿。崔俊元：撰写——审阅与编辑，撰写——原始草稿。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

李俊浩于2018年从韩国首尔汉阳大学获得电气工程学士学位。他目前正在汉阳大学攻读博士学位。他的研究兴趣包括强化学习、领域适应和自动驾驶的领域泛化。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号