基于图像数据的城市场景理解中异常分割的研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月13日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　异常分割方法在开放世界场景中的分类与评估研究，提出基于内在动机的四类方法框架，并验证其有效性。

　　
本文针对语义分割领域长期存在的开放世界场景适应性不足的问题，系统梳理了异常分割（Anomaly Segmentation, AS）领域的研究进展，提出了基于方法核心动机的四分类框架，并进行了多维度实验验证。研究团队由张宇轩、王术超、石振波、杨伟等学者组成，隶属于中国科学技术大学计算机科学与技术学院。

一、研究背景与核心问题
语义分割作为计算机视觉的基础任务，在自动驾驶、医疗影像等领域取得显著进展。然而传统方法存在三大缺陷：首先，依赖封闭式类别的训练数据（如Cityscapes仅包含8类常见物体），导致模型无法有效识别训练集外的未知物体；其次，基于像素的分类范式（Pixel-wise Classification）难以捕捉物体间的拓扑关系，容易产生误检；最后，现有分类体系存在逻辑重叠与边界模糊问题，例如同时使用生成对抗网络（GAN）和流模型（Flow-based Models）的方法常被归入同一类别，而其实际机理存在本质差异。

研究团队通过系统分析发现，当前异常分割方法存在三大痛点：1）分类标准主要基于训练范式（监督/无监督）而非方法动机，导致概念混淆；2）传统分类体系（如[37][38]的五分类法）无法涵盖最新方法（如掩码分类范式）；3）缺乏对方法性能的横向比较，难以指导实际应用。

二、方法论创新与分类体系
研究提出动机驱动的四分类框架，突破传统分类局限：

1. 判别式方法（Discriminative Approach）
基于现有语义分割模型（如FCN、U-Net）输出特征进行判别。典型技术包括：
- 预测结果分析（如最大Softmax概率法[40]）
- 隐式特征提取（如编码器输出特征[44]）
- 像素级异常评分（如异常检测网络[19][46]）

该类方法优势在于计算效率高，可直接复用成熟分割模型。但存在两个主要局限：对上下文关系建模不足，导致小目标或复杂背景场景的误判率较高。

2. 生成式方法（Generative Approach）
通过引入生成模型构建正负样本分布：
- 生成对抗网络（GAN）[48]：通过重建正常区域生成异常特征
- 正则化流模型（Flow-based Models）[51]: 建立像素级概率分布
- 神经扩散模型（Diffusion Models）[103]: 实现高质量异常样本生成

此类方法在生成逼真异常样本方面表现突出，但存在两个技术瓶颈：生成效率与计算资源消耗呈正相关；对复杂场景（如遮挡、光照变化）的鲁棒性有待提升。

3. 异常暴露方法（Outlier Exposure Approach）
通过对抗训练构建开放世界环境：
- 混合数据集构建（如Cityscapes+A2D2数据融合）
- 自监督对比学习（Contrastive Learning）[58]
- 领域自适应训练（Domain Adaptation）[59]

实验表明，该方法在模拟真实开放世界场景时效果显著，但存在两个挑战：1）需要大量标注数据支撑混合数据集构建；2）对抗训练的稳定性对模型性能影响较大。

4. 掩码基方法（Mask-based Approach）
基于Mask-2-Point等先进分割范式：
- 全局掩码分类（Global Mask Classification）[62][70]
- 上下文感知建模（Context-aware Modeling）[72][73]
- 多尺度特征融合（Multi-scale Feature Fusion）[74]

此类方法在复杂场景中表现出色，特别是对半透明物体（如玻璃、薄纱）的分割准确率提升显著。但存在两个技术局限：1）计算复杂度较高；2）对实时性要求场景的适应性不足。

三、实验验证与性能对比
研究团队在多个公开基准（如Anomaly Cityscapes、A2D2、KAIS）上进行了系统对比测试，样本量为200万+。主要发现：
1. 分类范式与性能的关联性：
- 掩码基方法在平均IoU上领先（87.2% vs 82.5%）
- 生成式方法在异常样本生成质量上最优（FID=8.7）
- 异常暴露方法在跨域泛化能力上最强（mAP提升23.6%）

2. 方法性能的关键影响因素：
- 数据表征维度：3D特征模型较2D提升15.2%
- 上下文建模深度：包含注意力机制的模型准确率提高18.7%
- 异常样本多样性：涵盖10种以上未知类别时性能提升显著

四、技术挑战与未来方向
当前研究面临三大核心挑战：
1. 开放世界定义不统一：现有数据集多基于特定场景构建，缺乏通用性评估标准
2. 生成-判别平衡难题：生成模型在异常样本生成效率与判别器精度间存在权衡
3. 实时性瓶颈：掩码基方法平均推理时延达128ms，难以满足自动驾驶实时需求

未来研究建议聚焦：
1. 构建标准化开放世界基准（涵盖10+类未知物体）
2. 开发轻量化生成模型（推理速度提升50%以上）
3. 探索自监督异常检测范式（减少标注依赖）
4. 发展可解释性评估体系（建立方法透明度指标）

五、理论价值与实践意义
本研究的理论贡献在于：
1. 建立方法动机的量化评价维度（含5个一级指标、12个二级指标）
2. 揭示不同范式的技术关联性（如生成式方法与流模型的共线性）
3. 提出开放世界适应性评估框架（OWAF 1.0）

实践价值体现在：
1. 为自动驾驶系统提供异常检测方案（误检率降低至0.7%）
2. 建立医疗影像分析新范式（肺结节检测灵敏度达96.3%）
3. 开发工业质检通用平台（缺陷检测准确率提升31.2%）

六、研究特色与创新
1. 动机分类体系：首次建立基于方法底层动机的分类标准，准确率达92.4%（在30个代表性方法上的验证）
2. 综合评估框架：包含4个维度、18项指标的评估体系
3. 跨领域迁移研究：揭示方法在自动驾驶（准确率提升19.7%）、医疗影像（敏感度提高28.3%）等领域的迁移规律

本研究为异常分割领域提供了完整的知识图谱，其分类体系已被纳入IEEE PAMI标准工作组讨论，有望成为领域内通用分类标准。实验数据集已向学术界开放，包含10万张标注图像及5个不同场景的测试集。

联系信箱：

粤ICP备09063491号

热点排行