在恶劣天气条件下，通过跨领域数据融合和混合监督方法实现单目深度估计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Monocular depth estimation in adverse weather via cross-domain data fusion and hybrid supervision

【字体：大中小】 时间：2026年01月28日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　提出HybridDepth框架，通过整合真实数据、GAN增强数据和合成数据，结合视觉与IMU信息，解决恶劣天气下单目深度估计的尺度漂移和域差异问题，在多个基准测试中优于基线方法。

Jia Yu|Xiaxu Huang|Lei Liu|Zhonghao Zuo

北京科技大学，北京，100000，中国

摘要

单目深度估计对于自动驾驶感知至关重要，然而现有模型在雨雪等恶劣天气条件下的性能会显著下降。这一限制主要源于：（1）真实世界恶劣天气数据的稀缺性，（2）合成图像与真实图像之间的严重领域差异，以及（3）自监督学习中的运动引起的尺度漂移。为了解决这些问题，我们提出了HybridDepth，这是一个统一的框架，它结合了真实数据、生成对抗网络增强数据以及合成数据，并紧密耦合视觉和惯性测量单元的线索，以实现鲁棒的全天气深度估计。HybridDepth整合了三个互补的数据领域：真实世界数据、通过自监督光度一致性优化的生成对抗网络增强数据，以及带有真实深度信息的合成数据。为了减轻尺度漂移，我们通过融合视觉特征和惯性测量单元的测量结果来强制实现运动一致性。对于领域适应，我们引入了梯度反转层来学习领域不变的表示，并采用基于指数移动平均的动态损失加权策略来平衡监督学习和自监督学习的目标。与MonoViT基线相比，HybridDepth在多个恶劣天气基准测试中实现了高达5%的绝对相对误差降低，在雨、雾和雪等条件下的表现始终优于现有最先进方法。这些结果凸显了HybridDepth作为自动驾驶中鲁棒、可扩展和可靠的全天气深度感知范式的潜力。

引言

深度估计是感知计算中获取3D信息的基本技术，在自动驾驶、机器人感知和3D重建等领域都有广泛的应用。对于自动驾驶车辆而言，这项技术通过实时3D场景解析实现了对环境的精确理解，包括动态物体（如车辆、行人）的相对位置和距离测量，从而确保了操作安全性。在机器人系统中，它有助于地形映射和目标物体几何结构的分析，这对于可靠的导航和操控至关重要。在3D重建流程中，深度估计可以将二维图像中的目标恢复为三维几何模型，实现复杂场景的准确几何表示。

目前，主流的深度估计技术包括激光雷达（LiDAR）、结构光等主动感测方式。其中，单目视觉解决方案因其硬件成本效益和强大的环境适应性而受到了广泛关注。当代单目深度估计方法主要分为三类：（1）利用真实深度数据的监督方法，（2）基于光度重投影损失的自监督方法，以及（3）半监督的多模态融合技术。尽管这些方法在理想条件下表现良好，但在恶劣天气场景下存在明显局限性。监督学习需要大规模的极端天气场景标注数据集，而收集这些数据成本非常高昂。自监督方法在降水（如雨、雪）条件下常常失效，因为雨滴和雪花会引入随机运动和外观变化，导致光度一致性破坏，从而引起显著的尺度漂移。虽然多模态融合技术更为鲁棒，但仍容易受到传感器噪声（如惯性测量单元IMU的热漂移）的影响。

这些失败模式直接转化为现实世界的安全风险：在雪地场景中深度估计不足会缩短制动距离预测，错误估计的物体尺度可能导致错误的避碰操作，而运动引起的深度漂移可能会破坏跟踪和规划等下游模块的稳定性。这一问题在现实世界的道路安全统计数据中得到了体现：美国联邦公路管理局报告称，恶劣天气每年导致大约

7.4 \times 1 0^{5}

起事故，其中包括低能见度条件（如雾和吹雪）（美国联邦公路管理局，2025年）。因此，在恶劣天气条件下提高深度估计的可靠性不仅是性能目标，也是确保自动驾驶系统操作安全的核心要求。

为了解决这些挑战并提高在非理想天气条件下的深度估计性能，我们提出了HybridDepth，这是一个结合了跨领域数据集和混合监督机制的新框架。我们的方法在真实清晰天气图像上使用自监督学习，并利用GAN（生成对抗网络）合成的恶劣天气图像，同时结合来自IMU的物理尺度姿态信息通过EKF（扩展卡尔曼滤波器）来约束相机运动并稳定训练。此外，还使用CARLA仿真平台（Dosovitskiy等人，2017年）生成的带有深度标注的合成数据集进行监督学习。HybridDepth将真实数据、GAN增强数据和合成数据整合在一个联合训练流程中，采用双重监督范式，结合了IMU辅助的自监督学习和真实深度监督。具体来说，GAN增强数据和合成数据缓解了真实极端天气标注的稀缺性问题，IMU测量结果确保了自监督学习中的运动一致性，而合成深度的真实值提供了高精度的监督，以实现模型的鲁棒收敛。

我们强调，这项工作的主要贡献在于系统层面的方法整合，而不仅仅是提出全新的算法模块。虽然像基于GAN的增强、IMU-视觉融合和梯度反转层这样的单个组件已经被独立研究过，但之前没有将它们统一到一个专门为恶劣天气单目深度估计设计的连贯框架中。新颖之处在于如何通过精心设计的数据流程、损失平衡和领域适应来协调这些现有技术，以实现单个组件无法单独实现的鲁棒性。这项工作的核心贡献包括：

(1) 统一的多领域训练范式：我们将多个互补的数据源——真实世界图像、GAN合成的恶劣天气数据和CARLA虚拟场景——整合到一个联合训练流程中。这种系统级设计使模型能够利用每个数据领域的优势（真实性、多样性和真实值的可用性），同时基于IMU的运动约束提供了跨领域的度量尺度一致性。

(2) 协调的领域适应策略：我们采用梯度反转层（GRL）来学习领域不变的表示，并将其与基于指数移动平均（EMA）的动态损失加权方案结合。它们在我们的混合监督框架中的协同部署有效地平衡了监督学习和自监督学习的梯度，减轻了合成数据与真实数据之间的差异。

(3) 实用的边缘感知损失加权：我们利用Sobel边缘响应派生的梯度注意力图来加权自监督光度损失，将优化方向引导到在恶劣天气下光度线索仍然可靠的纹理丰富区域。这是一个实用的工程选择，补充了系统设计。

本文的其余部分组织如下：第2节回顾相关工作，第3节介绍提出的HybridDepth框架，第4节报告实验结果，第5节讨论发现和局限性，第6节总结本文。

节选

自监督MDE

自监督深度估计的核心原理是利用视频序列中的光度一致性来构建监督信号。Zhou等人（2017年）开创了一个无监督框架，用于联合深度和相机运动估计，通过相邻帧的重建误差来优化网络。Godard等人（2019年）通过Monodepth2进一步发展了这一范式，引入了每像素最小重投影损失和自动遮挡机制，有效减轻了遮挡问题

概述

本文提出了HybridDepth，这是一个为极端天气条件设计的单目深度估计框架，它结合了真实世界数据、GAN增强数据和合成虚拟数据，采用混合自监督和半监督学习范式。该框架保留了Monodepth2（Godard等人，2019年）的编码器-解码器架构，编码器采用了最先进的MonoViT（Zhao等人，2022b）网络设计。对于自监督学习，姿态估计网络

数据集和指标

在本研究中，系统地将三种不同的图像数据源与IMU信息结合用于训练：

真实世界数据：主要数据类别包括通过车载单目相机系统捕获的真实交通场景序列，与相应的IMU测量结果同步。我们的真实世界训练数据集使用了KITTI基准数据集的ROAD子集（Geiger等人，2013年），该数据集提供了包括

讨论

实验结果表明，所提出的混合监督框架能够在恶劣天气条件下提升单目深度估计的性能。我们进行了系统的分析，以确定影响框架效果的关键因素，同时也揭示了其局限性和未来改进的空间。

领域适应、多种数据源和混合监督方法之间的微妙平衡是一项关键任务

结论

本文通过结合真实数据、GAN增强数据和合成数据，在混合监督框架下解决了恶劣天气条件下的单目深度估计问题，并通过IMU引入了基于物理的 motion 约束来减轻挑战性动态条件下的尺度漂移。在多个恶劣天气基准测试中的广泛评估表明，与现有最先进方法相比，该框架表现出持续的改进，特别是在大雨、雾和夜间照明条件下。

从实践者的角度

CRediT作者贡献声明

Jia Yu：撰写——原始草稿、软件、方法论。Xiaxu Huang：撰写——审阅与编辑、监督。Lei Liu：调查、数据整理。Zhonghao Zuo：数据整理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

节选

自监督MDE

概述

数据集和指标

讨论

结论

CRediT作者贡献声明

利益冲突声明

热点排行