用于自动驾驶道路感知中毫米波雷达图像增强的结构先验深度学习网络陈Hongyan、黄同辉、王月霞、史佳佳、徐志鹤

《Sensors》：Structural-Prior Deep Learning Network for Millimeter-Wave Radar Image Enhancement in Autonomous Driving Road Sensing Hongyan Chen, Tonghui Huang, Yuexia Wang, Jiajia Shi and Zhihuo Xu

【字体：大中小】 时间：2026年05月10日 来源：Sensors 3.5

编辑推荐：

　　**亮点** - 主要发现是什么？ - 一种自适应的Otsu引导的先验明确区分了显著的雷达目标与背景斑点噪声。 - 连续注意力级联和复合损失函数共同优化了去噪和边缘保持。 **主要发现的意义是什么？** - 该架构在严重的乘性噪声条件下有效缓解了

　　**亮点**
- 主要发现是什么？
- 一种自适应的Otsu引导的先验明确区分了显著的雷达目标与背景斑点噪声。
- 连续注意力级联和复合损失函数共同优化了去噪和边缘保持。

**主要发现的意义是什么？**
- 该架构在严重的乘性噪声条件下有效缓解了过度平滑的退化问题。
- 优异的结构保持能力使得自动驾驶系统能够实现高度可靠的零能见度感知。

**摘要**
- 由于毫米波雷达在恶劣天气条件下的鲁棒性，它在自动驾驶道路感知中发挥着越来越重要的作用。然而，雷达图像本质上受到乘性斑点噪声的污染，这严重降低了结构连续性，削弱了目标边界，并限制了对道路场景和周围物体的感知。为了解决这个问题，本文提出了一种基于结构先验的深度学习网络用于毫米波雷达图像增强。
- 该框架首先引入了一种基于自适应Otsu的掩蔽策略，以提取显著的散射结构并生成一个粗糙的图像结构先验，用于后续的恢复过程。在 этим先验的引导下，网络通过连续注意力机制进行渐进式特征增强，该机制整合了残差通道注意力、上下文感知特征提取和卷积块注意力，从而实现了有效的多尺度表示学习，同时抑制了信号依赖的斑点干扰。
- 此外，通过结合对数去噪增益、总变分正则化和β指数边缘保持项设计了一个复合损失函数，以共同改善噪声抑制、空间平滑度和结构保真度。
- 该方法在合成的UC Merced数据集上进行了评估，并通过跨域推理应用于实际的RADIATE毫米波雷达数据集，以测试其在自动驾驶场景中的性能。实验结果表明，该网络在PSNR、SSIM、β指数和ENL等方面一致优于传统的滤波方法和代表性的深度学习基线方法，同时提供了更好的道路结构、目标轮廓和场景几何形状的保持效果。
- 消融研究进一步确认了结构先验引导和连续注意力设计的有效性。此外，该网络的推理延迟仅为12.35毫秒。
- 这些结果表明，所提出的方法为毫米波雷达图像增强提供了一种有效且鲁棒的解决方案，并为自动驾驶环境中的下游道路场景感知提供了实际价值。

**1. 引言**
- 毫米波雷达已成为自动驾驶、监控和环境监测应用中的重要传感方式[1,2,3,4]。特别是，4D毫米波成像雷达的快速发展引发了关于自动驾驶感知流程的全面综述，突出了雷达的独特鲁棒性以及基于学习的雷达增强作为可靠下游感知前提的重要性[5]。
- 与光学相机和激光雷达相比，毫米波雷达在恶劣条件下具有明显优势。光学传感器容易受到雾、雨和照明不足的影响，而基于激光的系统在大降水时由于大气衰减而性能下降。为了减轻这些环境退化的影响，人们投入了大量研究致力于在恶劣天气条件下的光学图像恢复，例如探索多映射GAN中的模糊先验以实现鲁棒的去雾[6]，以及使用逆雾密度校正先验[7]。尽管这些先进的去雾技术有效地恢复了传统相机的视觉细节，但在极端零能见度场景中，光学系统仍然存在固有的问题。
- 相比之下，雷达依赖于长波长的电磁波传播，因此能够在全天候条件下提供更可靠的感知。这种鲁棒性使得毫米波雷达特别适用于安全关键系统，如智能交通。此外，提高雷达质量直接有利于挑战性驾驶场景中的下游检测，推进了3D特征融合[8,9]、点云集成[10]和LiDAR-雷达BEV范式[11]。
- 超出传统CNN之外，新兴的物理信息神经表示方法表明，在严重损坏情况下嵌入物理先验对于鲁棒的雷达重建至关重要[12,13]。
- 尽管有这些优势，毫米波雷达成像仍面临一个根本性挑战：严重的乘性斑点噪声。与光学图像噪声不同，雷达斑点噪声是信号依赖的，来源于同一分辨率单元内多个独立子散射体返回的回波的相干叠加。由于雷达波长通常与自然和人造表面的宏观粗糙度相当，接收到的后向散射包含随机相位变化，产生建设性和破坏性干扰。因此，斑点噪声具有重尾和空间变化的特征，掩盖了精细结构，削弱了边界对比度，并降低了后续感知算法的可靠性。在实际应用中，这种退化可能导致漏检或误报。因此，毫米波雷达去噪不仅需要有效的噪声抑制，还需要仔细保持稀疏高反射率目标和结构边界。
- 在这种背景下，引入显式的结构先验[14]和自适应特征重新校准对于鲁棒的雷达图像恢复尤为重要。值得注意的是，缺乏真正干净的参考图像的挑战促使了最近在相干成像去斑方面的研究激增，包括盲点自监督学习[15]、具有多时态参考的半监督学习[16]、多时态自监督深度过滤[17]，以及通过自适应多视角策略构建的接近真实数据集的学习[18]。这些研究一致表明，结构保持和域间隙鲁棒性是部署实际雷达感知中的深度去斑模型的核心瓶颈。
- 传统的去噪方法，包括基于局部统计的Lee和Kuan滤波器[19]以及斑点减少各向异性扩散[20]，在抑制雷达斑点方面显示出一定的效果。然而，这些方法通常依赖于经验参数调整和对局部统计的手工假设。在复杂场景中，它们经常过度平滑纹理和弱结构，从而限制了它们保持目标细节的能力。
- 随着数据驱动恢复方法的快速发展，深度卷积模型（如DnCNN[21]和FFDNet[22]）在自然图像去噪任务上取得了显著性能，深度卷积网络逐渐成为雷达图像分析的重要范式[4,23]。在SAR去斑社区中，提出了多种近期深度架构来提高结构保真度，包括用于PolSAR的残差缩放网络[24]、基于先验的结构保持网络[25]、多尺度特征增强网络[26]和使用通用统计样本的多目标训练策略[27]。为了更好地处理相干成像，最近的研究进一步探索了专门的设计，如具有多分辨率注意力的残差孪生网络[28]以及去噪和超分辨率的联合框架[29]。最近，自适应噪声估计框架在未知噪声水平下提高了鲁棒性[30]，而混合Transformer-CNN模型改善了长距离依赖性建模[31]。此外，针对相干成像统计量身定制的损失设计（如对数离散余弦变换约束）有效缓解了过度平滑[32]。此外，管理噪声-结构权衡是所有相干模式共有的挑战。例如，用于超声去斑的特征引导CNN[33]表明，将结构保真度明确纳入损失函数比仅最大化峰值信噪比更为重要。同时，生成模型在斑点抑制方面显示出巨大潜力，包括针对Gamma噪声的条件扩散[34]和扩散-Transformer混合模型[35]。
- 注意力机制也被引入到去噪任务中，以改进特征表示和自适应重新校准[36,37]。尽管这些机制可以增强信息响应，但直接在整个雷达图像上应用注意力对于毫米波雷达数据来说往往效率不高。背景区域通常由密集的斑点和热噪声主导，因此非选择性的特征增强可能会将过多的建模能力分配给杂波，而不是有意义的目标结构。此外，最近的基于Transformer的方法报告了有希望的恢复性能[38,39,40,41,42,43]，但其计算成本和对乘性斑点的有限显式建模仍然是实际实时雷达应用中的障碍。

**受这些观察结果的启发，本文提出了一种用于毫米波雷达图像去噪的结构先验深度学习网络。**
- 虽然显式的结构先验有效，但现有的方法主要是为传统雷达或光学传感器设计的。为了满足自动驾驶的特定要求，我们的关键思想是在深度特征细化之前引入一个专门为毫米波雷达图像设计的结构先验阶段。具体来说，采用了一种自适应的Otsu掩蔽机制，根据毫米波信号的强度分布将显著目标与背景杂波分开。基于这个先验，通过级联残差通道注意力块、上下文感知块和卷积块注意力模块构建了一个连续注意力流，以实现渐进式的多尺度特征增强和噪声抑制。为了进一步平衡去噪强度和结构保真度，通过结合对数去噪增益损失、总变分正则化和β指数边缘保持项设计了一个复合损失函数。

**2. 提出的方法**
- 与在非相干照明下工作的光学传感器不同，毫米波雷达（MWR）是一种主动的相干成像系统。在单个分辨率单元内，发射的电磁波与许多基本散射体相互作用。由于典型目标的表面粗糙度通常大于雷达波长，后向散射的回波表现出随机相位变化。这些回波在接收器处的相干叠加产生了建设性和破坏性干扰，从而产生了通常称为斑点噪声的颗粒现象[44,45,46]。
- 由于这种相干散射机制，斑点不能被建模为简单的加性白高斯噪声。相反，它高度依赖于信号，并受到乘性退化模型的控制。设表示噪声图像，表示干净图像。在空间坐标处的离散成像过程可以表示为：
(1)
其中表示信号依赖的斑点噪声分量。对于完全发展的斑点，统计上假设它遵循具有形状参数L（等效观测次数）和单位均值Γ的Gamma分布。概率密度函数（PDF）由下式给出：
(2)
从贝叶斯角度来看，恢复可以表示为一个最大后验（MAP）估计问题：
(3)
其中表示来自Gamma分布的似然项，表示雷达目标的复杂结构先验。
- 所提出的深度学习框架旨在隐式学习这个高度非线性的先验映射，由网络权重参数化：
(4)

**2.1. 提出的深度网络模型**
如图1所示，提出的网络采用了在图像结构先验层指导下的编码器-解码器架构。从输入的雷达图像开始，首先引入结构先验，以强调场景中的几何组织和显著的结构模式，从而为后续的特征提取和重建提供辅助指导。基于这个先验引导的表示，网络沿着主要的编码路径逐步转换输入特征，然后通过相应的解码路径重建去噪图像。

**3. 实验结果**
- 在合成的UC Merced数据集和实际的RADIATE数据集上进行的大量实验表明，该方法在PSNR、SSIM和β指数方面一致优于代表性的基线方法，同时实现了更优秀的视觉质量、结构保真度和道路场景可解释性。第三种方法是结合了局部和全局跳过路径的技术，该方法支持特征的重用，增强了结构的保留，并改善了信息表示在整个网络中的传输。通过共同利用先前的结构引导、深度特征变换、跨阶段连接和全局残差学习，所提出的架构能够在保持毫米波雷达图像中显著目标结构和边界信息的同时，抑制不希望的干扰。这种设计对于雷达图像恢复任务特别有益，因为在这些任务中，保持结构的连续性和几何完整性至关重要。

2.1.1 基于自适应Otsu的结构先验层
在实孔径毫米波雷达成像中，获取的信号受到乘性散斑噪声、加性热噪声和环境干扰的严重污染。为了在深度特征提取之前减轻这种严重的背景杂乱，引入了基于自适应Otsu的掩蔽阶段。尽管经典的Otsu阈值假设了双峰高斯分布，但它仍然能够提供一个高度可靠的结构先验，尽管雷达噪声特性很复杂。低反射率的背景主要由热噪声主导，这满足了基线假设，而高雷达截面目标与周围杂乱相比产生了显著的强度对比度。这确保了类间方差远远超过由散斑引起的类内方差，从而能够可靠地将强结构散射体与背景噪声分离[47,48]。

设为最大化高反射率目标与噪声主导背景之间类间方差的最优阈值：(5) 其中和分别表示第k类的出现概率和平均强度。

这种方法产生的不是精确的语义分割，而是一个粗略但稳健的结构先验。因此，结构被掩蔽的输入张量定义为：(6) 其中是选择强度超过的像素的指示函数。在操作上，这个指示函数直接作为二进制空间注意力掩模应用于输入域。通过与原始噪声图像进行逐元素乘法，它明确地将显著的目标特征与密集的背景杂乱分离开来。然后，得到的掩蔽张量作为后续特征提取流程中初始卷积层的直接输入。

2.1.2 残差通道注意力层
在深度卷积网络中，不同的特征通道分层编码不同类型的信息。对于受到乘性散斑噪声影响的毫米波雷达图像，某些高频通道被噪声主导，而其他通道则保留了关键的结构特征。为了解决这个问题，采用了残差通道注意力块（RCAB）[49]来适应性地重新校准通道级别的响应，选择性地强调信息特征并抑制噪声主导的激活。

设为输入特征图。RCAB首先应用两次连续的ReLU激活的卷积：(7) (8) 其中*表示卷积，是ReLU函数。为了建模通道间的依赖性，应用了通道注意力块（CAB）。通过全局平均池化聚合每个通道的空间信息：(9) 随后，一个具有缩减比例r和sigmoid激活函数的两层多层感知器（MLP）产生注意力向量：(10) 通过逐元素与注意力向量相乘获得重新校准的特征，并添加了局部残差连接：(11) 这种设计使RCAB能够选择性地放大有意义的通道，同时减轻噪声的影响。

2.1.3 上下文感知层
准确提取多尺度上下文特征对于雷达图像恢复至关重要。标准下采样会扩大感受野，但往往会导致关键的高频细节丢失。为了解决这个问题，我们提出了一个上下文感知块（CB），它可以在不降低空间分辨率的情况下捕捉多尺度上下文。

CB通过三个并行的带有膨胀率的RCAB处理输入特征图：(12) (13) (14) 这些多尺度特征沿着通道维度进行连接：(15) 一个点对点卷积将连接的特征投影回原始通道维度，然后添加残差：(16) 这种架构有效地捕捉了多尺度上下文依赖性，同时保持了空间分辨率。

2.1.4 卷积块注意力模块
为了进一步强调显著结构并抑制空间变化的散斑噪声，我们整合了一个卷积块注意力模块（CBAM）[50]，它依次沿通道和空间维度推断注意力。给定一个输入特征图，通道注意力模块（CAM）首先使用平均池化和最大池化聚合空间信息：(17) (18) 这些向量通过共享的MLP传递，并通过sigmoid激活函数组合：(19) 然后，空间注意力模块（SAM）通过沿通道轴的池化生成空间注意力图：(20) (21) 接着，将连接的2D图与卷积核进行卷积，并通过sigmoid函数：(22) 这里，表示通道间的连接，是卷积，?表示逐元素乘法。这种顺序注意力机制允许网络适应性地突出与任务相关的通道和空间区域，同时抑制背景杂乱。

2.1.5 注意力级联的总体算法流程
为了综合上述各个组件，算法1概述了所提出网络的总体前向传递过程。一旦将结构先验掩模应用于初始特征表示，得到的张量就会经历一个渐进的细化过程。级联依次使用RCAB进行通道重新校准，使用上下文感知块进行多尺度上下文聚合，以及使用CBAM进行空间-通道增强。通过以这种渐进的方式构建网络，初始的结构引导自然地传播到更深层次，使模型能够有效抑制散斑噪声，而不影响显著目标的几何完整性。算法1：结构先验引导的连续注意力网络。

2.2 综合损失函数
为了共同优化噪声抑制能力、空间平滑度和边缘保留，目标函数被构建成三个互补项的加权组合：对数去噪增益损失、各向同性总变分正则化和基于-指数的边缘保留项。

设、和分别表示噪声输入图像、干净的参考图像以及网络预测的重建图像，其中是空间坐标，和。为了符号简便，我们将图像的整个空间域定义为。

2.2.1 对数去噪增益损失
传统的均方误差（MSE）直接惩罚在信号依赖的乘性散斑下可能导致梯度行为不佳。为了更好地表征相对噪声抑制能力并提高数值稳定性，我们用对数域中的残差能量减少比率来衡量去噪过程。

设和分别表示网络输出和噪声输入的空间均方误差：(23) (24) 因此，对数去噪增益（DG）损失定义为 (25) 这种对数公式在类似分贝的对数域中测量残差误差比率，压缩了优化目标的动态范围，并在存在严重乘性波动的情况下提高了反向传播的数值稳定性。

2.2.2 各向同性总变分正则化
虽然DG损失限制了全局残差能量，但它并没有明确调节重建图像的局部空间结构。为了在保留有意义的结构过渡的同时抑制孤立的波动，引入了各向同性总变分（TV）正则化项。

使用水平和垂直离散梯度算子和，定义为和，整个空间域上的局部各向同性梯度幅度惩罚被定义为：(26) 在当前工作中，设置为以确保当局部梯度幅度接近零时的数值稳定性和可微性。

2.2.3 -指数边缘保留损失
为了进一步限制网络保留高频边缘信息，将基于-指数的边缘保留项纳入损失函数中。

设和分别表示干净图像和重建图像的拉普拉斯滤波后的高频成分。它们对应的空间平均值定义为和。为了简洁起见，我们将去均值后的高频成分定义为：(27) (28) 使用这些中心化的量，交叉相关项定义为：(29) 同样，相应的自相关能量由给出：(30) (31) 因此，-指数定义为 (32) 由于较大的值表示重建图像的边缘结构与干净图像的边缘结构之间的一致性更好，相应的边缘保留损失被定义为最小化形式：(33)

2.2.4 最终综合目标函数
结合上述三个组件，在网络训练期间优化的最终综合目标函数定义为 (34) 其中和是非负权重系数，用于控制全局残差能量减少、局部空间平滑度和边缘保留之间的权衡。具体来说，总变分损失的权重系数经验性地设置为，边缘保留项的系数设置为0.1。这些值是通过初步粗调确定的。通过监控散斑抑制和结构保真度之间的视觉和定量权衡，选择了这种特定配置，以有效防止过度平滑的伪影，同时确保稳健的边缘保留。详细的中间数学推导和目标函数的完整展开公式在附录A中提供。

3. 实验结果和讨论
3.1 数据集
3.1.1 散斑雷达图像的模拟
使用UC Merced土地利用数据集[51]来构建合成的SAR风格散斑图像。每个光学图像首先被视为干净的反射率图，然后引入乘性相干噪声来模拟SAR散斑的统计特性。设为干净图像。对于每个像素，通过模拟L次独立的复杂散射过程来生成散斑项。在第k次观察中，复数返回的实部和虚部分别从独立的标准高斯分布中采样，即 (35) 其中和是相互独立的，并遵循。然后计算每次观察的瞬时强度贡献为 (36) 通过平均所有观察，获得多观察强度项为 (37) 其中L表示等效的观察次数（ENL）[52]。最后，以振幅形式定义乘性散斑因子为，通过生成模拟的散斑图像 (38) 这种模拟策略与Nakagami/Gamma多观察散斑模型一致，并有效再现了在相干雷达成像中观察到的信号依赖的波动。在实验中，采用了三种ENL设置，即、和，分别代表强、中等和弱散斑条件。随着L的增加，乘性噪声的方差减小，从而得到逐渐更平滑的观察结果。得到的噪声-干净图像对用于监督训练和受控的定量评估。应该注意的是，真实的雷达散斑可能表现出更复杂的空间相关性和系统特定的伪影，这些不是由均匀的Gamma模型完全捕捉到的。因此，在真实世界的RADIATE数据集上进行评估对于验证所提出模型在真实操作条件下的泛化能力和实际效用至关重要。

3.1.2 真实雷达图像
为了在真实的感测条件下评估所提出的方法，采用了RADIATE数据集[53]。该数据集由Heriot-Watt大学使用Navtech CTS350-X毫米波雷达（Navtech Radar，英国Wantage，Oxfordshire）收集，包含了在多种户外环境中获得的真实雷达扫描。雷达的最大感测范围约为100米，范围分辨率为0.175米，角度分辨率约为1.8°。该数据集涵盖了包括城市道路、农村道路和郊区场景在内的各种具有挑战性的场景，从而为评估复杂环境中的去噪性能提供了现实的基准。

3.2 比较方法和实验设置
为了全面评估所提出方法对毫米波雷达图像去噪的有效性，选择了三种代表性的去噪方法进行比较，分别是PPB、SAR-BM3D和DnCNN。
PPB（基于概率块的），由Deledalle等人[54]提出，利用散斑噪声模型下的概率块相似性度量，并通过迭代加权最大似然估计进行去噪。由于它是一种专为乘性散斑噪声设计的代表性基于模型的方法，因此PPB被用作经典统计去噪方法的基准。
SAR-BM3D，由Parrilli等人[55]提出，进一步结合了非局部相似块分组、变换域收缩和基于LLMMSE的加权，实现了强大的散斑抑制能力，同时保留了结构细节。作为最具代表性和有效的传统SAR去噪方法之一，SAR-BM3D被包含为一个强有力的传统基准。
DnCNN，由Zhang等人[21]提出，是一种典型的深度卷积去噪模型，通过卷积特征提取和残差学习来学习残差噪声。与传统的基于模型的方法相比，DnCNN代表了数据驱动的深度学习范式用于图像去噪。将DnCNN纳入比较有助于展示所提出方法相对于广泛使用的深度神经网络基准的有效性。
SAR-Transformer，由Perera等人[43]提出，利用视觉变换器的自注意力机制来捕捉长距离空间依赖性和全局上下文信息，用于散斑减少。作为将变换器架构应用于雷达图像的开创性工作，SAR-Transformer被包含为最新最先进的基于注意力的深度学习方法的代表基准。
CL-SAR，由Fang等人[42]提出，引入了一个自监督的对比学习框架，结合了多尺度去斑网络来抑制散斑，而不需要干净的参考图像。由于CL-SAR代表了在无监督表示学习和对比优化方面针对真实雷达数据的最新进展，因此它被采纳为一个尖端的现代基准方法。总体而言，这五种比较方法代表了多种不同的技术范式，分别是基于概率模型的去噪、非局部协作过滤、深度卷积学习、基于变压器的全局注意力建模以及自监督对比学习。因此，它们为评估所提出的方法提供了非常全面和具有代表性的基准，可以与之进行比较的既有经典方法也有现代最先进的方法。本研究中使用的实验配置在表1中进行了总结。所有训练和推理实验都在同一平台上进行，以确保不同方法之间的公平比较。在训练过程中，所有模型都使用Adam优化器进行优化，并采用了所提出的复合损失函数。批量大小设置为4，网络训练了200个周期。除非另有说明，所有比较和消融研究中都使用相同的实验设置。表1. 实验配置。

3.3. 在合成数据上的实验
去噪性能在合成噪声条件下使用UC Merced土地利用数据集进行评估。该数据集包含1100张高分辨率图像，覆盖21种土地利用类型，如机场、城市区域和高速公路，提供了多样的结构和纹理变化。这些图像被随机分为880个训练样本和220个测试样本。
图2、图3和图4展示了在三种代表性的斑点强度下（强、中和弱）重建图像的全面视觉比较：强、中和弱退化场景。通过选择包含独特几何结构和丰富纹理模式的复杂土地利用场景，这些可视化结果明确展示了每种算法如何在均匀噪声抑制和高频边缘保留之间进行严格的权衡。具体来说，定性评估突出了相应模型在不同噪声水平下从严重受损的观测数据中恢复清晰目标轮廓、明显区域边界和精细拓扑细节的能力。图2. 在ENL = 1时不同方法的斑点抑制结果视觉比较。图3. 在ENL = 4时不同方法的斑点抑制结果视觉比较。图4. 在ENL = 16时不同方法的斑点抑制结果视觉比较。主观视觉分析揭示了所比较的去噪方法的局限性。具体而言，PPB和DnCNN未能提供足够的斑点抑制，在均匀区域留下了明显的残余噪声。相比之下，SAR-BM3D实现了更强的噪声减少，但在ENL = 16的情况下，它倾向于引入过度平滑，这降低了边缘的清晰度并抑制了精细的结构细节。此外，尽管SAR-Transformer有效地抑制了斑点，但它严重牺牲了整体图像的清晰度，并使结构边界变得模糊。同样，虽然CL-SAR实现了激进的噪声减少，但它不可避免地破坏了精细的纹理细节和拓扑特征。相比之下，所提出的深度学习网络在噪声抑制和细节保留之间取得了更优的平衡，有效地减少了斑点，同时保持了结构完整性和边缘连续性。
需要注意的是，图2、图3和图4中的红色框不仅用于突出视觉比较的代表性局部区域，也作为SSIM评估的感兴趣区域。换句话说，局部SSIM值是在红色框内的区域上计算的，以定量评估关键细节区域的结构相似性保持情况。这种设计使SSIM测量更关注于信息丰富的结构，如边缘、边界和小目标，而不是被大面积的均匀背景区域所主导。

如表2所总结的，随着ENL从1增加到16，所提出的深度学习网络表现出明显且一致的性能提升。具体来说，平均PSNR从24.49 dB增加到30.43 dB，绝对增益为5.94 dB，而平均SSIM从0.675增加到0.868，绝对改善为0.193。这些结果表明，随着斑点水平的减弱，所提出的模型能够更忠实地恢复图像结构并产生更高质量的恢复效果。总体而言，定量结果进一步证实了所提出的深度学习网络在不同噪声条件下的鲁棒性和有效性。表2. 不同ENL水平下学习网络的平均定量性能。表3总结了在UC Merced数据集上使用PSNR和SSIM在不同斑点水平下的定量结果。定量分析显示，结构优先深度学习网络在各种退化强度下实现了噪声减少和结构保留之间高度竞争性和鲁棒的平衡。表3. 在UC Merced数据集上的去噪结果。在等效观测次数为一的严重斑点噪声下，所提出的网络在PSNR上达到了27.35 dB，在SSIM上达到了0.681。尽管最近的CL-SAR基线在SSIM上略有提高，达到0.693，但其极低的PSNR（11.53 dB）表明了严重的全球信号退化和强度失真。因此，所提出的架构成功保持了结构真实性，而没有牺牲整体图像质量。
在等效观测次数为四的中等噪声条件下，所提出的网络仍然提供了最佳的重构质量，具有最高的PSNR（27.76 dB）和最高的SSIM（0.735）。即使在等效观测次数为十六的相对温和的噪声情况下，所提出的网络仍然表现优越，分别在PSNR和SSIM上达到了29.10 dB和0.794。
与经典滤波器和包括SAR-Transformer和CL-SAR在内的最近深度学习模型相比，我们方法在所有设置下的更强综合性能表明，所提出的架构在去除斑点的同时更有效地保留了结构信息和感知一致性。这些结果证实了所提出的结构优先深度学习网络在不同噪声强度下的鲁棒性和泛化能力。

3.4. 在真实雷达数据上的实验
虽然合成评估提供了一个受控的基准，但它们依赖于理想化的斑点分布，这本质上无法捕捉实际雷达成像中的复杂、异构杂波。为了弥合这一差距并彻底展示真实世界的泛化能力，我们将验证扩展到了RADIATE数据集。重要的是要强调，我们提出的网络是在合成UC Merced数据集上严格训练的，从未在RADIATE数据集上进行过微调。因此，所有在真实世界RADIATE数据上的性能评估都代表了直接的跨域推理。这种迁移能力明确验证了所提出的基于结构优先的架构在处理未见过的真实雷达杂波时的强大泛化鲁棒性。通过评估来自农村、郊区和密集城市场景的代表性扫描，我们测试了网络在处理高度多样化的结构复杂性和杂波轮廓方面的性能。为了确保评估真实世界毫米波雷达数据的等效观测次数的统计有效性和科学严谨性，我们严格限制了计算范围在高度均匀的局部区域。在包括城市和郊区道路场景在内的多种场景中，手动选择了没有车辆、车道标记和强角反射器的平坦沥青表面。这种严格的选取协议有效地将残余斑点方差与潜在的结构几何形状分离出来。因此，测量的ENL准确地反映了真实的噪声抑制能力，而不是由于过度平滑目标细节引起的人为膨胀。
图5、图6和图7展示了在三种代表性场景（即郊区、城市和农村道路）中收集的真实雷达图像的去噪结果。在所有三种场景中，所提出的深度学习网络在斑点抑制和结构保留之间取得了更优的平衡。图5. 农村道路场景的去噪结果。左列显示了完整的雷达图像，而右列显示了对应左列图像中红色框突出区域的放大视图。(a) 噪声图像，(b) PPB，(c) SAR-BM3D，(d) DnCNN，(e) SAR-Transformer，(f) CL-SAR，(g) 所提出的网络。图6. 城市道路场景的去噪结果。左列显示了完整的雷达图像，而右列显示了对应左列图像中红色框突出区域的放大视图。(a) 噪声图像，(b) PPB，(c) SAR-BM3D，(d) DnCNN，(e) SAR-Transformer，(f) CL-SAR，(g) 所提出的网络。图7. 郊区道路场景的去噪结果。左列显示了完整的雷达图像，而右列显示了对应左列图像中红色框突出区域的放大视图。(a) 噪声图像，(b) PPB，(c) SAR-BM3D，(d) DnCNN，(e) SAR-Transformer，(f) CL-SAR，(g) 所提出的网络。在图5所示的农村场景中，雷达回波主要表现为拉长的道路边界和规则分布的明亮散射点。PPB减少了部分背景波动，但残余斑点仍然明显，局部结构仍然模糊。SAR-BM3D和DnCNN进一步减少了噪声，但两种方法在放大区域引入了过多的平滑，导致弱线性结构和离散散射响应变得难以区分。此外，尽管SAR-Transformer实现了平滑的背景，但它严重模糊了拉长的道路边界。同时，CL-SAR虽然积极抑制了噪声，但引入了明显的拓扑扭曲。相比之下，所提出的深度学习网络更清晰地保留了平行边界结构和排列的明亮散射点，同时显著减少了背景斑点。这表明所提出的方法能够在相对规则的道路场景中更好地保持精细的结构连续性。
如图6中的城市场景所示，由于密集的杂波、强烈的多路径反射和众多异质散射体，背景变得更加复杂。在这种条件下，放大区域包含更丰富的局部细节和更多不规则的高强度响应。PPB留下了明显的残余噪声，而SAR-BM3D和DnCNN倾向于过度平滑场景并模糊了显著目标的边界。此外，SAR-Transformer牺牲了整体图像的清晰度，将复杂的城市目标变成了模糊的区域，而CL-SAR严重扭曲了异质散射体的精细纹理。相比之下，所提出的深度学习网络更清晰地保留了平行边界结构和排列的明亮散射点，同时显著减少了背景斑点。这表明所提出的方法能够在相对规则的道路场景中更好地保持精细的结构连续性。
如图6中的城市场景所示，由于密集的杂波、强烈的多路径反射和众多的异质散射体，背景变得更加复杂。在这种情况下，放大区域包含更丰富的局部细节和更多不规则的高强度响应。PPB留下了明显的残余噪声，而SAR-BM3D和DnCNN倾向于过度平滑场景并模糊了显著目标的边界。此外，SAR-Transformer牺牲了整体图像的清晰度，将复杂的城市目标变成了模糊的区域，而CL-SAR严重扭曲了异质散射体的精细纹理。相比之下，所提出的深度学习网络仍然保留了类似车道的边界、类似角的明亮响应和局部散射结构，具有更高的对比度，显示出在高度杂乱和结构复杂环境中的更强鲁棒性。
在图7所示的郊区场景中，场景包含稀疏但突出的散射结构，以及扩展的背景波动。尽管整体杂波密度低于城市场景，但目标轮廓和线性特征相对较弱，在去噪过程中容易被过度平滑。PPB提供的噪声抑制有限，而SAR-BM3D和DnCNN在去除大量斑点的同时，以减弱突出区域中的重要结构信息为代价。同样，SAR-Transformer过度平滑了突出的散射结构，而CL-SAR破坏了弱线性特征的拓扑完整性。相比之下，所提出的深度学习网络更有效地保留了主要的散射轮廓和拉长的响应，同时保持了更干净的背景。这表明所提出的方法也能处理具有稀疏结构和低纹理背景的场景。
总体而言，郊区、城市和农村环境中的视觉比较验证了所提出的深度学习网络对不同真实雷达场景的更强适应性。与竞争方法相比，它在保留有意义的结构细节的同时，更一致地抑制了斑点，特别是在红色框标记的放大局部区域。
表4比较了三个真实雷达场景中的-SI和ENL值。-SI定量测量去噪后边缘对比度的保持情况，反映了方法在抑制斑点的同时保持清晰结构过渡的能力。ENL表征了均匀区域中的平滑度，其中较高的值通常表示更强的斑点抑制能力。这一度量对于基于雷达的感知任务尤其相关，因为在这些任务中，边缘完整性直接影响下游的对象检测和场景理解。表4. 在真实雷达图像上的定量评估结果。定量分析揭示了在评估方法之间噪声减少和结构保真度之间的复杂权衡。尽管SAR-Transformer实现了最高的ENL值，但视觉检查表明这是以严重的模糊伪影为代价的，这些伪影掩盖了关键的道路细节。同样，虽然CL-SAR表现出较高的-SI分数，但它倾向于强行平滑边缘区域，导致明显的图像失真和重要纹理细节的丢失。相比之下，所提出的网络在所有场景中实现了最理想的平衡。它有效地抑制了背景杂波，同时保持了最高程度的结构真实性和边界清晰度，从而为下游感知任务提供了更可靠的基础。
所提出的深度学习网络在复杂场景中的强大性能在很大程度上是由基于Otsu的掩蔽模块驱动的。作为一个早期的硬性注意力过滤器，它明确地将高反射目标与密集的背景杂乱区分开来。这种关键的分离防止了非平稳噪声破坏训练梯度，使得连续的注意力流能够专注于保留高频结构细节。因此，所提出的架构有效规避了传统和最新最佳技术方法中典型的视觉失真和过度平滑问题。3.5. 消融研究 3.5.1. 在合成数据上的评估消融研究的第一层是在L=4的噪声水平下对合成UC Merced数据集进行的。由于合成数据拥有绝对无噪声的参考图像，因此可以使用全参考指标（即PSNR和SSIM）进行严格的像素级和结构保真度评估。表5报告了在八种不同模块配置下的性能。表5. 在合成UC Merced数据集上不同模块组合的消融研究。缺乏所有注意力模块的基线模型获得了最低的PSNR和SSIM。逐步集成各个模块显著提高了恢复保真度。值得注意的是，CB扩展了感受野，CBAM突出了显著区域，而RCAB增强了通道间特征的重校准。此外，即使在保留所有深度注意力模块的情况下，明确移除Otsu结构先验层也会导致性能显著下降，PSNR从31.38 dB降至30.37 dB。这一下降证实了早期结构引导对于防止非平稳噪声破坏深度特征表示至关重要。完整的结构先验深度学习网络架构在可控的Gamma分布条件下实现了最高的PSNR，为31.38 dB。3.5.2. 在真实雷达数据上的评估虽然合成数据评估是基础，但现实世界的毫米波雷达数据表现出复杂且空间多变的杂乱环境，同时本身缺乏清晰的参考图像。因此，第二层使用已建立的无需参考的指标，在真实世界的RADIATE数据集上评估这些模块，针对城市道路场景。具体来说，使用ENL来衡量均匀噪声抑制，而使用-指数来量化边缘保持能力。为了确保在异质城市杂乱环境中的科学严谨性，我们严格将计算限制在高度均匀的局部区域。手动选择了没有车辆、车道标记和强角反射器的平坦沥青表面，以将残余斑点方差与底层场景几何结构区分开来。这一严格的协议确保报告的ENL反映了真实的噪声抑制效果，而不是由于过度平滑目标细节而造成的人为膨胀。与合成结果一致，表6显示所有四个模块的协同作用对于实际部署至关重要。关键的是，当移除Otsu结构先验层时，边缘保持指标下降到0.427，背景平滑度指数降至28.3。这一定量下降验证了我们的假设：预先将显著目标与背景杂乱区分开来对于防止后续连续注意力流向噪声分配过多的建模能力是根本必要的。省略空间-通道联合注意力模块导致边缘保持和深度特征块的整体平滑度都出现了最显著的下降。具体来说，-指数从0.445降至0.360，ENL从30.2降至22.4。这种双层次评估巩固了这样一个结论：结构先验引导与所提出的连续注意力流的结合在理论保真度和实际解释性方面都是强大且不可或缺的，适用于复杂的雷达场景。表6. 在真实世界的RADIATE数据集上不同模块组合的消融研究，用于城市场景。3.6. 关于领域转换和泛化分析讨论结构先验深度学习网络的训练到测试范式是必要的，这本质上涉及到显著的领域转换。由于获取真实世界毫米波雷达的绝对干净参考图像基本上是不可能的，因此该网络仅在受到模拟乘性斑点污染的高分辨率光学图像上进行训练。因此，将这个预训练模型应用于真实的RADIATE数据集构成了一个零样本跨域推理任务。所提出架构的成功泛化主要归功于明确的结构先验和几何感知的复合损失函数。通过强制网络关注不变的拓扑特征和结构边界，而不是仅仅过度拟合合成噪声分布，这些组件有效地弥合了光学模拟和真实世界雷达感知之间的差距。这一范式表明，在没有真实训练标签的情况下，结构先验引导为雷达图像增强提供了强大且实用的解决方案。3.7. 计算复杂性分析为了评估所提出网络在实时道路感知中的实际适用性，我们提供了计算复杂性的详细比较。评估包括可训练参数的数量、GMac中的乘积累操作数量以及每张图像的平均推理时间。所有测量都是在配备了NVIDIA GeForce RTX 4060 GPU的硬件平台上进行的。表7中的比较分析突出了结构先验深度学习网络在不同技术范式下的效率。传统的基于模型的方法如PPB和SAR-BM3D不涉及可训练参数，但由于密集的迭代优化过程，它们的推理延迟明显更高。在深度学习模型中，虽然SAR-Transformer表现出较低的乘积累指标，但其参数负担却超过了2400万。这一巨大的内存占用显著阻碍了其在自动驾驶车辆中内存受限的边缘设备上的部署。相反，CL-SAR的计算延迟过高，每帧需要82.80毫秒。相比之下，结构先验深度学习网络保持了335.9万个轻量级的参数数量，并实现了12.35毫秒的快速推理时间。这种内存占用和处理速度的最佳平衡有效规避了最近最先进模型中典型的部署瓶颈，满足了自动驾驶系统的实时感知需求。表7. 计算复杂性和推理效率的比较。4. 结论本文提出了一个基于结构先验的深度学习框架，用于自动驾驶道路感知中的毫米波雷达图像增强。为了解决严重的背景干扰和信号依赖的乘性斑点问题，所提出的方法将图像结构先验层纳入了一个统一的编码器-解码器架构中，并结合了基于连续注意力的特征细化。通过在深度特征转换之前引入先验结构引导，并将渐进式特征增强与全局信息保留相结合，所提出的网络有效地抑制了斑点污染，同时保持了显著的目标结构、边界信息和场景几何形状。此外，还设计了一个复合损失函数，整合了对数去噪增益、总变分正则化和-指数边缘保持项，以共同改善噪声抑制、空间平滑度和结构保真度。在合成和真实毫米波雷达数据集上的实验结果表明，所提出的方法在PSNR、SSIM和-指数方面始终优于比较的基线方法，包括最近的基于Transformer的模型。定性比较进一步表明，所提出的框架在不同道路环境下的干扰抑制和结构保留之间实现了更优的平衡。消融研究也验证了结构先验引导和连续注意力设计在提高恢复性能方面的有效性。此外，计算复杂性分析确认了所提出的网络保持了轻量级的参数数量（仅为335.9万个）和快速的推理延迟（12.35毫秒），有效克服了关注度高的架构通常具有的巨大内存负担。总体而言，所提出的框架为毫米波雷达图像增强提供了一种有效且强大的解决方案，并为自动驾驶场景中的下游道路场景感知提供了实际价值。

热点排行