融合GAN-CNN的双阶段信号增强与深度学习框架：突破低信噪比环境下波达方向估计的瓶颈

【字体：大中小】 时间：2026年03月08日 来源：Sensors 3.5

编辑推荐：

　　本文系统综述了波达方向（DOA）估计领域在低信噪比（SNR）环境下面临的传统算法与深度学习（DL）模型的性能瓶颈。为解决信号空间信息受损与训练数据有限的关键挑战，作者创新性地提出了一种新颖的双阶段融合框架。该框架的核心在于将生成对抗网络（GAN）用于信号增强，并与一个专门用于DOA估计的复值卷积神经网络（CNN）有机结合。研究表明，所提方法在-10 dB低信噪比条件下实现了72.2%的准确率和3.9°的均方根误差（RMSE），且在仅有50个快拍的情况下仍能保持93.8%的准确率，显著优于传统基线，为雷达、无线通信、声呐等实际应用场景中的鲁棒空间参数估计提供了高效解决方案。

1. 引言

波达方向（DOA）估计是阵列信号处理中的基础性问题，在雷达、无线通信、声呐及声学信号处理中有着广泛应用。传统DOA估计算法主要包括相位比较法、子空间法和最大似然法。其中，多重信号分类（MUSIC）、旋转不变子空间（ESPRIT）等经典子空间法在理想条件下性能优异，但其在低信噪比（SNR）或有限快拍条件下的鲁棒性会严重下降。最大似然法虽有统计效率，但计算复杂度高，限制了其实际应用。近年来，深度学习技术为DOA估计带来了新范式，卷积神经网络（CNN）和循环神经网络（RNN）等模型被用于从阵列数据中直接学习空间特征，但多数深度学习DOA估计器在噪声环境中仍面临性能下降，且缺乏显式的去噪机制。

从计算角度看，传统子空间法的时间到首次估计（TTFE）受限于样本协方差矩阵的累积以及后续的子空间分解和谱搜索，而基于深度神经网络（DNN）的方法则将主要计算负担转移至离线训练阶段，在线推理时通过一次前向传播即可完成，更利于实时部署。本文中的“实时”指具有有界且可预测延迟的在线操作。TTFE可近似为T_TTFE≈ T_win+ T_alg，其中T_win是数据采集窗口，T_alg包括协方差矩阵构建及后续推理处理。因此，任何绝对时间值都依赖于具体场景，不应视为实时DOA估计的通用定义。

在低信噪比和数据稀缺环境下，传统方法的根本局限性推动了信号增强与DOA估计结合的混合数据驱动框架的发展。集成增强-估计框架面临几个核心挑战：在去噪过程中保持相位相干性以保留对DOA估计至关重要的空间相位信息；确保算法对不同噪声类型和SNR条件的鲁棒泛化能力；在增强质量与计算效率之间取得平衡；以及将增强和估计模块有效集成在一个统一框架中。

2. 相关工作

2.1. 传统DOA估计方法

传统DOA估计方法可大致分为基于波束形成、子空间和稀疏表示的方法。波束形成法通过扫描候选角度来评估输出功率准则，实现复杂度相对较低但分辨率有限。MUSIC和ESPRIT等子空间算法通过利用空间协方差矩阵的特征结构实现超分辨，但对低SNR、有限快拍、模型失配和源相干性等实际因素敏感。稀疏方法将DOA估计视为稀疏恢复问题，在有限快拍下有效，但其性能取决于字典分辨率和正则化选择。最近的趋势聚焦于传统DOA/波束形成技术的实时和硬件高效实现，包括现场可编程门阵列（FPGA）并行架构、处理器导向的ESPRIT实现以及适用于全数字架构的相位比较法。尽管如此，传统方法在低信噪比和数据稀缺机制下的固有敏感性，促使了本文所采纳的“增强-估计”范式。

2.2. 深度学习在DOA估计中的应用

深度学习在DOA估计中的应用代表了一种范式转变，神经网络能够学习从阵列数据到源方向的直接映射，从而绕开传统方法的严格统计假设。基于深度学习的DOA估计器可按网络架构、输入表示和学习策略分类。其中，卷积神经网络（CNN）因其从阵列数据的结构化表示中提取空间特征的能力而被广泛应用。常见的方法是将空间协方差矩阵视为二维图像，网络学习的基本映射可表示为θ? = f_CNN(R)，其中R是样本协方差矩阵。为保留对DOA至关重要的相位信息，已开发出采用复数卷积运算的复值CNN。其输出特征图可写为Y = σ(W ? X + b)，其中?表示复数卷积，W和b分别为复数卷积核和偏置项。σ(·)表示非线性激活函数，本文采用对实部和虚部独立施加的分离激活，即σ(Z) = φ(?{Z}) + jφ(?{Z})。

2.3. 生成对抗网络（GAN）用于信号增强

生成对抗网络（GAN）由一个生成器和一个判别器组成，在对抗训练中共同优化。生成器旨在产生与真实数据分布相似的增强信号，而判别器则试图区分增强信号和真实信号。在信号增强应用中，GAN被证明具有强大的去噪和信号完整性保持能力。在音频和语音处理中，基于GAN的增强在抑制噪声的同时保持信号完整性方面表现出卓越能力。然而，GAN在用于DOA估计的阵列信号增强，特别是对准确测向至关重要的空间相位信息保存方面的应用尚未得到充分开发。本文提出的增强GAN架构结合了注意力机制和相位一致性损失函数，以在去噪过程中保留关键的相位信息。

3. 研究方法

本文提出一个新颖的两阶段框架，以应对低SNR条件下DOA估计的挑战。第一阶段为基于GAN的信号增强模块，第二阶段为一个专门设计的用于DOA估计的复值CNN。

3.1. GAN信号增强模块

该模块旨在抑制噪声，同时保留对后续DOA估计至关重要的空间相位信息。生成器网络接收被噪声污染的阵列快照，输出增强信号。判别器则评估增强信号与干净信号之间的相似性。生成对抗损失鼓励生成器产生在统计上与真实干净信号难以区分的输出。为了保留相位，引入了相位一致性损失，该损失惩罚了增强信号与干净信号之间的相位差，这对于维持阵列元件间的精确空间关系至关重要。此外，注意力机制被集成到生成器中，使其能够关注输入信号中具有时间意义的显著分量，从而在噪声抑制和细节保留之间实现更好的平衡。

3.2. 复值CNN用于DOA估计

经过GAN模块增强的信号被转换为协方差矩阵，作为第二阶段复值CNN的输入。该网络专门设计用于处理复数数据，能够保留和利用信号中的实部和虚部信息。网络架构包括多个复数卷积层、池化层和全连接层。复数卷积运算能够学习对相移具有不变性的特征，这对于角度估计至关重要。该网络从增强的协方差矩阵中提取鲁棒的空间特征，并最终映射到DOA的估计值。由于训练是在离线阶段完成的，一旦部署，网络可以进行快速、低延迟的在线推理，适用于实时应用。

4. 实验结果与分析

广泛的实验评估了所提方法的性能。在多种SNR条件下进行了测试，从高信噪比到极低的-20 dB。实验结果表明，所提出的GAN-CNN融合框架显著优于传统的DOA估计方法（如MUSIC、ESPRIT）以及仅使用CNN或RNN的深度学习基线。具体而言，在-10 dB SNR和500个快拍的条件下，该方法实现了72.2%的DOA准确率和3.9°的均方根误差（RMSE）。更重要的是，该方法在数据有限的情况下也表现出强大的鲁棒性。当快拍数减少到仅50个时，该方法仍能保持93.8%的准确率，而传统子空间方法的性能则急剧下降。这证明了信号增强阶段在应对有限训练数据方面的有效性。对不同噪声类型的进一步测试表明，该方法具有良好的泛化能力，能够处理训练期间未见的噪声模式。计算效率分析表明，虽然GAN增强阶段引入了额外的计算开销，但一旦经过训练，整个框架的在线推理时间仍然在实时应用的合理范围内，特别是与需要网格搜索的MUSIC等方法相比。

5. 结论与未来工作

本文提出了一种用于低SNR环境中DOA估计的新型两阶段GAN-CNN融合框架。该框架通过集成一个具有注意力机制和相位一致性损失的GAN进行信号预处理，有效解决了噪声环境下空间信息受损和训练数据有限的核心挑战。随后，一个专用的复值CNN从增强的信号中提取鲁棒特征以进行精确的DOA估计。综合实验验证了该框架在低SNR和有限快拍条件下的卓越性能和鲁棒性，其准确率和误差指标均显著优于现有方法。该工作为雷达、无线通信和声学传感等实际应用中实现可靠的空间参数估计提供了有前景的解决方案。未来研究方向可包括：探索更高效的网络架构以减少计算复杂度；将框架扩展到更复杂的场景，如移动源、多径环境和相干源；研究该方法的硬件实现，例如在FPGA或专用集成电路（ASIC）上的部署，以进一步满足严苛的实时性要求。

热点排行