基于多尺度时频变换器的信号分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

基于多尺度时频变换器的信号分类

《Physical Communication》：Signal Classification Based on Multi-Scale Time-Frequency Transformer

【字体：大中小】 时间：2026年02月11日 来源：Physical Communication 2.2

编辑推荐：

　　通信信号识别中，长序列噪声干扰和时频结构复杂导致传统模型（CNN/RNN/Transformer）难以同时捕捉局部时域特征、长程依赖和互补频谱信息。本文提出MTF-Former，通过信号导向增强提升噪声鲁棒性，设计时频增强模块注入频域特征，采用分层多窗口Transformer编码器实现高效多尺度时域建模。实验表明，MTF-Former在SEI（5dB）和AMR（0dB）任务中较基线方法分别提升1.30%和2.42%，尤其在低信噪比场景下优势显著。

Jiahuang Yang|Yuhao Wang|Meng Yang|Hua Meng

中国四川省成都市西南交通大学数学学院

摘要

由于波形持续时间较长、噪声干扰以及复杂的时频结构，在非合作环境下识别通信信号仍然具有挑战性。现有的基于卷积神经网络（CNN）、循环神经网络（RNN）和Transformer的方法通常依赖于单一的建模范式，难以同时捕捉局部波形特征、长距离时间依赖性和互补的频谱信息。为了解决这些问题，我们提出了MTF-Former，这是一种专为了一维射频（RF）信号设计的多尺度时频Transformer。MTF-Former结合了以信号为中心的数据增强技术、一个轻量级的时频增强（TFE）模块（该模块引入了频率感知的调制机制），以及一个分层窗口化的Transformer编码器，以实现高效的多尺度时间建模。这种统一的设计在减少计算成本的同时，有效整合了时间和频谱线索，相比标准的全局自注意力Transformer在处理长序列时表现更优。在特定发射机识别（SEI）和自动调制识别（AMR）基准测试中的实验表明，MTF-Former的表现始终优于许多方法，在信噪比较低的情况下（例如5 dB时SEI的准确率提高了1.30%，0 dB时AMR的准确率提高了2.42%），消融研究进一步验证了各组件的贡献。

引言

通信信号识别是许多非合作频谱感知任务的基础，例如自动调制识别（AMR）[1] [2]和特定发射机识别（SEI）[3] [4]。AMR专注于识别调制格式，而SEI旨在提取与硬件相关的稳定特征。在实际环境中，接收到的信号往往表现为长且受噪声污染的序列[5] [6]，其中的可区分结构很容易被掩盖。因此，从这种退化的观测数据中提取可靠的特征对AMR和SEI来说仍然是一个重大挑战[7] [8]。

在深度学习出现之前，信号识别主要依赖于手工制作的时频特征，然后通过支持向量机或决策树等分类器进行处理[9] [10] [11]。尽管这些方法在受控环境中有效，但它们严重依赖于专家知识，并且难以在多样的电磁环境中泛化，限制了其在现实世界场景中的应用。

深度学习将领域转向了数据驱动的特征提取。卷积神经网络（CNN）和循环神经网络（RNN）被广泛用于捕捉局部时间模式和序列依赖性[12] [13] [14]。例如，Bremnes等人[14]将CNN应用于小波分解后的射频（RF）子带，而Rajendran等人[12]使用长短期记忆（LSTM）网络来模拟幅度和相位动态。尽管取得了成功，但这些架构与RF信号的特性存在固有的不匹配：CNN依赖于固定的感受野，限制了它们在不同时间尺度上的适应能力，而RNN则顺序处理序列，尤其是在接近0 dB的严重噪声干扰场景下，往往难以保留可区分的信息[15]。

为了克服这些限制，最近的研究转向了Transformer架构。利用自注意力机制，Transformer能够对整个序列中的长距离关系和全局上下文进行建模，从而在信号识别方面取得了显著的性能提升[16] [17]。如图1所示，CNN主要通过固定大小的感受野来建模波形的局部区域，而自注意力机制则通过计算成对交互来显式地聚合远距离时间位置的信息。这种全局上下文建模与RF信号的特性非常契合，RF信号既具有局部微模式，也具有广泛的时间结构[18]。

尽管取得了这些进展，大多数现有的深度学习方法仍然依赖于单一的架构范式（如CNN、RNN或标准Transformer）来提取可区分的特征。这种设计选择忽略了RF波形的两个关键方面：它们明显的多尺度时间结构和强烈的时频耦合。此外，标准的全自注意力Transformer的计算复杂度与序列长度呈二次方关系，使得它们在处理长通信波形时计算成本过高。

从另一个角度来看，RF信号通常是非平稳的，它们的可区分特性不仅体现在时域波形模式中，还体现在频谱结构、周期分量及其时间演化中。相关研究表明，联合时频分析可以提取更加稳健和互补的特征[19] [20]。

受到这些观察的启发，我们提出了一种专为了一维通信信号设计的多尺度时频Transformer（MTF-Former）。MTF-Former结合了分层多尺度注意力机制和时频增强模块，使网络能够在统一的框架内同时捕捉细粒度的局部线索、长距离时间依赖性和互补的频谱信息。与标准的全自注意力Transformer架构相比，所提出的设计通过将自注意力限制在局部窗口内，同时保持了跨时间尺度的有效信息交互，从而降低了计算复杂度。

本工作的主要贡献总结如下：

1.

我们提出了一种专为了一维通信波形设计的Transformer架构，该架构通过多尺度窗口化注意力机制同时建模局部时间结构和长距离依赖性，与标准Transformer相比，既提高了计算效率，又提升了识别性能。

2.

为了利用补充时间特征的频谱特性，我们引入了一个时频增强模块，该模块能够自适应地结合频域线索，从而在低信噪比（通常接近0 dB）条件下提高鲁棒性。

3.

在AMR和SEI基准测试中的广泛实验表明，MTF-Former的表现始终优于代表性的CNN、RNN和基于Transformer的方法，在5 dB的信噪比下SEI任务的准确率提高了7.9%，在0 dB的信噪比下AMR任务的准确率提高了2.42%，同时在完整的测试集上也取得了有竞争力的性能。

RF信号识别的深度学习方法已经沿着几个代表性方向发展。一种方法是直接从原始的I/Q波形中使用基于CNN或RNN的架构进行学习。CNN在捕捉局部时间结构方面表现出色，并在AMR和SEI任务中取得了显著成果[21] [22]，而混合CNN-LSTM/GRU模型进一步增强了序列建模能力[23]。然而，它们对固定感受野或顺序计算的依赖限制了

方法论

在本节中，我们将介绍所提出的MTF-Former。我们首先采用以信号为中心的数据增强策略来提高在噪声和训练数据有限条件下的鲁棒性。然后介绍时频增强（TFE）模块，该模块将轻量级的频谱线索注入中间表示。最后，我们描述了从Swin Transformer[31]改编而来的适用于一维RF波形的分层窗口化Transformer编码器。

实验

在本节中，我们在两个代表性的通信信号识别任务上评估了所提出的MTF-Former：SEI和AMR。

结论

我们提出了MTF-Former，这是一种用于在噪声较大和数据稀缺条件下进行通信信号识别的多尺度时频Transformer。通过结合以信号为中心的数据增强、分层窗口化注意力以实现高效的多尺度时间建模，以及轻量级的TFE模块来注入频谱线索，MTF-Former有效地捕捉了RF信号的时间和时频特性。在SEI和AMR基准测试中的实验结果表明

CRediT作者贡献声明

Jiahuang Yang：撰写 – 审稿与编辑，撰写 – 原稿，方法论。Yuhao Wang：概念化。Meng Yang：监督。Hua Meng：撰写 – 审稿与编辑，监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

方法论

实验

结论

CRediT作者贡献声明

利益冲突声明

热点排行