面向调制识别的轻量级CNN与ViT对比

高乐; 刘路路

当前位置：首页 > 科学研究与应用 > 面向调制识别的轻量级CNN与ViT对比

科学研究与应用

Journal of Scientific Research and Applications

主办单位:
未來中國國際出版集團有限公司
ISSN:
3079-7071（P）
ISSN:
3080-0757（O）
期刊分类:
科学技术
出版周期:
月刊
投稿量:
4
浏览量:
518

面向调制识别的轻量级CNN与ViT对比

Comparison of Lightweight CNN and ViT for Modulation Recognition

发布时间：2026-04-21

作者: 高乐,刘路路 :西京学院陕西西安;

摘要: 针对复杂电磁环境下传统自动调制识别（AMC）算法鲁棒性差及计算复杂度高的问题，本研究提出一种基于短时傅里叶变换（STFT）时频图与轻量级深度学习架构的识别范式。为填补现有研究在CNN与Vision Transformer（ViT）架构性能对比上的空白，本研究基于RadioML 2016.10a数据集，系统评估了ResNet18、MobileNetV3、PoolFormer-S12及Rep ViT-M1.1四种典型模型。实验结果表明，融合了卷积归纳偏置与全局感受野的RepViT架构表现最优：其在高信噪比下的识别准确率达92.4%，且推理延迟相比ResNet18降低约45%。研究深入揭示了结构重参数化技术在消除内存访问开销及提升特征提取效率方面的机制，证实了RepViT是资源受限边缘设备部署高性能AMC算法的理想选择。

Abstract: Aiming at the problems of poor robustness and high computational complexity of traditional automatic modulation recognition algorithms in complex electromagnetic environments, this study proposes a recognition paradigm based on short-time Fourier transform (STFT) time-frequency diagrams and lightweight deep learning architectures. To fill the gap in existing research regarding the performance comparison between CNN and Vision Transformer (ViT) architectures, this study systematically evaluates four typical models—ResNet18, MobileNetV3, PoolFormer-S12, and RepViT-M1.1—based on the RadioML 2016.10a dataset. Experimental results show that the RepViT architecture, which integrates convolutional inductive bias and a global receptive field, performs the best. It achieves a recognition accuracy of 92.4% at high signal-to-noise ratios, and its inference latency is reduced by approximately 45% compared with ResNet18. This study deeply reveals the mechanism of structural re-parameterization technology in eliminating memory access overhead and improving feature extraction efficiency, confirming that RepViT is an ideal choice for deploying high-performance algorithms on resource-constrained edge devices.

关键词: 自动调制识别；深度学习；时频分析；结构重参数化；轻量级架构

Keywords: automatic modulation recognition; deep learning; time-frequency analysis; structural re-parameterization;lightweight architecture

引言

在信息技术飞速发展的今天，无线通信已成为连接物理世界与数字世界的纽带。随着物联网（IoT）、车联网（V2X）以及工业互联网等新兴应用的爆发式增长，无线电设备的数量急剧增加，导致有限的频谱资源变得日益拥挤。为了缓解频谱资源供需矛盾，认知无线电技术应运而生。认知无线电的核心思想是赋予无线通信设备感知周围电磁环境的能力，通过动态频谱接入（DSA）技术，在不干扰授权用户的前提下利用空闲频谱，从而大幅提升频谱利用率。在这一过程中，自动调制识别技术扮演着至关重要的角色。它作为连接信号检测与信号解调的桥梁，能够在接收端仅知晓信号中心频率与带宽，而完全未知调制方式、符号率等先验参数的情况下，准确判决出信号的调制类型。这一能力不仅是自适应调制编码（Adaptive Modulation and Coding）系统的基础，更是军事电子侦察、民用无线电监管以及干扰源定位等应用的关键支撑技术。

然而，实际的无线传播信道极其复杂。信号在传播过程中会遭受路径损耗、阴影衰落、多径效应以及多普勒频移等多种衰减与畸变。此外，接收机前端引入的热噪声以及环境中存在的各种人为干扰，使得接收到的信号往往淹没在强噪声背景中。传统的自动调制识别方法主要分为基于似然比检验的方法和基于特征提取的方法两大类。基于似然比检验的方法虽然在贝叶斯准则下能够获得最优的分类性能，但其前提是需要精确已知信道模型参数和噪声统计特性，且计算复杂度随着候选调制类型的增加呈指数级增长，这使得其在实时系统中难以落地。基于特征提取的方法则试图通过提取信号的瞬时幅度、瞬时相位、瞬时频率、高阶累积量或循环平稳特征等统计量，构建分类器进行识别。虽然这类方法计算量相对较小，但人工设计的特征往往依赖于特定的信号模型，泛化能力较差，且在低信噪比（SNR）条件下，特征的区分度会显著下降，导致识别准确率急剧恶化。

1研究意义及研究目标

本研究旨在探索并对比不同轻量级深度学习架构在基于时频图的无线信号调制识别任务中的性能表现，具有重要的理论意义和实际应用价值。本研究将先进的计算机视觉技术引入信号处理领域，建立了一种从一维信号到二维图像再到语义分类的端到端信号识别范式。通过系统性地对比分析不同神经网络架构在信号时频特征提取任务中的表现，本研究为信号处理领域提供了新的技术思路和方法论。同时，本研究特别关注了RepViT 等新兴轻量级架构，这类模型通过结构重参数化技术解决了传统深度网络参数量大、推理速度慢的问题，使得在无人机、手持频谱仪等边缘设备上部署复杂的智能信号处理算法成为可能。本研究的成果可直接应用于多个重要领域，如频谱监测与管理、信号识别与分类、通信系统优化、智能频谱感知等。

针对边缘计算场景下自动调制识别对高精度与低延迟的双重需求，本研究聚焦于轻量级深度学习架构的性能评估。核心目标在于：(1)基于RadioML2016.10a数据集构建标准化的STFT时频图预处理流程；(2)系统性对比ResNet、MobileNet等经典CNN与RepViT、PoolFormer等新兴ViT架构在特征提取、抗噪鲁棒性及推理效率上的差异；(3) 验证结构重参数化技术（RepViT）在信号处理领域的有效性，为资源受限条件下的模型选型提供详实的基准数据。

与现有文献相比，本研究的主要创新点包括：（1）首次系统性地将RepViT架构应用于基于RadioML数据集的调制识别任务，验证了重参数化ViT在信号处理领域的有效性；（2）通过可视化的混淆矩阵分析，深入揭示了CNN与ViT在处理QAM等高阶调制信号时的行为差异与抗混叠能力；（3）提供了详尽的轻量级模型性能基准测试数据，为工程实践中的模型选型提供了直接参考。

2相关工作与文献综述

2.1 自动调制识别技术发展

自动调制识别技术的发展历程可以看作是信号处理理论与模式识别技术不断融合的过程。早期的研究主要集中在基于决策树的识别方法，通过设定一系列阈值来逐级区分信号的瞬时特征。例如，基于瞬时统计量的决策树算法在模拟信号识别中取得了不错的效果，但在处理高阶数字调制信号（如16QAM、64QAM）时显得力不从心。随后，基于统计模式识别的方法逐渐成为主流。Swami 等人系统地研究了基于高阶累积量（HOC）的分类方法，利用四阶和六阶累积量对高斯噪声的不敏感特性，实现了对M-PSK和M-QAM信号的有效分类。Cyclostationary（循环平稳）特征也被广泛应用于调制识别，Gardner提出的循环谱相关理论能够有效提取信号的载波频率和符号速率，具有很强的抗噪与抗干扰能力，但其计算复杂度极高，难以满足实时性要求。

2.2 深度学习在调制识别中的应用

2016年，O'Shea等人首次将卷积神经网络引入无线信号调制识别领域，并开源了著名的RadioML数据集，标志着该领域进入了深度学习时代。他们设计的CNN模型直接以原始的I/Q信号作为输入，证明了端到端的学习能力显著优于传统的人工特征提取方法。随后，Zhou等人与Le等人先后在IEEE Access上发表的综述文章详细梳理了深度架构在AMC中的应用，指出基于时频图的研究路线逐渐兴起。Zhang等人将不同调制信号转换为STFT谱图，并利用GoogLeNet实现了高精度的分类，通过可视化手段展示了深度网络关注的时频区域与信号理论特征的高度一致性。Peng等人则探索了星座图（Constellation Diagrams）作为输入的识别方法，但在低信噪比下，星座图聚类点的扩散会导致严重的混叠，影响识别效果。相比之下，时频图包含了信号能量在时间和频率上的完整分布信息，对于非平稳信号和突发信号具有更好的表征能力。

2.3轻量级神经网络架构的发展

为了满足边缘设备对AI算法落地的需求，轻量级网络架构旨在平衡计算效率与模型表达能力。在CNN阵营中，MobileNetV3凭借深度可分离卷积与注意力机制成为轻量级标杆，而ResNet18则常被用作衡量性能的基准。针对Vision Transformer计算复杂度高的问题，PoolFormer验证了极简MetaFormer架构的有效性，通过平均池化替代注意力机制显著降低了算力需求。在前人基础上，RepViT进一步融合了ViT的架构设计与CNN的高效推理优势，其核心的“结构重参数化”技术实现了“训练多分支增强表达，推理单分支提升速度”，为实时信号处理提供了新的解决方案。

3 方法论

3.1 理论框架

本研究基于“时频分析—深度特征提取—分类决策”的端到端处理框架，结合深度学习的表征学习理论，构建了从原始I/Q信号到调制类别的完整映射路径。理论框架包括信号建模、短时傅里叶变换理论、轻量级网络架构设计及分类损失函数优化四个核心组件。

3.1.1 信号模型与问题定义

在无线通信系统中，接收端接收到的离散时间基带信号可以表示为发射信号与信道噪声的叠加。设接收到的复基带信号序列为，其数学模型表示如下：

式中，表示观测信号的样本长度，表示经过信道传输后的调制信号，表示加性高斯白噪声（AWGN），其服从均值为0、方差为的复高斯分布。对于不同的调制类型，发射信号具有不同的数学表达形式。例如，对于调制，其信号可以表示为=，其中代表相位信息。自动调制识别的任务可以形式化为一个K分类问题：给定接收信号序列，设计一个映射函数，使得预测标签尽可能接近真实调制类型标签。

3.1.2 短时傅里叶变换 (STFT) 理论

由于接收到的原始信号是一维复数序列，虽然包含了完整的相位和幅度信息，但难以直观反映信号频率随时间变化的非平稳特性。STFT是将一维非平稳信号映射到二维时频域的经典方法。对于离散信号，其STFT定义式为：

式中，表示在时间索引和频率索引处的复数谱值；为实数窗函数（Window Function），本研究选用Hamming窗以抑制频谱泄露；为滑动窗口的步长（Hop Size），决定了时频图在时间轴上的重叠率；N为 DFT的点数，决定了频率分辨率。为了生成适配深度神经网络输入的时频图像，我们对STFT变换的结果进行取模和对数变换操作，得到对数功率谱密度图，并将其映射为的RGB图像。

3.1.3 RepViT结构重参数化原理

RepViT是本研究重点评估的架构，其核心创新在于结构重参数化。其数学原理如下：在训练阶段，RepViT Block的输出Y由三个分支组成：

其中，代表卷积加批量归一化（BN）；代表卷积加 BN；代表恒等映射加BN。在推理阶段，利用卷积的线性特性，这三个分支的参数可以被等价合并为一个单一的卷积核和偏置：

其中为第个分支的权重，为对应的权重系数（由BN层参数决定）。这种转换保证了推理时的零分支开销。

3.2 数据集构建

本研究直接采用业界公认的基准数据集RadioML2016.10a进行实验。该数据集由 DeepSig公司开源，被广泛用于验证通信AI算法的性能。相比于自建数据集，使用权威公开数据集能够确保实验结果的可信度，并方便与现有的文献成果进行公平对比。

3.2.1 信号调制类型与划分

RadioML2016.10a数据集涵盖了现代无线通信系统中最重要的调制方式，总计包含11 种主要调制类型，包括8 种数字调制（BPSK, QPSK,8PSK,16QAM,64QAM, CPFSK, GFSK, PAM4）和3种模拟调制（WB-FM, AM-DSB, AM-SSB）。该数据集包含了从-20 dB到+18 dB 的信噪比（SNR），步长为2 dB。每个信噪比下每种调制类型包含1000个样本，总计220,000 个样本。在本研究中，我们将数据集随机打乱，按照6:2:2的比例划分为训练集（132,000样本）、验证集（44,000样本）和测试集（44,000样本）。

3.2.2 信号预处理流程与时频图生成

由于RadioML2016.10a的原始数据是一维的I/Q信号，我们设计了一个批处理脚本将其转换为STFT时频图。具体参数设置为：FFT点数设为64，窗函数长度设为64，重叠长度设为32（即50%重叠）。生成的频谱图经过双线性插值调整为像素大小，并进行归一化处理，使其像素值分布在[0,1]之间。这一预处理步骤将时变信号特征转化为深度视觉模型可处理的二维图像特征，作为后续模型的输入。

3.3 模型架构设计

3.3.1 系统架构概述

基于深度学习的自动调制识别系统采用端到端的架构，主要包括数据预处理模块、深度神经网络骨干（Backbone）、全局池化层和分类头（Classifier Head）四个核心组件。

图1 调制识别系统整体架构图

如图1所示，信号首先经过STFT预处理模块转换为二维时频图像，然后输入深度神经网络骨干进行特征提取。提取的高维特征经过全局平均池化压缩为特征向量，最终由全连接层输出11个类别的概率预测。系统设计兼容多种骨干网络，本研究中替换为RepViT、ResNet等进行对比。

3.3.2 深度特征提取网络对比

本研究选取了四种具有代表性的轻量级网络进行对比：

(1)ResNet18：作为卷积神经网络的基准。ResNet18通过残差连接解决了深层网络的梯度消失问题，由4个残差阶段（Stage）组成，每个阶段包含两个卷积层。

(2)MobileNetV3：代表了针对移动端优化的CNN架构。它使用了深度可分离卷积（Depthwise Separable Conv）来大幅减少计算量，并引入了SE注意力模块。

(3)RepViT：作为混合架构的代表。RepViT结合了CNN的局部特征提取能力和ViT的全局建模视角。网络包含4个Stage，其Block设计兼顾了表达能力和计算效率。

(4)PoolFormer：代表了极简主义的Transformer架构。它使用简单的平均池化操作代替了复杂的自注意力机制作为Token Mixer。

4 实验结果与分析

4.1 实验设置

本研究在NVIDIA GeForce RTX3090 GPU平台上进行实验，软件环境基于PyTorch1.13 框架。所有模型均采用AdamW优化器，初始学习率设定为0.001，并配合余弦退火学习率调度策略。Batch Size设定为64，训练轮次为100轮。损失函数采用标准的交叉熵损失函数（Cross Entropy Loss）。评估指标主要包括准确率（Accuracy）和F1分数。

4.2 整体性能对比

如表1 所示，RepViT-M1.1 在全信噪比范围内取得了61.4%的最优平均准确率，显著优于ResNet18等对比模型。尽管RadioML数据集中包含的大量极低信噪比样本（-20 dB至 -6 dB）限制了所有模型的全局指标，但在实际通信可用的高信噪比区间（SNR0 dB），RepViT 的平均识别率高达92.4%。这表明该架构不仅具备轻量级优势，更在高可靠性通信场景中展现了极高的实用价值。

表1 各模型综合性能对比

模型	参数量 (Params)	计算量 (FLOPs)	平均准确率 (Avg Acc)	高信噪比准确率 (SNR0dB)	推理耗时 (ms)
ResNet18	11.7 M	1.8 G	59.8%	89.5%	3.2
MobileNetV3	2.5 M	0.2 G	58.5%	87.2%	2.1
PoolFormer-S12	12.0 M	1.9 G	60.1%	91.8%	3.8
RepViT-M1.1	6.8 M	1.1 G	61.4%	92.4%	1.8

4.3 不同信噪比下的性能分析

信噪比是影响调制识别性能的最关键因素。图2展示了所有模型在不同信噪比水平下的准确率变化趋势。

图2 不同模型在不同信噪比下的识别准确率对比

从图2中可以观察到以下关键发现：在低信噪比环境（-20至-6 dB）下，所有模型均表现较差，准确率在10%左右徘徊，这接近于随机猜测的概率，说明此时信号特征完全被噪声淹没。在过渡信噪比环境（-4至+6 dB）下，所有模型的性能开始迅速上升，呈现出陡峭的 S形曲线。在此区间，RepViT和PoolFormer的上升速率略快于 ResNet18，表明具备全局感受野的Transformer类架构能够更有效地从噪声背景中聚合微弱的信号特征。而在高信噪比环境（+8 至 +18 dB）下，模型性能趋于饱和。RepViT-M1.1 在 +10 dB 时的准确率达到92.4%，显著优于 ResNet18（90.5%）和MobileNetV3（89.1%）。这表明在信号清晰的情况下，RepViT能够捕捉到更精细的时频纹理差异，从而更好地区分相似的调制类型。

4.4 混淆矩阵分析

为了深入分析不同模型对11种调制类型的识别能力，本研究为RepViT-M1.1模型在 SNR=10dB时生成了混淆矩阵。混淆矩阵可以直观地展示模型在各类别之间的分类错误模式。

图3 RepViT-M1.1 模型在 SNR=10dB 下的混淆矩阵

从图3的混淆矩阵中可以观察到，模型对大多数调制类型的识别准确率均较高。特别是模拟调制信号（如WB-FM、AM-DSB）和频移键控信号（CPFSK、GFSK），其对角线元素值均超过0.98，表明几乎没有误判。然而，混淆主要集中在正交幅度调制（QAM）信号之间。具体而言，16QAM与64QAM之间存在较严重的相互误判。混淆矩阵显示，约有15%的16QAM样本被误预测为64QAM。造成这一结果的根本原因是16QAM和64QAM的区别主要在于星座图点的密度，而在经过STFT变换生成时频图后，这种幅度和相位的精细离散特征被映射为时频单元上的能量强度差异。由于STFT的分辨率限制和视觉模型的纹理平滑特性，这种微小的能量差异很难被完全区分。尽管如此，相比于ResNet18，RepViT在QAM类的识别上仍有约2%-3%的提升。

4.5 模型效率与部署可行性分析

除了识别精度，模型的计算效率对于边缘侧部署同样至关重要。表1中的数据揭示了各模型在效率上的巨大差异。MobileNetV3凭借其极低的参数量（2.5 M）和计算量（0.2 G FLOPs），是资源极其受限场景（如微控制器）的首选，但其代价是牺牲了约3%的准确率。ResNet18 虽然是经典基准，但其推理耗时较高（3.2 ms），且参数量较大（11.7 M）。

图4 不同模型的推理延迟与识别准确率对比

如图4所示，RepViT-M1.1展现了最佳的“精度—效率”权衡（位于图表左上角）。其参数量为6.8 M，约为ResNet18的一半；推理耗时仅为1.8 ms，比MobileNetV3还要快。这一反直觉的结果（参数量大但速度快）有力地验证了结构重参数化技术的优越性。在推理阶段，RepViT的多分支结构被融合为单路卷积，消除了碎片化的内存访问开销，从而最大化了 GPU的并行计算能力。这使得RepViT非常适合部署在需要实时处理无线信号的嵌入式AI芯片上。

5结论

本研究针对面向调制识别的轻量级深度学习模型性能对比问题，提出了一种基于 RadioML数据集和时频分析的端到端评估框架，并通过系统性的实验验证了不同架构的有效性。通过对比RepViT、ResNet18、MobileNetV3和PoolFormer-S12等模型，RepViT-M1.1 在综合性能上表现最佳。它不仅在平均准确率上达到61.4%（高信噪比下达到92.4%），优于所有对比模型，而且在推理速度上实现了1.8 ms的极低延迟。实验结果表明，融合了CNN归纳偏置与ViT全局视角的RepViT架构，是当前无线信号调制识别任务在边缘设备部署时的最优选择。

未来的工作将集中在以下三个方面：首先，在模型架构优化上，将进一步探索结合 I/Q 原始时间序列与 STFT 时频图的多模态特征融合机制（如跨模态注意力机制），以彻底解决高阶 QAM 信号在时频域由于分辨率限制导致的混淆问题；其次，针对现实通信场景中特殊信号样本获取困难的痛点，将引入自监督对比学习和少样本学习（Few-Shot Learning）技术，提升模型在极端低信噪比及小样本环境下的鲁棒性；最后，为了验证轻量级模型的工程落地价值，未来计划将 RepViT 等最优架构实际部署至 NVIDIA Jetson Nano 或 FPGA 等资源受限的边缘智能硬件上，全面评估其在物理环境下的真实功耗、吞吐量与端到端延迟。

参考文献：

[1] Wang A, Chen H, Lin Z, et al. RepViT: Revisiting mobile CNN from ViT perspective[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2024.
[2] Swami A, Sadler B M. Hierarchical digital modulation classification using cumulants[J].IEEE transactions on communications,2000,48(03):416-429.
[3] Gardner W A. The spectral correlation theory of cyclostationary time-series[J].Signal processing,1987,11(01):13-36.
[4] O'Shea T J, Corgan J, Clancy T C. Convolutional radio modulation recognition networks[C]//Engineering Applications of Neural Networks.2016.
[5] Zhou R, Liu F, Grajal J. Deep learning for modulation recognition: A survey with a demonstration[J].IEEE access,2020（08）:67366-67376.
[6] Le N T, Pham V S, Le D D. Automatic modulation classification: A deep architecture survey[J].IEEE access,2021（09）:142950-142971.
[7] Zhang M, Zeng Y, Han Z, et al. Automatic modulation recognition using deep learning architectures[C]//2018 IEEE19th International Workshop on Signal Processing Advances in Wireless Communications (SPAWC).2018.
[8] Peng S, Jiang H, Wang H, et al. Modulation classification based on signal constellation diagrams and deep learning[J].IEEE transactions on neural networks and learning systems,2019,30(03):718-727.
[9] Howard A, Sandler M, Chu G, et al. Searching for MobileNetV3[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2019.
[10] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016.
[11] Yu W, Luo M, Zhou P, et al. MetaFormer is actually what you need for vision[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022.

科学研究与应用

Journal of Scientific Research and Applications

相关文章

面向调制识别的轻量级CNN与ViT对比

Comparison of Lightweight CNN and ViT for Modulation Recognition

引言

1研究意义及研究目标

2相关工作与文献综述

2.1 自动调制识别技术发展

2.2 深度学习在调制识别中的应用

2.3轻量级神经网络架构的发展

3 方法论

3.1 理论框架

3.1.1 信号模型与问题定义

3.1.2 短时傅里叶变换 (STFT) 理论

3.1.3 RepViT结构重参数化原理

3.2 数据集构建

3.2.1 信号调制类型与划分

3.2.2 信号预处理流程与时频图生成

3.3 模型架构设计

3.3.1 系统架构概述

3.3.2 深度特征提取网络对比

4 实验结果与分析

4.1 实验设置

4.2 整体性能对比

4.3 不同信噪比下的性能分析

4.4 混淆矩阵分析

4.5 模型效率与部署可行性分析

5结论

参考文献：