AI原生6G：赋能智能无线接入网的加速计算平台研究

《IEEE Wireless Communications Letters》：AI-Native 6G: Empowering Intelligent RAN With Accelerated Compute

【字体：大中小】 时间：2026年01月05日 来源：IEEE Wireless Communications Letters 5.5

编辑推荐：

　　本文针对6G无线接入网（RAN）面临的高实时性计算挑战，提出基于GPU加速计算平台的AI原生解决方案。研究团队通过迭代检测解码（DUIDD）、神经接收机（NRX）和链路自适应三个用例验证，表明该平台可实现站点特异性优化，在保持亚毫秒级延迟的同时提升系统吞吐量最高达18%，为6G RAN的智能化演进提供了软硬件协同设计范式。

随着5G网络在全球范围内的规模化部署，通信行业已将目光投向2030年商用的6G系统。与传统通信代际演进不同，6G被构想为原生融合人工智能（AI）的智能网络体系，其中无线接入网（RAN）作为连接用户设备与核心网的关键枢纽，其智能化转型尤为关键。当前5G网络中的AI功能多为后期叠加，存在算法固化、计算延迟高、难以适配多样化场景等问题。而6G愿景中的AI原生RAN要求从设计之初就嵌入数据驱动的智能能力，能够根据每个基站站点的独特环境进行实时自适应优化。这种范式转变对计算平台提出了前所未有的要求：既要满足严格的实时性约束（如层1/层2任务需亚毫秒级延迟），又要具备足够的灵活性以适应不断演进的AI模型和工作负载。

在此背景下，由NVIDIA与苏黎世联邦理工学院联合研究团队在《IEEE Wireless Communications》发表论文，系统阐述了基于图形处理器（GPU）的软件定义加速计算平台如何为AI原生6G RAN提供基础设施支撑。研究聚焦于"AI-for-RAN"技术路径，即利用AI提升RAN性能，而非替代传统信号处理算法。

为验证技术可行性，研究团队设计了三个具有代表性的AI-for-RAN用例。在迭代检测与解码（IDD）方面，传统接收机通过多轮迭代实现近似容限性能，但计算复杂度极高。团队提出的深度展开IDD（DUIDD）将模型驱动设计与机器学习结合，通过引入可训练超参数优化检测器与解码器间的外信息交换机制。

如图所示，采用射线追踪数字孪生数据训练的DUIDD在10%误块率（BLER）下较传统线性最小均方误差（LMMSE）检测结合低密度奇偶校验（LDPC）解码方案获得2.2 dB增益，且无需增加LDPC解码复杂度。

神经接收机（NRX）案例更进一步，用单一神经网络替代信道估计、均衡和解映射等多个传统处理模块。研究团队基于NVIDIA Sionna平台开发实时多用户多输入多输出（MIMO）NRX原型，仅含14.3万参数，在A100 GPU上可实现<1毫秒推理延迟。该设计突出动态重配置能力，能适应物理资源块（PRB）数量、用户数和调制编码方案（MCS）的瞬时变化，无需为每种配置单独训练模型。

研究表明，利用业务低谷期GPU空闲算力进行站点特异性微调，可有效补偿模型简化带来的性能损失。

链路自适应案例聚焦媒体接入控制（MAC）层，传统方案因信道状态信息（CSI）反馈延迟（4-8毫秒）难以跟踪快速变化的传播环境。团队采用深度强化学习（DRL）模型，结合历史CSI与混合自动重传请求（HARQ）确认信息，在GH200 GPU上实现每50微秒处理1000个链路的批量推理。实验显示，在0 dB信噪比（SNR）区域吞吐量提升达18%，在高SNR区域（>10 dB）仍保持7-8%增益。

关键技术方法包括：基于CUDA架构的软件定义编程模型，支持PyTorch/TensorFlow等深度学习框架；利用多实例GPU（MIG）虚拟化技术实现AI工作负载与常规RAN任务的动态编排；采用TensorRT等推理运行时进行图优化与内核融合；结合3GPP 38.901随机信道模型与射线追踪数字孪生数据构建训练集；通过实时在线微调实现模型与站点环境的持续适配。

II. 用例I：迭代检测与解码

研究通过对比DUIDD与传统IDD接收机的复杂度-性能权衡得出：DUIDD通过深度展开技术将迭代过程映射为可训练网络层，在保持与基线相同LDPC解码复杂度的前提下，仅增加2.2倍均衡器复杂度即可实现2.2 dB增益。而传统IDD为达到相同增益需增加4倍LDPC解码复杂度与额外2倍均衡器复杂度。这表明基于GPU的DUIDD在计算效率方面具有显著优势。

III. 用例II：神经接收机

针对5G物理上行共享信道（PUSCH）设计的NRX原型显示，其单次推理需13.0 GFLOPs/MIMO层（273 PRB/4接收天线），在30 kHz子载波间隔配置下算力需求约26 TFLOP/s。模型通过动态张量形状调整支持运行时重配置，当调度PRB减少时自动降低计算量。这种"按需计算"特性使得NRX在GPU平台上能兼顾标准合规性与实时性要求。

IV. 用例III：链路自适应

基于DRL的MCS选择算法每推理仅需111.5 KFLOPs，但批量处理需求使算力密度达2.23 TFLOP/s。研究证实GPU的并行架构特别适合此类细粒度批量任务，可将原本需多个CPU核处理的调度计算卸载至GPU，为高层协议栈释放CPU资源。多小区实验证明AI驱动链路自适应能有效克服CSI反馈延迟问题。

研究结论表明，AI原生6G RAN的实现依赖于软件定义加速计算平台的四大支柱：支持CUDA等高级编程模型的易编程性、随带宽与天线规模弹性扩展的计算能力、通过专用张量核心实现的亚毫秒级推理、以及基于动态图执行的模型适配能力。特别值得关注的是，站点特异性学习不仅能提升性能，还可通过模型简化降低常态推理开销；数字孪生技术加速训练数据生成；业务闲时GPU算力转化为模型优化资产，形成正向反馈循环。与传统认知不同，研究通过能效分析指出，GPU并行计算结合站点优化可显著降低运营功耗，证明AI-for-RAN在提升性能的同时具备绿色效益。

该研究为6G RAN架构设计提供了重要启示：首先，计算平台需统一程序弹性、低延迟与适应性等传统上相互矛盾的属性；其次，AI-for-RAN不应简单替代而是增强传统算法，如DUIDD保留模型基架构成分而优化信息交换机制；最后，软件定义基础设施使得网络智能可随业务需求迭代演进，为6G实现"网络即计算机"愿景奠定基础。这些发现不仅对通信设备商具有指导意义，也为芯片制造商、云服务商及标准组织在6G技术路线规划中协调计算与通信创新提供了框架参考。

热点排行

新闻专题