《IEEE Wireless Communications Letters》:AI-Native 6G: Empowering Intelligent RAN With Accelerated Compute
编辑推荐:
本文针对6G无线接入网(RAN)面临的高实时性计算挑战,提出基于GPU加速计算平台的AI原生解决方案。研究团队通过迭代检测解码(DUIDD)、神经接收机(NRX)和链路自适应三个用例验证,表明该平台可实现站点特异性优化,在保持亚毫秒级延迟的同时提升系统吞吐量最高达18%,为6G RAN的智能化演进提供了软硬件协同设计范式。
随着5G网络在全球范围内的规模化部署,通信行业已将目光投向2030年商用的6G系统。与传统通信代际演进不同,6G被构想为原生融合人工智能(AI)的智能网络体系,其中无线接入网(RAN)作为连接用户设备与核心网的关键枢纽,其智能化转型尤为关键。当前5G网络中的AI功能多为后期叠加,存在算法固化、计算延迟高、难以适配多样化场景等问题。而6G愿景中的AI原生RAN要求从设计之初就嵌入数据驱动的智能能力,能够根据每个基站站点的独特环境进行实时自适应优化。这种范式转变对计算平台提出了前所未有的要求:既要满足严格的实时性约束(如层1/层2任务需亚毫秒级延迟),又要具备足够的灵活性以适应不断演进的AI模型和工作负载。
在此背景下,由NVIDIA与苏黎世联邦理工学院联合研究团队在《IEEE Wireless Communications》发表论文,系统阐述了基于图形处理器(GPU)的软件定义加速计算平台如何为AI原生6G RAN提供基础设施支撑。研究聚焦于"AI-for-RAN"技术路径,即利用AI提升RAN性能,而非替代传统信号处理算法。
为验证技术可行性,研究团队设计了三个具有代表性的AI-for-RAN用例。在迭代检测与解码(IDD)方面,传统接收机通过多轮迭代实现近似容限性能,但计算复杂度极高。团队提出的深度展开IDD(DUIDD)将模型驱动设计与机器学习结合,通过引入可训练超参数优化检测器与解码器间的外信息交换机制。
如图所示,采用射线追踪数字孪生数据训练的DUIDD在10%误块率(BLER)下较传统线性最小均方误差(LMMSE)检测结合低密度奇偶校验(LDPC)解码方案获得2.2 dB增益,且无需增加LDPC解码复杂度。
神经接收机(NRX)案例更进一步,用单一神经网络替代信道估计、均衡和解映射等多个传统处理模块。研究团队基于NVIDIA Sionna平台开发实时多用户多输入多输出(MIMO)NRX原型,仅含14.3万参数,在A100 GPU上可实现<1毫秒推理延迟。该设计突出动态重配置能力,能适应物理资源块(PRB)数量、用户数和调制编码方案(MCS)的瞬时变化,无需为每种配置单独训练模型。
研究表明,利用业务低谷期GPU空闲算力进行站点特异性微调,可有效补偿模型简化带来的性能损失。
链路自适应案例聚焦媒体接入控制(MAC)层,传统方案因信道状态信息(CSI)反馈延迟(4-8毫秒)难以跟踪快速变化的传播环境。团队采用深度强化学习(DRL)模型,结合历史CSI与混合自动重传请求(HARQ)确认信息,在GH200 GPU上实现每50微秒处理1000个链路的批量推理。实验显示,在0 dB信噪比(SNR)区域吞吐量提升达18%,在高SNR区域(>10 dB)仍保持7-8%增益。
关键技术方法包括:基于CUDA架构的软件定义编程模型,支持PyTorch/TensorFlow等深度学习框架;利用多实例GPU(MIG)虚拟化技术实现AI工作负载与常规RAN任务的动态编排;采用TensorRT等推理运行时进行图优化与内核融合;结合3GPP 38.901随机信道模型与射线追踪数字孪生数据构建训练集;通过实时在线微调实现模型与站点环境的持续适配。
II. 用例I:迭代检测与解码
研究通过对比DUIDD与传统IDD接收机的复杂度-性能权衡得出:DUIDD通过深度展开技术将迭代过程映射为可训练网络层,在保持与基线相同LDPC解码复杂度的前提下,仅增加2.2倍均衡器复杂度即可实现2.2 dB增益。而传统IDD为达到相同增益需增加4倍LDPC解码复杂度与额外2倍均衡器复杂度。这表明基于GPU的DUIDD在计算效率方面具有显著优势。
III. 用例II:神经接收机
针对5G物理上行共享信道(PUSCH)设计的NRX原型显示,其单次推理需13.0 GFLOPs/MIMO层(273 PRB/4接收天线),在30 kHz子载波间隔配置下算力需求约26 TFLOP/s。模型通过动态张量形状调整支持运行时重配置,当调度PRB减少时自动降低计算量。这种"按需计算"特性使得NRX在GPU平台上能兼顾标准合规性与实时性要求。
IV. 用例III:链路自适应
基于DRL的MCS选择算法每推理仅需111.5 KFLOPs,但批量处理需求使算力密度达2.23 TFLOP/s。研究证实GPU的并行架构特别适合此类细粒度批量任务,可将原本需多个CPU核处理的调度计算卸载至GPU,为高层协议栈释放CPU资源。多小区实验证明AI驱动链路自适应能有效克服CSI反馈延迟问题。
研究结论表明,AI原生6G RAN的实现依赖于软件定义加速计算平台的四大支柱:支持CUDA等高级编程模型的易编程性、随带宽与天线规模弹性扩展的计算能力、通过专用张量核心实现的亚毫秒级推理、以及基于动态图执行的模型适配能力。特别值得关注的是,站点特异性学习不仅能提升性能,还可通过模型简化降低常态推理开销;数字孪生技术加速训练数据生成;业务闲时GPU算力转化为模型优化资产,形成正向反馈循环。与传统认知不同,研究通过能效分析指出,GPU并行计算结合站点优化可显著降低运营功耗,证明AI-for-RAN在提升性能的同时具备绿色效益。
该研究为6G RAN架构设计提供了重要启示:首先,计算平台需统一程序弹性、低延迟与适应性等传统上相互矛盾的属性;其次,AI-for-RAN不应简单替代而是增强传统算法,如DUIDD保留模型基架构成分而优化信息交换机制;最后,软件定义基础设施使得网络智能可随业务需求迭代演进,为6G实现"网络即计算机"愿景奠定基础。这些发现不仅对通信设备商具有指导意义,也为芯片制造商、云服务商及标准组织在6G技术路线规划中协调计算与通信创新提供了框架参考。