基于选择性熵融合的近端策略优化与联邦强化学习相结合的方法，用于智能多无人机（multi-UAV）的轨迹规划和通信优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Selective entropy-fused proximal policy optimisation with federated reinforcement learning for intelligent multi-UAV trajectory and communication optimisation

【字体：大中小】 时间：2026年06月06日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要5G和新兴的6G网络的快速发展增加了对能够提供高容量、低延迟和适应性的无线通信系统的需求。然而，传统的地面基础设施仍然成本高昂且不够灵活，尤其是在动态或偏远环境中。本文提出了一种基于联邦强化学习（FRL）的无人机（UAV）通信系统，该系统采用选择性熵融合近端策略优化（SEF-

摘要

5G和新兴的6G网络的快速发展增加了对能够提供高容量、低延迟和适应性的无线通信系统的需求。然而，传统的地面基础设施仍然成本高昂且不够灵活，尤其是在动态或偏远环境中。本文提出了一种基于联邦强化学习（FRL）的无人机（UAV）通信系统，该系统采用选择性熵融合近端策略优化（SEF-PPO）算法，以提升实时决策环境中基于本地策略的学习性能。与现有的数字孪生技术或离线训练的深度强化学习（DRL）方法相比，该方案无需使用回放缓冲区，从而减少了无人机平台对内存和计算资源的需求。无人机通过与其他无人机以及高空平台（HAP）的联邦聚合进行协作学习，同时保护数据隐私并保持对非独立同分布（non-IID）用户分布的鲁棒性。该框架将轨迹规划、用户关联、能效资源分配和切换管理整合到一个统一的自适应架构中。实验结果表明，与基线方法（包括DMTD、DRL-EC³以及贪婪算法和随机算法）相比，在吞吐量、公平性、延迟和能效方面均有显著提升。总体而言，所提出的设计实现了可扩展、节能且能响应环境变化的无人机协调机制，为下一代无线网络提供了一种无需基于仿真的预训练即可直接部署的解决方案。

联系信箱：

粤ICP备09063491号

摘要

热点排行