基于协作式深度强化学习（DRL）的任务卸载技术，应用于海上边缘计算领域

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ad Hoc Networks》：Collaborative DRL-driven task offloading for maritime edge computing

【字体：大中小】 时间：2026年01月27日 来源：Ad Hoc Networks 4.8

编辑推荐：

　　海洋边缘计算环境下，动态任务卸载需平衡能时延迟与资源约束。本文提出ID-EDTO算法，融合双DQN架构与动态功率分配策略，构建云-边-端协同框架，通过优先级经验回放与自适应学习率机制优化决策，实验表明其优于随机选择、Lyapunov优化及主流DRL算法，显著降低延迟与能耗。

杨虎根|胡一文|杨忠明|杨晓辉|岳光学

江西科技学院理学院，中国江西省赣州市科家路1958号，341000

摘要

移动边缘计算的引入使资源受限的海上终端用户能够访问低延迟的计算服务；然而，海洋环境的动态特性和稀缺资源使得传统的计算卸载策略无法满足实际需求，因此任务卸载成为实现快速高效服务并优化资源利用的关键问题。特别是，微调卸载决策过程对于提高网络稳定性和延长系统续航时间至关重要。为了解决这些挑战，本文提出了一种基于深度强化学习的海上边缘计算任务卸载方法。该方法推导出任务卸载的最佳传输功率，并将功率分配问题纳入卸载决策框架中，确保卸载决策在特定功率范围内高效执行。我们将任务卸载问题建模为马尔可夫决策过程，并基于此设计了一种改进的双深度Q网络（Double DQN）能量-延迟权衡优化算法（ID-EDTO），该算法使系统能够从任务请求中动态获取状态反馈并相应地调整其卸载策略。实验结果表明，与随机选择、李雅普诺夫优化和联合资源分配等传统基线方法以及基于DRL的算法（包括PPO、SAC和A3C）相比，所提出的方法在减少延迟和能耗方面表现更优。

引言

海洋物联网（IoMT）被视为智能海洋发展的关键组成部分，在海洋环境监测、智能航运管理、海洋资源探索和生态保护等领域具有广泛的应用价值[1]。然而，复杂的海洋环境和通信基础设施的稀缺性给IoMT系统在即时数据处理、任务调度和动态资源分配方面带来了严峻挑战。传统的以云为中心的架构由于高延迟和能耗问题而无法满足海上应用对低延迟和高可靠性的严格要求[2]。为了解决这些问题，边缘计算提供了一种分布式计算架构，将计算和存储资源 bring 更接近数据源，从而实现本地数据处理和即时响应，为IoMT系统的有效运行提供关键支持。

移动边缘计算（MEC）在靠近终端设备的边缘节点部署计算能力，从而缓解资源限制，减少传输延迟，并最小化网络负载[3]。尽管MEC在陆地环境中得到了广泛研究，但由于边缘基础设施分布稀疏和部署成本高昂，其在海洋场景中的发展仍然有限。与陆地系统中基站密集和连接稳定的情况不同，海洋MEC必须在资源限制下运行，边缘服务器在广阔的海域中分布有限。船舶的移动性和连接的稀疏性创造了与陆地网络截然不同的动态条件，陆地网络中的波动主要是由于密集的用户流量和切换造成的。这使得任务卸载成为海洋通信系统中的一个基本挑战。因此，平衡能耗和延迟的问题变得尤为关键。在这种环境中，功率分配尤为重要，因为传输机会有限，必须谨慎管理船舶与服务器之间的链接以避免过度能耗和长时间的服务延迟。受这些挑战的启发，本研究探索了将联合能量延迟优化与自适应功率分配相结合的智能任务卸载策略，以提高海洋MEC系统的效率和鲁棒性。

为了解决上述挑战，强化学习（RL）被作为一种自适应学习方法，通过与环境互动不断优化决策制定，为任务卸载提供了可行的解决方案[4]。特别是，深度强化学习（DRL）利用深度神经网络在高维特征表示方面的优势，在处理动态和复杂环境中的任务卸载问题方面展现出巨大潜力[5]。将强化学习与海洋MEC场景相结合，可以实现卸载策略的动态调整和多目标优化，为智能任务卸载提供高效灵活的解决方案。

综上所述，本文的主要贡献有三个方面：

(1)
“云-边缘-终端”协作层次架构。我们提出了一个协作的“云-边缘-终端”框架，以支持海洋通信系统中的闭环任务卸载。为了共同优化能耗和延迟，设计了一种基于DRL的卸载机制，该机制根据链路质量和任务特性动态调整卸载决策。
(2)
卸载任务的功率分配。我们通过泰勒近似和数值方法推导出动态功率分配范围，并将其纳入改进的双深度Q网络（ID-EDTO）中，从而在动态海洋条件下实现功率控制和卸载决策的联合优化。
(3)
改进的双深度Q网络能量-延迟权衡优化算法（ID-EDTO）。我们提出了ID-EDTO，这是一种改进的双深度Q网络算法，采用双网络结构来减少Q值估计误差，并结合了优先经验回放机制以实现高效学习。此外，它还加入了自适应学习率和探索率调整机制以提高训练稳定性。

本文的其余部分组织如下：第2节回顾了海洋通信中边缘计算和强化学习任务卸载的相关工作。第3节介绍了系统模型，包括网络架构和计算卸载模型。第4节介绍了卸载任务的功率分配策略。第5节详细介绍了基于双深度Q网络的ID-EDTO算法。第6节提供了实验设置、参数分析和与基线方法的性能比较。最后，第7节总结了本文并指出了未来工作的方向。

节选

边缘计算在海洋通信中的应用

边缘计算已被引入海洋物联网（IoMT），主要是为了缓解终端的计算能力有限和海洋通信链路的不稳定性。在这一背景下，关于任务卸载的研究逐渐进展。

最早的方法（如随机选择）易于实现且计算开销小，但它们缺乏对网络状态的认知，因此不适合高度动态的海洋环境

“云-边缘-终端”协作的网络架构

如图1所示，为了满足多样化的应用需求并克服远距离通信和资源限制的挑战，本文建立了一个基于云-边缘-终端协作的海洋边缘计算系统模型。该模型整合了海上终端设备、边缘计算节点和集中式云计算资源，确保系统高效运行，同时实现低延迟和低能耗。

在终端层，分布式海上设备

卸载任务的功率分配

在海洋MEC场景中，适当的功率分配是优化系统性能的关键因素[30]。任务卸载过程中的功率选择直接影响传输延迟、能耗和处理效率[31]。然而，由于海洋环境的资源限制和通信链路的时间变化特性，确定最佳功率成为一个具有挑战性的问题[32]，[33]。在本节中，我们构建了目标

基于双深度Q网络的海洋MEC用户卸载服务方案

为了解决海洋MEC用户面临的卸载任务分布不均问题（这会导致马太效应和负载平衡问题），并提高网络稳定性和延长系统续航时间，本文提出了一种基于双深度Q网络（Double DQN）的任务卸载方案。通过联合优化能耗和延迟平衡目标，该方法实现了快速和自适应的任务调度和资源分配，从而实现负载平衡并提高整体

实验设置

本实验的开发环境基于Python 3.10.14和TensorFlow 2.17。实验代码分别在Jupyter Notebook和PyCharm中开发和调试。模拟数据由一个自设计的海洋边缘计算模拟环境生成，该环境模拟了现实世界海洋场景中的复杂任务卸载过程。实验参数的配置见表3。

学习率调整机制

学习率决定了收敛速度和

结论与未来工作

本文通过构建一个协作的“云-边缘-终端”架构和能量-延迟联合优化模型，解决了复杂动态环境中海洋物联网（IoMT）的任务卸载问题。提出了一种基于深度强化学习的动态任务卸载决策机制。实验结果表明，所提出的算法在海洋MEC场景中表现出优越的卸载决策能力和鲁棒性能。

CRediT作者贡献声明

杨虎根：撰写 – 审稿与编辑、监督、方法论、资金获取、概念化。胡一文：撰写 – 原始草稿、可视化、方法论、概念化。杨忠明：撰写 – 审稿与编辑、方法论、概念化。杨晓辉：撰写 – 审稿与编辑。岳光学：撰写 – 审稿与编辑、监督、方法论、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了国家自然科学基金（U19B2015和No.12161043）和赣州市指导性科技计划项目（GZ2024ZSF874）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

节选