一种基于群体智能的多智能体强化学习方案，用于物联网区块链中的计算任务卸载

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Future Generation Computer Systems》：A Swarm Intelligence Enabled Multi-agent Reinforcement Learning Scheme for Computational Task Offloading in Internet of Things Blockchain

【字体：大中小】 时间：2026年03月01日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　本文针对物联网区块链系统中计算任务卸载的动态优化问题，提出基于群体智能的多智能体强化学习（SIMARL）算法。该算法通过替代梯度下降方法提升探索效率，增强协作与适应能力，实验表明其收敛性能、解质量和鲁棒性优于现有方法。

作者：卓晨、易嘉欢、朱晓飞、王庆阳、姚建峰、罗伟

重庆理工大学计算机科学与工程学院，中国重庆 400054

摘要

物联网（IoT）设备的大规模部署带来了用户隐私数据泄露的风险，并对网络安全构成了新的威胁。因此，许多IoT系统采用了基于工作量证明（PoW）或类似PoW的共识机制，因为这些机制具有较高的安全性和完全去中心化的设计，从而提升了整体安全性。然而，由于众多IoT设备在计算资源和可用能源方面的差异，区块链在IoT系统中的部署受到了阻碍。尽管将维护区块链系统所需的计算任务卸载到云或边缘节点上可以减轻IoT设备的负担，但由于计算资源有限、可支付预算和能源可用性等因素，有效且灵活地做出卸载决策仍然具有挑战性。本文提出了一种基于群体智能的多智能体强化学习（SIMARL）算法。首先，该算法用群体智能算法的高效探索和优化能力替代了传统深度强化学习（DRL）中的梯度下降方法，解决了DRL在训练过程中的不稳定性和容易陷入局部最优解的问题。此外，SIMARL不仅提高了智能体之间的协作效率，还在优化过程中显著增强了对复杂环境变化的适应性。基于SIMARL，我们为IoT设备设计了一种动态计算任务卸载方案。与多种代表性任务卸载算法的比较实验结果表明，基于SIMARL的方案在算法收敛性能、解决方案质量、算法适应性和鲁棒性方面表现更优，验证了其为IoT区块链环境中的动态任务卸载提供优秀决策能力的能力。

引言

近年来，随着物联网（IoT）应用的大规模部署，不仅各种类型的终端或设备之间的互联互通程度不断提高，还促进了多样化数据的广泛感知、收集和传输。这为物理世界和数字世界的融合提供了重要支持。但与此同时，可信的数据交互问题越来越受到学术界和工业界的关注。用户隐私数据泄露、网络安全威胁和设备可靠性问题日益突出，亟需解决方案[1]、[2]。区块链技术凭借其去中心化和防篡改的特性，成为确保IoT系统安全性和可靠性的潜在解决方案[3]、[4]。利用区块链的共识算法，系统内的各种IoT设备可以通过某种竞争机制争夺在全球账本上记录交易的权利，并以分布式方式在多个参与设备中存储账本的多个副本。这有效防止了对链上数据的恶意篡改或未经授权的访问，从而在涉及多个节点的场景中确保数据的一致性和安全性。在不同的共识方法中，工作量证明（PoW）共识[5]和最近提出的类似PoW的共识算法[6]、[7]因其高安全性、完全去中心化的特性以及抗量子计算攻击的能力[8]、[9]、[10]而被许多实际区块链系统广泛采用。然而，尽管类似PoW的共识在安全性和抗攻击性方面表现出色，但其相对较高的能耗和对计算资源的强烈依赖性给资源受限的IoT设备的部署带来了困难。随着云服务提供商（CSP）和边缘服务提供商（ESP）提供越来越便捷的计算服务[11]，IoT设备可以通过从这些提供商那里租赁计算资源，将繁重的计算任务卸载到云端或附近的边缘服务器上，从而高效参与类似PoW的共识执行。然而，由于CSP和ESP在计算资源规模、服务延迟和资源定价模型方面的差异，IoT设备如何在满足IoT应用执行效率和数据安全要求的同时合理分配其可支付预算，仍然是IoT区块链系统设计中的一个未解决的问题。

强化学习（RL）或深度强化学习（DRL）已经证明了其在解决复杂高维空间问题和在不确定环境中自适应学习策略方面的能力，使其成为解决优化问题的一个有前景的新方法。因此，它已被应用于网络系统中的资源分配和序列决策[12]、[13]。然而，将独立的DRL模型应用于网络系统仍存在一些明显的缺点。一方面，模型训练过程中的不稳定性（例如收敛缓慢、模型崩溃、过拟合等）和超参数调优的复杂性导致次优解。这些问题主要源于DRL依赖梯度下降来优化网络参数，这容易导致模型陷入局部最优解，从而影响模型准确性。另一方面，训练DRL模型需要大量的累积数据和时间消耗，往往无法满足IoT应用的需求。

最近，一些研究探索了混合DRL-元启发式方法来提高学习性能。例如，群体智能和进化算法已被用于改进DRL框架中的动作选择、超参数调整或指导探索策略[14]、[15]、[16]、[17]。虽然这些研究在一定程度上可以提高收敛速度或局部搜索能力，但它们的策略学习过程仍然依赖于基于梯度的优化方法。此外，一些研究表明，将人工神经网络与元启发式算法结合可以更有效地优化神经网络的连接权重和偏差[18]、[19]。群体智能优化算法（SIOA）是一种元启发式算法，通过模拟生物群体的集体行为表现出强大的探索和利用能力，使其在优化神经网络权重和偏差方面具有特别的优势[20]、[21]。尽管初步证明了将群体智能算法与神经网络结合的优势，但目前仍缺乏关于这种组合是否有助于提高DRL在解决优化问题时的效率和解决方案质量的研究，尤其是在动态IoT网络场景下的连续决策方面。

为了解决当前的研究空白，本文介绍了基于群体智能的多智能体强化学习（SIMARL），它将群体智能与DRL相结合，以解决动态IoT区块链系统中的计算任务卸载问题。与传统依赖于基于梯度的策略更新的MARL方法不同，SIMARL通过群体智能进行全局策略优化，从而提高了探索能力并降低了对学习率和网络架构等超参数的敏感性。本文的主要贡献总结如下：

我们将IoT终端在系统中多个时间间隔内参与区块链计算所获得的累积收入作为优化对象，同时充分考虑了IoT终端的计算能力、服务延迟、可支付预算和资源定价等多个因素，然后建立了一个用于计算任务卸载问题的时间序列模型。
本文将群体智能算法引入多智能体强化学习框架，利用其在解决方案空间探索和优化方面的能力来增强RL的策略网络。然后我们提出了SIMARL算法，该算法不仅提高了多个智能体之间的协作效率，还在优化过程中显著增强了对环境变化的适应性。基于SIMARL，我们进一步提出了IoT区块链系统中设备的计算任务卸载方案。
我们建立了一个仿真系统来对基于SIMARL的任务卸载方案进行实验分析。我们从收敛性能、解决方案质量和有效性等方面评估了所提出的算法。此外，我们还在多种网络场景下对SIMARL与其他代表性基线算法进行了详细的性能比较，以评估SIMARL的鲁棒性和适应性。

本文的其余部分组织如下：第2节回顾相关工作。第3节介绍系统模型。第4节介绍所提出的SIMARL算法及其在IoT区块链场景中的应用细节。第5节提供实验结果和分析。第6节总结本文。

系统模型

图1展示了一个集成区块链以实现可信数据共享的典型IoT系统。该系统包括多个ESP、一个CSP和不同类型的IoT设备。这些IoT设备执行类似PoW的共识算法以维持区块链系统的正常运行。我们认为边缘节点可以由不同的ESP部署和维护。ESP和CSP通过出租其可用的计算资源、存储资源和网络链接来获得收入

基于SIMARL的分布式计算任务卸载方案

在本节中，我们介绍了基于SIMARL提出的任务卸载解决方案。本质上，SIMARL可以归类为基于策略的RL方法。因此，我们首先简要介绍了基于策略的RL模型的解决方案方法，并指出了它们在处理大规模或复杂任务时的局限性。我们将第3节中制定的优化问题建模为马尔可夫决策过程（MDP）。然后详细描述了基于SIMARL的方法来解决问题

实验结果与讨论

在本节中，我们通过构建一个用Python3.7.15编程的仿真系统，对SIMARL的有效性和性能进行了全面评估。所有仿真都在配备Intel Core i7-9700K CPU（3.6 GHz）、32 GB RAM和NVIDIA GeForce RTX 4090 Ti的工作站上进行。选择了最近提出的代表性卸载算法作为与SIMARL比较的基线算法。为了尽可能接近现实世界场景并确保公平性

结论

为了提高类似PoW的IoT区块链系统中计算任务卸载决策的质量，本文提出了一种称为SIMARL的方法。SIMARL通过SIO创新性地优化了策略网络的参数，有效避免了传统梯度下降方法中的常见问题，如超参数敏感性和陷入局部最优解。实验结果表明，SIMARL在收敛性和解决方案方面优于其他代表性的基线算法

CRediT作者贡献声明

卓晨：撰写——审稿与编辑、撰写——初稿、监督、方法论、形式分析。易嘉欢：撰写——审稿与编辑、撰写——初稿、可视化、验证、方法论、调查、形式分析。朱晓飞：监督、方法论、调查、资金筹集。王庆阳：资金筹集。姚建峰：资金筹集。罗伟：资金筹集。

利益冲突声明

我们声明与可能不当影响我们工作的其他个人或组织没有财务和个人关系，对任何可能被视为影响本文立场或手稿评审的产品、服务和/或公司没有任何专业或其他形式的个人利益。

卓晨：男性，2013年在中国电子科技大学（UESTC）获得通信与信息系统博士学位。他目前是重庆理工大学计算机科学与工程学院的副教授，研究兴趣包括分布式机器学习和IoT应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号