TayMAML：一种基于元强化学习的边缘计算任务调度方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：TayMAML: A meta reinforcement learning-based task scheduling method for edge computing

【字体：大中小】 时间：2026年01月20日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　动态异构边缘环境中的元强化学习任务调度优化研究，提出有偏采样策略、轻量级分布一致性机制和泰勒展开一阶导数估计方法，有效提升计算效率与模型泛化能力。

Tao Ju|Zhiqing Wang|Heting Kang|Jiuyuan Huo|Tao Gu

中国兰州交通大学电子与信息工程学院

摘要

本文提出了TayMAML，这是一种针对动态异构边缘环境中传统元强化学习算法所面临的泛化能力不足以及计算效率与准确性之间的权衡问题而设计的边缘计算任务调度算法。为了提升任务调度性能，我们首先提出了一种基于训练损失的偏置采样策略，该策略用于评估任务学习进度，从而确保训练和测试任务分布的一致性。此外，我们还引入了一种轻量级的分布一致性策略，以进一步减少训练和测试分布之间的差异。该方法量化了分布差异，并将这些差异纳入元更新过程中的元损失中。通过理论推导，我们分离出了元更新过程中的二阶导数项。利用泰勒展开式，我们得到了二阶导数的一阶近似值，从而在避免元强化学习中通常伴随的二阶导数计算开销的同时，实现了精确的参数更新。实验结果表明，TayMAML显著提高了模型的泛化能力和稳定性，降低了系统延迟和能耗，并有效支持了动态异构边缘环境中的实时任务需求，其性能优于现有的最先进算法。

引言

随着物联网（IoT）和智能网络设备的快速发展，数据量和多样性显著增加。对于对延迟敏感且计算密集型应用而言，传统的集中式数据处理模型由于网络拥堵以及计算中心与终端设备之间的物理距离较远，常常导致传输延迟过长。为了解决这些问题，边缘计算作为一种在网络边缘提供数据处理服务的范式应运而生。然而，边缘计算资源有限，因此需要有效的任务调度策略来最小化整体延迟和能耗。深度强化学习（DRL）算法，如深度Q网络（DQN）、演员-评论家（AC）和深度确定性策略梯度（DDPG）已被广泛应用于边缘计算环境中的任务调度（Hospedales等人，2022年；Peng等人，2020年；Hortelano等人，2023年；Wang等人，2024年；Zhou等人，2021年）。这些算法通过迭代参数更新能够为特定类型任务生成最优调度决策。然而，在动态和复杂的边缘环境中，任务特性的变化带来了重大挑战。现有的DRL算法通常需要重新训练以适应新任务，这限制了它们利用先前知识快速适应不断变化的任务调度需求的能力（Yang等人，2022年；Chen等人，2022年；Wang等人，2019年；Zhang等人，2022年；Zhang等人，2022年；Li等人，2024年；Liao等人，2023年）。

为了使神经网络模型能够在不同任务之间传递知识，近期研究将元学习算法与DRL相结合，形成了元强化学习（MRL）算法。这些算法增强了模型对多种任务的适应性。元学习侧重于赋予模型高效学习的能力，通常包括两个不同的学习阶段：在内循环阶段，模型学习各个任务类型，学习进度以状态信息的形式生成反馈；在外循环阶段，根据收到的反馈更新神经网络参数。外循环的目标是确定一组初始参数，以实现跨不同任务的快速收敛（Gaikwad和Doke，2022年；Xu和Jian，2024年；Zabihi等人，2023年；Wei等人，2024年）。尽管MRL算法可能无法为每种任务类型始终做出最优调度决策，但它们能够生成一个泛化模型，以最小的参数更新次数为新任务做出接近最优的调度决策（Liao等人，2023年）。

本文的主要贡献如下：

1.

提出了一种针对边缘计算任务调度的偏置采样机制，优化了样本选择，提高了元训练数据利用效率——解决了资源受限的边缘环境中传统元强化学习算法对大量样本的需求问题。

2.

设计了一种轻量级的分布一致性策略，使训练和测试任务的分布特性保持一致，从而增强了元策略的泛化能力，而不会引入过多的计算负担——克服了现有MRL方法在跨任务适应性方面的不足。

3.

开发了一种基于泰勒展开式的一阶估计方法来计算二阶导数，减少了元更新的计算开销，同时保持了参数更新的准确性——解决了传统二阶MRL框架在计算效率与更新精度之间的权衡问题。

本文的其余部分结构如下：第2节回顾了相关工作，第3节介绍了系统模型。第4节详细阐述了我们提出的调度策略TayMAML，包括异构任务调度框架的建立、偏置采样策略、轻量级分布一致性策略以及基于泰勒展开式的一阶估计方法。第5节详细介绍了处理流程，涵盖了环境状态感知、调度决策制定、损失函数设计、训练阶段的参数更新以及算法实现细节。第6节描述了一系列比较实验，用于评估TayMAML的性能。最后，第7节总结了本文并提出了未来研究的潜在方向。

在当前的物联网边缘环境中，访问网络和应用程序请求的设备变得越来越复杂和多样化。传统的基于环境状态信息（如任务特征和计算节点信息）进行任务调度决策的DRL算法难以适应异构边缘环境。具有知识转移能力、更强泛化能力的MRL算法

系统模型

在实际的边缘计算场景中——例如智能物联网生态系统、实时导航和交通管理系统以及智能驾驶辅助平台——各种终端设备会动态生成异构的计算任务请求。因此，边缘计算系统中的任务调度必须考虑这种任务异构性。本文提出的边缘计算系统框架如图1所示。

该系统包括三个核心组件：决策代理、边缘服务器

调度策略

在具有异构任务的动态边缘环境中，通过元强化学习算法进行任务调度时，训练过程分为两个连续阶段：内循环和外循环。这两个阶段不断迭代，直到模型收敛，从而产生一个能够适应多种任务类型的通用模型。当用于调度新任务时，该模型可以快速调整为高性能的特定任务调度器，且参数调整较少。

处理流程

基于TayMAML的边缘计算任务调度整体处理流程如图4所示。

训练阶段：在内循环阶段，从任务分布中随机采样训练样本。神经网络模型将根据环境状态信息（包括训练样本）输出调度决策的概率分布。然后根据该概率分布做出调度决策，并计算相应的损失

实验设置

为了验证所提出的TayMAML算法的有效性，我们将其与代表性的元强化学习算法进行了比较实验，包括MAML、FOMAML、Reptile和D3DQN。需要注意的是，所有MRL算法都包含了DRL组件D3DQN（Tang等人，2011年）。

实验硬件配置如下：边缘节点配备了Intel Core i7-11700F CPU（8核，16线程）和32 GB DDR4 RAM；终端设备使用Raspberry Pi 4B

讨论

本文介绍了专为边缘计算任务调度设计的元强化学习框架TayMAML，它通过三项核心创新协同解决了传统MRL算法在资源受限边缘环境中的长期局限性。偏置采样策略通过根据任务学习进度动态调整测试样本大小，直接解决了样本效率低的问题，这一设计符合边缘任务的固有异构性

结论

本文开发了TayMAML，这是一个专门用于动态异构边缘计算任务调度的MRL框架，它整合了三项核心创新：偏置采样以提高样本效率、轻量级分布一致性以匹配训练和测试需求，以及基于泰勒展开式的一阶估计方法来减少二阶导数的计算开销。广泛的实验表明，TayMAML的性能优于现有的最先进方法

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了国家自然科学基金（项目编号：61862037和62262038）、中国兰州市科技计划项目（项目编号：2025-2-41）以及甘肃省研发计划（项目编号：25YFFA089）的支持。作者感谢匿名审稿人的宝贵建议。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究