混合遗传算法与深度强化学习在自主多模式卫星任务调度中的应用
《Acta Astronautica》:Hybrid genetic algorithm and deep reinforcement learning for autonomous multi-mode satellite task scheduling
【字体:
大
中
小
】
时间:2026年02月21日
来源:Acta Astronautica 3.4
编辑推荐:
自主卫星任务规划框架融合遗传算法优化、行为克隆预训练与D3QN微调,解决多约束耦合下的离散模式切换难题,验证其在高精度Basilisk仿真器中的高效性和泛化能力。
李林红|梁阳阳|李克波|唐金|冯琦
国防科技大学航空航天科学与工程学院,长沙,410073,中国
摘要
本文提出了一种用于地球观测卫星的自主任务规划框架,该框架考虑了多种操作约束,包括姿态控制动力学、功率限制、数据存储容量和动量饱和。规划问题被构建为在四种以任务为中心的模式之间进行离散模式切换:成像、太阳指向、数据下行链路和动量去饱和。与现有的方法不同,现有方法要么依赖于计算成本高昂的优化,要么在稀疏奖励探索方面遇到困难,本文介绍了一种新颖的三阶段混合方法,结合了遗传算法(GA)优化、行为克隆预训练和Dueling Double Deep Q-Network(D3QN)微调。其关键创新在于知识转移机制:通过行为克隆将GA生成的专家演示转移到神经网络策略中,从而在稀疏奖励环境中解决探索挑战,同时保持计算效率。该框架使用Basilisk模拟器进行了验证,能够准确模拟轨道动力学、姿态控制和功率生成。与需要数小时计算的GA相比,混合方法通过神经网络推理提供即时决策。与使用随机初始化的传统D3QN训练相比,其收敛速度提高了2.5到3倍。学习到的策略协调模式切换,以在满足操作约束的同时最大化任务回报。
引言
科学界和国防领域不断变化的需求,包括对更高时间分辨率、更大空间覆盖范围、快速响应能力和增强韧性的要求,需要更大规模的卫星系统来提供比传统单体航天器系统更经济高效、响应更快和更具韧性的解决方案[1]、[2]。这些未来的卫星系统统称为分布式卫星系统(DSS),包括星座式、列车式、集群式、群式、分片式和联邦式任务架构[1]。为了充分实现DSS的潜力,这些系统中的单个卫星必须具备强大的自主任务规划能力[2]。这种自主性使卫星能够在没有持续地面干预的情况下适应动态环境条件、系统约束和任务优先级。因此,为单个卫星开发有效的自主任务规划框架是推进DSS能力的基础要求。最近的研究进一步强调了分布式多智能体架构在空间系统中的自主规划和协调能力[3]。
由于航天器子系统之间的复杂相互依赖性,单个地球观测卫星的自主任务规划面临重大挑战。每个卫星必须同时管理有限的机载功率生成和存储、有限的数据存储容量、受限的姿态控制权限以及间歇性的地面站访问能力。这些约束进一步复杂化,包括中断功率生成的日食期、消耗控制权限的姿态扰动,以及需要在目标观测、数据下行链路、功率管理和系统健康维护等多个竞争目标之间取得平衡。传统的任务规划系统采用基于估计的环境条件的审慎方法来生成最优任务序列。然而,这些方法缺乏航天器对动态和不确定任务环境进行自主反应的灵活性[2]。为了真正满足现代太空任务的需求,自主规划必须从审慎方法转变为能够在不确定性下进行实时规划的适应方法[4]。
任务规划问题可以被构建为一个具有离散动作空间的顺序规划过程。最近的研究证明了离散动作公式在卫星调度问题中的有效性。大量工作将任务规划建模为一个离散序列规划问题,其中规划器在受可见性、功率和资源约束的情况下搜索时间有序的模式或任务序列。早期在地球观测领域的研究开发了集成序列调度器,这些调度器考虑了访问窗口和有限的机载资源[5]、[6]。范围调度公式侧重于在竞争的地面站可用性范围内选择下行链路联系[7]。遗传算法(GA)在太空任务规划中显示出显著优势,特别是在涉及多个约束和目标的复杂优化问题中。最近在主动碎片清除任务规划中的研究表明,遗传算法在解决混合整数非线性问题方面表现出色,同时尊重航天器约束,使其特别适合太空任务优化[8]。更近期的方法使用启发式树搜索来有效探索离散决策空间;例如,蒙特卡洛树搜索已被应用于地球观测卫星调度,以识别高质量的动作序列[9]。这种离散公式将连续控制问题简化为一组有限的以任务为导向的操作模式。然而,这种公式的一个关键挑战是稀疏奖励结构。代理只有在成功完成同时满足多个约束的复杂动作序列时才会收到有意义的奖励。这种稀疏奖励环境使得基于学习的方法的探索极其困难。
深度强化学习已成为复杂顺序任务中自主规划的一种强大范式。在航天器控制领域,许多研究已经证明了深度强化学习在自主姿态控制和引导方面的成功应用[10]、[11]、[12]、[13]。在此基础上,深度Q网络(Deep Q-Networks)引入了Q学习与深度神经网络的结合,以处理高维状态空间[14]。后续的改进包括Double DQN[15]和Dueling DQN[16],提高了学习稳定性和样本效率。Dueling Double Deep Q-Network(D3QN)结合了这两种改进,分离了状态值和动作优势估计,同时减少了过度估计偏差。这些方法在需要顺序规划的各个领域都取得了成功。尽管取得了这些进展,当前的基于DRL的卫星调度方法仍然存在几个重要限制。首先,大多数现有方法侧重于星座级别的任务选择,资源和姿态模型相对简化[17],没有明确捕捉姿态控制、功率生成、数据存储和动量积累的耦合动态。然而,真实的机载任务规划必须在这些紧密耦合的约束下考虑在成像、太阳指向、数据下行链路和动量去饱和之间的离散模式切换。其次,纯DRL方法通常依赖随机探索和奖励塑造来应对稀疏和延迟的奖励,这导致样本效率极低,并且在使用高保真模拟器时使训练成本过高。第三,尽管基于优化的调度器和验证工具[8]、[18]、[19]提供了高质量的解决方案和有价值的领域知识,但现有的DRL调度方法很少利用这些优化生成的演示来指导探索和提高学习效率。
为了解决稀疏奖励探索挑战,结合专家演示可以显著加速强化学习[20]。行为克隆通过监督学习将专家演示的知识转移到神经网络策略中[21]、[22],使代理能够从有信息的初始化中学习,而不是随机探索。最近在观察学习方面的进展进一步扩展了这些能力[23]。将行为克隆预训练与强化学习微调相结合,利用了快速的知识转移和超出演示行为的自适应改进。对于具有多目标约束的复杂太空任务规划问题,结合离散动作公式和优化方法的混合智能算法已被证明是可行且有效的方法[24]。最近的研究表明,将传统优化与深度强化学习相结合可以在卫星系统中实现高质量的解决方案和计算效率[19]。
本文提出了一种新颖的三阶段混合方法,用于单个地球观测卫星的自主任务规划,该方法既解决了稀疏奖励挑战,也满足了计算效率要求。所提出的框架将任务规划建模为在四种操作模式之间的离散模式切换:成像、太阳指向、数据下行链路和动量去饱和。第一阶段使用GA优化生成满足复杂约束组合的最优演示序列。然后在第二阶段使用这些专家演示进行行为克隆预训练,用领域知识初始化策略网络,大幅提高探索效率。第三阶段应用D3QN微调来完善预训练的策略,使其能够适应多样化的任务场景并超越演示行为进行泛化。本工作的主要贡献包括:
- •
结合GA优化、行为克隆预训练和D3QN微调的混合框架,用于自主卫星任务规划
- •
一种行为克隆策略,有效地将GA生成的专家知识(定义为满足任务约束并优化目标的高质量动作序列)转移到神经网络策略中
- •
在具有六自由度轨道和姿态动力学的高保真Basilisk模拟器上进行验证,证明了该方法在多约束场景中的有效性
本文的其余部分组织如下:第2节描述了卫星任务规划问题的构建,第3节介绍了混合学习框架,第4节报告了实验结果和策略分析,第5节提出了结论和未来研究方向。
部分摘录
地球观测卫星的任务规划
地球观测卫星的有效任务规划是一个复杂的优化问题。它涉及在遵守严格的机载资源约束的同时,对动作进行排序以最大化科学价值。核心挑战在于航天器子系统的紧密耦合性。一个系统的决策不可避免地会影响其他系统。开发一个强大的自主规划框架需要理解这些相互依赖性和操作模式。本节详细介绍了
作为顺序决策过程的任务规划
地球观测卫星的自主任务规划需要在多个约束下进行智能规划。航天器必须在物理限制内平衡目标观测、功率管理和数据传输等竞争目标。这个顺序决策问题可以被构建为一个马尔可夫决策过程(MDP),其中代理在每个时间步骤选择操作模式以最大化任务价值。MDP框架包括三个关键部分
实验设置
使用Basilisk构建了一个高保真的地球观测任务模拟器,其中包括六自由度轨道和姿态动力学、反作用轮、动量倾倒推进器、太阳能和电池模型以及数据生成和下行链路能力。轨道传播模型使用地球的引力场和两体动力学,而日食建模和SPICE星历提供了到地面站和地面目标的照明和视线。模拟环境
结论和未来工作
本文提出了一种三阶段混合框架,用于自主多模式卫星任务规划,该框架结合了GA序列优化、来自GA演示的行为克隆和D3QN微调,在具有耦合轨道和姿态动力学以及明确的功率、数据和执行器约束的高保真Basilisk环境中。结果表明,预训练的代理比随机初始化收敛速度快2.5到3倍,并且性能接近GA,同时保持了
CRediT作者贡献声明
李林红:撰写——原始草稿、软件、方法论、形式分析、数据整理。梁阳阳:撰写——审阅与编辑、监督、项目管理、资金获取、概念化。李克波:撰写——审阅与编辑、可视化、资源管理、调查。唐金:验证、资源管理、概念化。冯琦:调查、概念化。
写作过程中生成式AI和AI辅助技术的声明
在准备这项工作时,作者使用了Lingma语言模型进行文本润色和语言优化,以提高可读性和清晰度。本文中呈现的所有科学结果、数据、图表和参考文献都是作者原创并独立生成的。使用语言模型后,作者根据需要彻底审阅和编辑了内容,并对出版物的所有方面承担全部责任。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
这项工作部分得到了国家自然科学基金(项目编号12072366和U2441205)的支持,部分得到了空间系统运行与控制国家重点实验室的支持,部分得到了基于空气的信息感知与融合国家重点实验室的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号