《Neurocomputing》:Adaptive evolutionary inverse reinforcement learning for large-scale interconnected systems
编辑推荐:
针对大规模互联系统存在子系统模型不准确和强耦合的问题,提出基于进化逆强化学习的分散控制框架。通过逆强化学习从局部专家数据中重构子系统成本函数,结合进化算法进行全局优化,解决传统方法易陷入局部最优和计算复杂度高的难题,并验证了算法收敛性和系统稳定性。
Kai Ye|Ding Wang|Jiangyu Wang|Junfei Qiao
北京工业大学信息科学与技术学院,中国北京100124
摘要
由于实际存在的不确定性和干扰,互联系统的分散控制仍然受到其对子系统精确模型依赖性的根本限制。为了解决这一挑战,本文构建了一个基于进化逆强化学习的分散控制框架,用于大规模互联系统。具体而言,该方法使学习者子系统能够仅利用局部观测来模仿专家行为,从而无需精确的系统模型。通过结合逆强化学习的数据驱动能力和进化算法的全局优化优势,所开发的方法能够恢复局部成本函数并优化控制策略,以使局部行为与全局目标保持一致。此外,还提供了理论分析以确保学习算法的收敛性和闭环系统的渐近稳定性。最后,数值模拟表明,该方法能够实现大规模系统分散控制的精确模仿和稳定控制。
引言
现代工程和社会领域的各种大规模互联系统,如智能电网、多智能体自主运输车队和分布式工业过程网络,逐渐成为支持复杂操作场景的核心基础设施[1]、[2]、[3]。这些系统通常由多个地理分散的子系统组成,这些子系统表现出强烈的非线性耦合和动态不确定性。这些特性对传统的集中控制策略提出了重大挑战,因为传统控制策略依赖于全局状态获取和统一决策。因此,集中式方法往往面临过高的计算复杂性、高通信带宽需求以及对局部子系统故障的有限鲁棒性[4]。
Liu等人[5]进一步强调,将大规模互联系统的控制设计划分为可管理的子系统级子问题是突破这些限制的必要途径,这促进了分散控制的广泛应用。分散控制利用仅可局部测量的状态或输出来实现每个子系统的独立调节,有效降低了计算负担并提高了系统的容错能力,因此在过去几十年中成为大规模系统控制领域的研究重点。已经投入了大量研究工作来探讨分散控制的各个方面,包括在信息交换受限条件下的稳定性分析、针对子系统间干扰的鲁棒控制器合成以及基于图的限制下的协同优化[6]、[7]。此外,还开发了许多方法来应对特定挑战,如通信延迟、执行器饱和和传感器非线性[8]。最近的进展还包括考虑稀疏性的控制设计、事件触发通信机制和基于分布式学习的自适应策略,进一步拓宽了分散框架在复杂工程系统中的适用性和效率[9]、[10]。
然而,大多数现有的分散控制方法依赖于对子系统动态的精确了解,而在实际应用中这一假设往往难以满足。例如电网中的组件老化等内部参数扰动,以及交通系统中的流量波动等外部环境干扰,经常导致系统动态未知或随时间变化。这些不确定性不可避免地会降低固定结构分散控制器的性能。为了解决动态未知的问题,自适应动态规划(ADP)作为一种基于强化学习的有效无模型方法被引入[11]、[12]、[13]、[14]、[15]、[16],它通过与环境互动实现在线策略优化。作为ADP的补充,逆强化学习(IRL)作为一种有前景的数据驱动工具应运而生[17]、[18]、[19]、[20]、[21]、[22]、[23]。它从观测到的操作数据中推断出子系统的隐含性能标准(如成本函数),从而无需依赖精确的动态模型即可设计控制策略。然而,单独的IRL和ADP在大规模互联系统中各自存在特定局限性。IRL常常难以处理子系统之间的强耦合,导致学习到的局部成本函数偏离全局优化目标。同时,ADP通常需要大量的交互数据,并且在高维环境中可能收敛缓慢[24]、[25]、[26]、[27]、[28]、[29]、[30]。此外,IRL优化过程的固有复杂性容易使算法陷入局部最优解,导致计算资源被浪费在无效的迭代上。这些挑战促使人们将IRL与全局优化技术相结合,以提高学习效率和分散控制性能。
进化算法(EAs)凭借其全局优化能力、对非线性的鲁棒性和对高维问题的适应性,可以有效弥补这些缺点[14]、[31]、[32]、[33]、[34]、[35]、[36]、[37]、[38]。受先前研究的启发,本文开发了一个进化逆强化学习(EIRL)框架,以实现大规模互联系统的分散控制。该方法有效地结合了IRL和EAs,解决了两个关键问题:未知的子系统动态和强子系统耦合。具体来说,IRL从历史子系统数据中推断出支持全局控制目标的局部性能标准,从而无需精确的系统模型。同时,EAs通过细化IRL学习到的成本函数来优化分散控制器之间的协调,从而通过迭代全局搜索减轻子系统耦合的负面影响。这一过程通过协调子系统交互并减少控制偏差,确保了局部性能和全局一致性。因此,这种集成不仅提高了全局稳定性、控制精度和实际应用性,还减轻了传统IRL相关的计算负担。
主要贡献如下:
(1)为大规模互联系统建立了一个基于EIRL的新分散控制框架,仅使用局部可观测的专家数据来重建局部成本函数和控制策略。
(2)开发了一种无模型的离策略IRL算法,使每个局部子系统能够在不需要精确系统模型的情况下模仿专家行为。
(3)为学习算法和产生的分散控制策略提供了收敛性和稳定性保证,确保学习者子系统渐近地复制专家行为,同时保持全局系统稳定性。
本文的结构如下:第2节介绍了互联系统的分散控制问题和专家-学习者框架。第3节提出了通过IRL进行的分散控制器设计及其收敛性和稳定性分析。第4节建立了无模型的分散EIRL算法。第5节通过数值模拟证明了所开发方法的有效性。第6节给出了最终结论和未来工作方向。
符号说明:
表示维欧几里得空间,表示其范数。表示所有实矩阵的集合。表示矩阵的向量化操作。表示单位矩阵。符号、、分别表示梯度运算、转置运算和克罗内克积。章节摘录
问题陈述
在本节中,介绍了专家子系统和学习者子系统。每个专家子系统独立生成最优行为,包括其对应的局部学习者可以观测到的局部状态和控制输入。基于这些局部观测,为每个学习者开发了一个分散IRL框架,以重建其关联专家的未知成本函数。这种方法使每个学习者能够复制其专家的状态和控制行为。
通过逆强化学习进行分散控制器设计
在本节中,通过IRL解决了大规模线性互联系统的分散控制器设计问题。首先,通过移除互连来获得孤立的子系统。然后,使用IRL恢复这些子系统的局部最优成本函数。同时,利用专家示范数据解决线性系统的代数Riccati方程(ARE)。随后,将局部最优控制策略扩展到整个互联系统。
分散进化逆强化学习
在第III节中,在精确系统动态的假设下通过解决ARE获得最优控制增益。然而,对于大规模互联系统,精确的子系统模型通常不可用。此外,传统的基于梯度的IRL方法容易陷入局部最优解,并且在处理非凸优化问题时对初始值敏感。
为了克服这些挑战并确保学习到的局部控制增益收敛到
仿真
在本节中,通过数值仿真验证了所提出的分散EIRL算法的有效性。
考虑一个由两个专家子系统组成的连续时间线性互联系统,其动态如下:
其中和是专家子系统1和专家子系统2的状态向量,和是它们的相应控制输入。专家子系统的权重矩阵设置为
专家子系统的ARE解和控制增益为
学习者子系统共享
结论
本文为具有未知动态和强子系统耦合的大规模互联系统构建了一个基于EIRL的分散控制框架。所建立的方法有效地结合了IRL的数据驱动学习能力和EAs的全局优化优势,使每个局部子系统能够在不需要精确了解系统动态的情况下模仿专家行为。在两个子系统的互联系统上的仿真结果
CRediT作者贡献声明
Kai Ye:撰写 – 审稿与编辑,撰写 – 原稿,软件,方法论。Ding Wang:撰写 – 审稿与编辑,监督,资金获取。Jiangyu Wang:撰写 – 审稿与编辑。Junfei Qiao:撰写 – 审稿与编辑。
Kai Ye于2024年在中国烟台大学获得自动化学士学位。他目前在中国北京工业大学攻读控制科学与工程硕士学位。他的研究兴趣包括逆强化学习、自适应动态规划和进化算法。