基于强化学习的受控投切方法用于电力变压器励磁涌流最小化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Reinforcement learning-based controlled switching approach for inrush current minimization in power transformers

【字体：大中小】 时间：2026年06月07日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　变压器是保障电网可靠运行以及将可再生能源（RES）接入电网的关键设备。变压器铁芯由铁磁性材料构成，而铁芯的磁化状态会导致变压器在合闸励磁时产生较高的励磁涌流。此类高幅值电流会缩短变压器寿命，并引发电网电能质量问题，从而对可再生能源并网的可靠性构成挑战。尽管已有

变压器是保障电网可靠运行以及将可再生能源（RES）接入电网的关键设备。变压器铁芯由铁磁性材料构成，而铁芯的磁化状态会导致变压器在合闸励磁时产生较高的励磁涌流。此类高幅值电流会缩短变压器寿命，并引发电网电能质量问题，从而对可再生能源并网的可靠性构成挑战。尽管已有多种机器学习（ML）方法被提出用于励磁涌流分类，但励磁涌流最小化需要在考虑变压器动态运行特性的前提下学习一系列动作。这与分类问题不同，并伴随与材料磁化特性及电力变压器运行动态相关的显著挑战。本文提出一种新的强化学习（RL）励磁涌流最小化方法，该方法能够生成适应电力变压器动态运行的序贯决策策略。所提方法采用近端策略优化（PPO）算法，并利用一个真实7.4 兆伏安（MVA）电力变压器的基于对偶原理的等效模型进行训练与评估。研究人员将基于PPO的策略与两个基准进行比较：深度Q网络（DQN）以及实验室测试中采用的经典断路器（CB）投切方法。结果表明，PPO方法能够有效最小化励磁涌流，与DQN相比可降低14.29%，与实验室测量结果相比可降低79.78%。

该研究发表于《Engineering Applications of Artificial Intelligence》，聚焦于电力变压器合闸励磁过程中励磁涌流的自适应抑制问题。研究背景在于，变压器是电力系统可靠运行和可再生能源（RES）接入的重要基础设备，但在励磁瞬间，受铁芯饱和、磁滞特性、剩磁磁通以及断路器（CB）合闸时刻共同影响，常出现远高于额定值的励磁涌流。这类涌流不仅会带来机械应力并加速绝缘与本体老化，而且可能诱发误动作、谐波畸变等电能质量问题。在新能源发电分散化、远距离接入和配电网接入比例不断提升的背景下，这一问题对电网稳定性与电能质量的影响更加突出，因此开展励磁涌流抑制研究具有明确的工程必要性。

论文指出，传统受控投切方法虽然能够在一定条件下抑制涌流，但其开关时刻通常依赖解析规则、确定性参数和理想运行假设。实际工程中，剩磁磁通估计易受电压测量误差影响，且系统阻抗耦合可能导致暂态铁磁谐振，使波形失真并进一步降低剩磁估计精度。同时，断路器绝缘介质特性、预击穿、重击穿以及机械动作时间偏差，也会使实际投切行为偏离标称状态。由于剩磁估计和断路器动作都具有不确定性且随时间变化，最优合闸时刻本质上属于动态、序贯决策问题，难以通过静态规则长期准确处理。基于此，研究人员提出以强化学习（RL）替代传统固定规则，从与变压器环境的交互中学习更优的合闸策略，以适应时变和不确定运行条件。

研究人员构建了一种基于强化学习与受控投切相结合的励磁涌流最小化框架，以近端策略优化（PPO）为核心算法，将断路器合闸角选择建模为马尔可夫决策过程（MDP）。为支撑算法训练与验证，论文还建立了一个能够重现实验励磁涌流暂态的变压器环境模型。该模型采用基于对偶原理的电气等效建模方法，并结合Jiles–Atherton（JA）磁滞模型描述铁磁铁芯非线性磁化行为。模型通过一台真实7.4 MVA、30/20 kV变压器的实验数据进行验证。随后，研究人员在该仿真环境中训练PPO智能体，并将其与两类采用不同探索—利用衰减函数的深度Q网络（DQN）模型，以及实验室中采用的经典断路器投切方法进行对比，目标是将励磁涌流峰值限制在变压器额定电流的1 标幺值（p.u.）以下。

就关键技术方法而言，本文主要采用了四类方法。其一，使用强化学习（RL）中的近端策略优化（PPO）进行序贯控制策略学习，并以深度Q网络（DQN）作为对照。其二，采用马尔可夫决策过程（MDP）对变压器受控投切过程进行形式化建模，将状态、动作、奖励和环境转移统一纳入学习框架。其三，建立基于对偶原理的三相三柱双绕组变压器等效模型，并结合Jiles–Atherton（JA）磁滞模型刻画铁芯非线性与磁滞特性。其四，使用真实7.4 MVA、30/20 kV变压器的励磁涌流实验结果对模型进行验证，再据此完成训练、评估与外部验证。

在研究结果部分，论文首先在“Reinforcement learning fundamentals”中给出了方法学基础，说明强化学习算法通过马尔可夫决策过程处理序贯决策问题，并以状态集合、动作集合、奖励函数、状态转移概率及折扣因子构成基本框架。这一部分的作用在于为后续将断路器合闸控制问题转化为智能体学习问题提供理论基础，明确了为何励磁涌流最小化不是简单分类，而是依赖连续交互反馈的控制任务。

在“Proposed approach”部分，研究人员提出完整的励磁涌流最小化框架，将强化学习与受控投切进行耦合。该框架的核心思想是：利用变压器断开后的剩磁磁通状态作为环境输入，由智能体学习合适的断路器合闸时刻，以降低合闸瞬间剩磁磁通与预期磁通之间的偏差，从而减轻铁芯饱和和励磁涌流。此处形成的关键结论是，受控投切可被有效表述为可学习的动态控制问题，而PPO具备处理此类问题的潜力。

在“Numerical results”部分，研究人员首先验证了变压器模型的准确性，即通过将仿真励磁涌流结果与实验测量值进行比较，确认所建环境能够合理重现实际暂态过程。这一步保证了后续强化学习训练的可信性。随后，研究人员在该环境中对所选强化学习算法进行训练、评估和验证。结果表明，所提策略在训练后能够稳定学习到降低励磁涌流的投切行为，并且PPO在总体表现上优于作为对照的DQN模型与传统方法。由此可得出结论：在准确环境模型支撑下，强化学习能够形成适用于变压器励磁控制的有效策略。

在“Discussion”部分，论文进一步归纳实验结果，指出基于强化学习的受控投切策略能够显著抑制变压器励磁涌流。尤其是PPO控制器相较于经典非受控投切，将励磁涌流峰值降低了79.78%，并将峰值限制在约0.18 p.u.。这一结果表明，基于学习的控制方法能够在不同运行状态下识别更有利的励磁时刻，体现出对变压器状态变化和系统不确定性的适应能力。结合与DQN的对比结果，论文也表明PPO在该类连续或复杂控制问题中具有更优的策略优化能力和更高的控制效果。

从论文主体整体来看，其重要意义主要体现在三个层面。第一，在方法层面，研究首次将强化学习用于变压器励磁涌流最小化，而不仅仅停留在已有文献常见的涌流分类、识别或预测任务上，因此拓展了人工智能在电力设备暂态控制中的应用边界。第二，在建模层面，论文提供了一个经真实7.4 MVA变压器实验验证的仿真环境，为中高压变压器励磁暂态的智能控制研究提供了可用平台；在真实实验代价高、风险大的背景下，这一点具有较强现实价值。第三，在工程应用层面，所提方法兼顾剩磁磁通误差、断路器投切偏差及运行条件波动等实际因素，相较于依赖理想先验参数的解析方法，更适合复杂电网和高比例可再生能源接入场景下的自适应控制需求。

论文讨论部分的核心内容是对该策略有效性、适用性与局限性的综合评估。研究结果表明，强化学习策略，尤其是PPO，能够通过与环境交互逐步优化投切决策，在实际存在模型误差、剩磁不确定性和断路器时变行为的条件下，仍然保持较好的抑制效果。这说明，励磁涌流控制可以从传统基于规则的静态优化，转向基于反馈学习的动态优化。然而，论文同时强调，训练与验证主要依赖仿真环境，尽管该环境已经过真实试验验证，但其推广仍取决于模型对实际设备和工况的充分表征能力。因此，该方法的价值不仅在于控制性能提升，也在于为未来更高保真度、面向实际部署的智能投切控制奠定基础。

研究结论部分可译为：本研究提出了一种基于近端策略优化（PPO）强化学习（RL）算法并结合受控投切的电力变压器励磁涌流最小化策略。其训练目标是根据变压器从电网断开后的剩磁磁通，学习最优断路器（CB）合闸角。算法训练依托于一个经真实励磁涌流试验验证的电力变压器模型开展。研究结果表明，所提方法能够有效降低励磁涌流峰值，相较于深度Q网络（DQN）和传统投切方法均表现出更优性能，说明强化学习可为变压器励磁控制提供一种高效且具有自适应能力的解决方案。总体而言，该研究证明了将强化学习应用于电力变压器受控投切的可行性，也为在复杂运行条件下实现更可靠的励磁涌流抑制提供了新的技术路径。

联系信箱：

粤ICP备09063491号

热点排行