基于强化学习的控制方法，采用Y型仿射神经网络（YANNs）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers & Chemical Engineering》：Reinforcement learning-based control via Y-wise Affine Neural Networks (YANNs)

【字体：大中小】 时间：2026年03月01日 来源：Computers & Chemical Engineering 3.9

编辑推荐：

　　强化学习与YANNs结合的控制器，通过初始化近似线性系统解提高安全性，避免探索阶段风险，在摆杆和化工反应器案例中优于传统RL算法。

奥斯汀·布兰尼夫 | 天宇赫

美国西弗吉尼亚大学化学与生物医学工程系，摩根敦，西弗吉尼亚州

摘要

本文提出了一种基于Y向仿射神经网络（YANNs）的新型强化学习（RL）算法。YANNs提供了一种可解释的神经网络，能够精确表示在任意数量的多面体子域上定义的任意输入和输出维度的已知分段仿射函数。YANNs的一个典型应用是重新构建多参数线性模型预测控制的显式解。在此基础上，我们提出使用YANNs来初始化RL的演员网络和评论家网络，从而使最终的YANN-RL控制算法能够从线性最优控制的信心出发。YANN-演员网络通过使用近似的线性系统模型离线计算得到的多参数控制解来进行初始化。YANN-评论家网络表示线性系统的状态-动作价值函数的显式形式，以及最优控制问题（OCP）中的目标函数。通过增加额外的网络层，YANNs可以扩展到非线性表达式，并且可以通过与真实的复杂非线性系统直接交互来进行在线训练。这样，策略和状态价值函数最初可以精确表示线性OCP，并最终能够学习一般非线性OCP的解。还实现了连续的策略改进，以提供启发式的信心，即线性OCP解可以作为RL策略性能的有效下限。在剪切摆和关键安全性的化学反应系统中展示了YANN-RL算法的效果。我们的结果表明，与使用深度确定性策略梯度的现代RL算法相比，YANN-RL具有显著的优势，特别是在考虑安全约束时。

引言

强化学习（RL）已成为现代最具前景的技术之一（Dogru等人，2024年；Shin等人，2019年）。自从首次展示将神经网络（NNs）集成到RL算法中以实现类似人类的游戏控制能力以来，针对这一解决问题的策略的研究显著增加（Mnih等人，2015年）。RL在许多领域显示出了巨大潜力，包括游戏玩法（Silver等人，2017年；Silver等人，2016年）、机器人技术（Kaufmann等人，2023年）、生产调度（Wang和Zhao，2024年；Hubbs等人，2020年）、过程设计（Braniff等人，2025b；Reynoso-Donzelli和Ricardez-Sandoval，2025年）等。

由于起源于最优控制理论，RL也被应用于过程系统的直接控制。RL已被证明是生物处理（Petsagkourakis等人，2020年）、蒸馏塔（Spielberg等人，2019年）、化学反应器（Faria等人，2023年）、批量处理（Joshi等人，2021年）和多罐系统（Dogru等人，2021年）的有效控制算法。尽管取得了这些进展，RL在化学和能源系统的控制中仍未得到广泛采用。主要障碍包括学习过程中的固有不信任以及整体缺乏可解释性（Wang等人，2025年；Braniff等人，2025a；Nian等人，2020年）。在RL中，探索阶段允许代理发现可能导致更优行为的新动作，但这可能是不安全的，因为它通常涉及尝试随机和未经测试的动作，可能导致不良或不安全的行为。这些问题阻碍了基于RL的控制算法的实际应用，特别是在需要对控制器保持安全和稳定操作的能力有信心的关键安全系统中（Faria等人，2022年；Yoo等人，2021年）。

为了解决这些挑战，近年来做出了大量努力。一类策略是使用来自其他更受信任的控制方法（如模型预测控制（MPC）（Hassanpour等人，2024b；Hassanpour等人，2024a）生成的数据来预训练RL策略网络。然后RL代理基于此策略网络直接计算控制动作。如果希望保持无模型RL的前提，可以采用线性MPC，因为可以通过多种技术（例如系统识别）轻松近似线性系统模型（Hassanpour等人，2025年）。如果有可靠的高保真系统模型，也可以使用基于模型的RL方法。许多基于模型的RL方法还可以提供关于安全性、稳定性或两者的某种信心（Kim和Oh，2024年；Kim和Kim，2022年；Kim和Lee，2020年；Berkenkamp等人，2017年）。另一类策略是以更间接的方式将RL用作PID控制的监督角色（Bloor等人，2025年；Chowdhury等人，2023年；Dogru等人，2022年）。这是一种改进基于PID控制的有前景的方法，但由于每个子级控制器都受限于单输入-单输出（SISO）控制律而受到限制（Beahr等人，2024年；Lawrence等人，2022年）。RL还用于高级（经济）MPC的调优（Gros和Zanon，2020年）。在这种情况下，RL代理再次以监督方式发挥作用，不直接计算控制动作，而是根据系统反馈数据指导控制器做出更好的决策（Alhazmi等人，2022年）。一个结合RL和MPC的有趣例子是AC4MPC算法，它利用基于RL的控制动作作为MPC问题的热启动，而基于RL的价值函数为问题提供了更好的终端成本估计（Reiter等人，2024年）。许多其他工作研究了同时利用MPC和RL优势的各种方法（Hedrick等人，2022年；Kim等人，2021年）。

为了开发更安全的RL算法，基于李雅普诺夫的方法引起了极大的兴趣。在这些算法中，在线学习一个近似的李雅普诺夫函数。RL代理确定的控制动作是为了满足某些稳定性或安全条件而生成的，使用李雅普诺夫替代函数（Chang和Gao，2021年；Chow等人，2018年）。这也被扩展到控制李雅普诺夫屏障函数（CLBFs）和随机CLBFs，它们可以同时提供安全性和稳定性属性（Zhu等人，2025年；Wang和Wu，2024年）。其他形式的安全RL包括：线性系统的安全探索（Marvi和Kiumarsi，2022年）、离线训练阶段后恢复安全保证（Thananjeyan等人，2021年）、集成线性鲁棒MPC的原则（Zanon和Gros，2021年）、控制不变集（CIS）（Wang等人，2024年；Bo等人，2023年）以及具有机会约束的高斯过程模型（Mowbray等人，2022年）。然而，这些方法通常需要对系统有大量的先验知识、高保真系统模型和/或密集的计算能力。此外，这些方法在学习系统模型和/或训练RL代理时必须经历探索阶段，这在实践中可能本质上是不安全的（García和Fernández，2015年）。为此，需要一种基于RL的控制算法，它可以提高可解释性、稳定性和计算效率，同时避免在不安全的关键系统中实施不安全的探索阶段。

在这项工作中，我们提出了一种基于Y向仿射神经网络（YANNs）的RL算法，如图1所示。在我们之前的工作中（Braniff和Tian，2026年）开发的YANNs是一种专门的神经网络，能够精确表示在任意数量的多面体子域上定义的任意输入和输出维度的已知分段仿射函数。多参数模型预测控制（mp-MPC）是YANNs的一个重要应用，它理论上可以将最优控制律计算为系统状态、输出、设定点和扰动的分段仿射函数（Pistikopoulos等人，2020年）。鉴于此，演员网络和评论家网络可以通过mp-MPC初始化，以表示最优控制问题的显式解和目标。因此，YANNs可以作为提供可解释、高效和有信心的RL算法的起点。这使得算法可以从线性最优控制的完整理论和严格保证开始，从而完全跳过RL的探索阶段。这些演员和评论家网络可以以这样的方式创建，它们可以使用本工作中开发的技术来近似任意复杂度的一般非线性函数。我们进一步讨论了如何持续改进算法，从而保证参数化的控制策略永远不会比通过解决线性最优控制问题（OCP）找到的线性多参数控制策略更差。在关键安全系统的控制中，安全约束的遵守至关重要，这一点在一个化学反应过程的案例研究中得到了突出展示。

本文的其余部分组织如下：第2节简要概述了必要的数学基础，并为本工作制定了术语。第3节回顾了YANNs对分段仿射函数的精确表示，并扩展了网络公式以引入非线性。第4节介绍了基于YANN的RL原理，包括YANN-演员、YANN-评论家以及整个RL算法。第5节通过两个案例研究展示了YANN-RL的优势：（i）剪切摆；（ii）关键安全性的化学反应器。第6节给出了结论性意见，并讨论了未来的研究方向。

节选

强化学习简介

RL是一种用于解决各种动态规划问题的方法。它最常被引入为解决马尔可夫决策过程（MDPs）的方法，后者是一类特殊的随机动态程序。然而，在这项工作中，我们应用RL原理，旨在尽可能少地对真实系统做出假设，同时使用确定性策略。对于比以下内容更全面的介绍，读者可以参考Sutton和Barto的著作。

YANNs概述

YANNs是我们之前工作中开发的一种特定架构（Braniff和Tian，2026年）。它们能够精确表示在任何数量的多面体子域上定义的任意维度的输入和输出的分段仿射函数。YANN是一个5层神经网络，能够将这些已知函数精确地重新表示为整个连续域空间中的连续精确表示。YANNs可以用来表示获得的显式控制解

YANN-演员

基于YANN的演员网络易于建立，因为原始的YANN公式可以表示已知的最优控制律。为了开发一个由YANN初始化的策略网络，需要离线解决一个mp-MPC问题（方程（9）以找到分段仿射的显式控制律。可以使用简化的线性系统模型，例如从过程数据中近似得到的模型。之后，可以按照我们之前的工作（Braniff和Tian，2026年）中的步骤创建YANN。可以添加更多的节点和/或层

剪切摆

在第一个案例研究中，我们考虑了一个关于支点的简单摆，这是一个广泛用于基于RL控制的基准系统。希望通过对其施加扭矩将摆移动到垂直位置。为了简化问题，我们考虑了一个受限的初始位置，以避免经典的难以控制的摆动问题。这个案例研究的动机是突出YANN-DDPG与DDPG相比的潜在优势。

结论

在这项工作中，我们提出了一种基于YANNs的新型RL算法，YANNs是具有控制理论应用所需特性的可解释神经网络。该算法代表了我们在自信地部署RL算法进行化学和能源系统的最优控制方面的范式转变。我们展示了如何初始化基于YANN的演员和评论家网络，以精确表示线性最优控制问题的解和目标。我们讨论了如何

CRediT作者贡献声明

奥斯汀·布兰尼夫：撰写——原始草稿，验证，软件，方法论，概念化。天宇赫：撰写——审阅与编辑，验证，监督，方法论，概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争财务利益或个人关系。

致谢

作者感谢NSF RETRO项目CBET-2312457、NSF GRFP（2024370240）以及西弗吉尼亚大学化学与生物医学工程系的财政支持。

联系信箱：

粤ICP备09063491号

摘要

引言

节选

强化学习简介

YANNs概述

YANN-演员

剪切摆

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行