基于替代代理的强化学习方法，用于实现零间隙碱性水电解过程的节能运行

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月07日 来源：International Journal of Hydrogen Energy 8.3

编辑推荐：

　　零间隙碱性水电解系统通过代理辅助强化学习框架实现高效优化，基于COMSOL高保真模拟训练的物理信息神经网络模型将计算成本降低超400倍，验证了在0.5-3.0 M电解液浓度范围内优化条件的可靠性，最优工况为6 M、349 K、859 mL/min和0.779 A/cm2，氢产率预测误差仅1.20%。

李承贤|崔朱妍|李秀仁|尹秉灿|沈在圭|李正贤|赵庆华

韩国大学土木、环境与建筑工程学院，韩国首尔城北区安岩路145号，邮编02841

摘要

零间隙碱性水电解（AWE）通过最小化离子电阻和电极间距损失，实现了高效节能的氢气生产。本研究提出了一种基于替代模型的强化学习（RL）框架，用于优化零间隙AWE系统的运行。该框架利用基于物理的深度神经网络替代模型，在高保真度的COMSOL Multiphysics仿真基础上进行训练，能够准确再现氢气生产和极化行为，同时将计算成本降低400倍以上。强化学习代理在电解质浓度固定的条件下，优化温度、入口流速和电流密度。在评估的五种算法中，双延迟深度确定性策略梯度（TD3）表现出最稳定的收敛性，并确定了最佳运行条件：6 M、349 K、859 mL min^?1、0.779 A cm^?2。预测的氢气产率（0.00930 mol h^?1 cm^?2）与实验测量值（0.00919 mol h^?1 cm^?2）非常接近，误差仅为1.20%。在0.5 M和3.0 M条件下的额外验证也证实了模型在可行运行范围内的稳定性。所提出的框架为电解槽系统的智能优化提供了一种计算效率高且可扩展的策略。

引言

作为一种清洁且灵活的能源载体，氢气日益被视为全球脱碳和未来能源系统的关键组成部分[1,2]。氢能与燃料电池技术的战略整合对于平衡全球能源格局和实现净零目标至关重要[3]。近期研究表明，大规模部署绿色氢气不仅需要降低成本，还需要制定稳健的运行策略以适应可再生能源的间歇性[4]。在各种生产途径中，如生物方法和热化学循环[5,6]，水电解技术脱颖而出。尽管取得了显著进展，但研究人员仍在继续解决效率、耐用性和系统级集成方面的根本性问题，以满足不断增长的工业需求[7]。

已经开发出多种电解槽技术，包括聚合物电解质膜（PEM）、阴离子交换膜（AEM）和固体氧化物电解。其中，碱性水电解（AWE）由于其成本效益、长运行寿命和技术成熟度，仍然是大规模工业应用的最可行选择[7,8]。最近对水电解技术的综述强调，先进的数值模拟与优化技术之间的协同作用正成为下一代系统开发的基础[9]。因此，研究强调了在时变输入条件下保持AWE系统高效运行的策略的必要性[10]。然而，传统的AWE运行可能会受到气泡积聚及其相关传输损失的影响，这些因素会增加有效电阻并降低能源效率[11,12]。为了解决这个问题，零间隙配置使得电极能够直接接触隔膜，从而减少界面电阻并实现高电流密度运行[13,14]。

基于模拟器的电化学建模的最新进展使得这些运行变量得以系统地探索。虽然参数扫描和确定性建模仍然很常见[15,16]，但它们通常计算成本较高，并且对温度、流速和电流密度等变量之间的非线性耦合非常敏感[17],[18],[19]。为了克服这些计算瓶颈，数字孪生技术从智能制造领域脱颖而出，为实时监控和智能决策提供了变革性的方法[20]。随着这一跨学科趋势的发展，人工智能（AI）技术开始将机器学习或深度学习与基于物理的建模相结合，以提高运行效率[20,21]。例如，在PEM电解研究中，AI驱动的替代模型建模在以传统计算成本实现氢气生产模拟方面显示出巨大潜力[22]。

在这些基于替代模型的进展基础上，强化学习（RL）成为优化此类复杂能源系统的理想选择。RL特别适合连续控制问题，因为它通过与环境的迭代交互来优化决策策略。通过利用反馈驱动的学习，RL能够高效地应对非线性和高维的运行空间[23],[24],[25],[26],[27],[28]。例如，基于物理的神经网络的发展为将非线性偏微分方程直接嵌入深度学习架构提供了坚实的框架[21]。然而，尽管引入了替代模型以减轻高保真度仿真的计算负担，但专门针对零间隙AWE系统的替代模型辅助RL的集成仍不够充分。特别是，目前缺乏能够在确保高效优化的同时保持电化学可解释性的框架。

在本研究中，我们提出了一种基于替代模型的RL框架，通过将COMSOL生成的电化学数据与深度神经网络（DNN）替代模型相结合来优化零间隙AWE系统。该替代模型能够准确捕捉不同条件下的氢气生产和电压响应，使RL代理能够评估复杂的运行策略。为了反映实际工业操作情况，氢氧化钾（KOH）浓度被视为半静态环境变量，而温度、入口流速和电流密度则作为动态控制参数进行优化。本研究的主要贡献包括：(i) 从高保真度Multiphysics仿真中开发出精确的极化替代模型；(ii) 将该模型嵌入RL环境以实现自主连续运行优化；(iii) 对代表性的RL代理进行基准测试以确定稳定且收敛的策略；(iv) 对优化条件进行实验验证。通过将策略搜索限制在物理上有意义的范围内，该框架增强了学习稳定性，并确保了在工业AWE系统中实现实时控制所需的效率。

材料与方法

本研究采用RL框架来优化零间隙AWE系统的运行条件。工作流程包括三个主要阶段：(1) 使用COMSOL Multiphysics进行基于物理的仿真以生成过程数据，(2) 在仿真数据集上训练RL代理，(3) 实验验证RL模型确定的运行条件，以评估其实际应用性（图1）。实验装置包括一个水储罐、蠕动泵等。

COMSOL替代模型训练与评估

利用COMSOL Multiphysics内置的DNN接口开发了一个基于物理的替代模型，以近似运行变量与电化学性能指标之间的非线性关系[37]。将RL与完整的COMSOL多物理场模型直接耦合在计算上是不切实际的，因为每次模拟流体流动、热传递和电化学反应可能需要几分钟到几小时的时间[48,49]。运行时间比较表明，替代模型显著减少了计算需求。

结论

本研究提出了一种基于物理的RL框架，该框架结合了基于COMSOL的DNN替代模型，实现了零间隙AWE的高效计算优化。通过用快速准确的替代模型替代全物理场仿真，该框架能够在不重复进行高成本计算的情况下高效探索运行策略。主要贡献如下：

(i)

COMSOL训练的DNN替代模型能够在安全范围内准确再现非线性极化行为（RMSE 0.5241/0.5478），

CRediT作者贡献声明

李承贤：撰写——原始草稿、可视化、验证、软件、方法论、概念化。崔朱妍：撰写——审阅与编辑、验证、方法论、调查、概念化。李秀仁：软件、概念化。尹秉灿：软件。沈在圭：撰写——审阅与编辑。李正贤：撰写——审阅与编辑。赵庆华：撰写——审阅与编辑、监督、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本研究得到了韩国政府（MSIT）资助的韩国国家研究基金会（NRF）（RS-2024-00406500）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

材料与方法

COMSOL替代模型训练与评估

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行