《Engineering Applications of Artificial Intelligence》:Efficient hybrid-strategy Q-learning based power enhancement for dynamic thermoelectric generation systems reconfiguration under heterogeneous temperature distribution
编辑推荐:
热电发电系统动态重配置方法及高效混合策略Q-learning算法研究。摘要:提出基于EHSQ算法的TEG系统动态重配置方法,有效解决异质温度分布导致的局部最大功率点问题,通过融合Q-learning与启发式搜索策略,显著提升对称(95.4W,+4.33%)和异步(109.4W,+3.49%)TEG系统输出功率,并经HIL实验验证。
作者:杨波、唐传云、周雷、张子健、陈一轩、卢海、李宏标、高登科、桑一岩、姜琳、张比丹
单位:昆明理工大学电力工程学院,中国昆明 650500
摘要
热电发电(TEG)系统的重构是提高能量转换效率和系统优化的重要进展。本文提出了一种基于人工智能(AI)的先进算法——高效混合策略Q学习(EHSQ),专门用于TEG系统的重构。其主要目标是减轻温度分布不均匀(HTD)的不利影响,并充分利用TEG系统的发电潜力。通过优化列输出功率(COP),EHSQ旨在提高整体输出功率和能量转换效率。COP是实现这一目标的关键参数。Q学习(QL)通过创新改进增强了其全局选择和优化能力。本文比较了四种传统的强化学习(RL)算法:动态规划Q学习(Dyna-Q)、马尔可夫决策过程(MDP)、标准QL和策略梯度(PG)。在SimuNPS建模平台上进行的仿真测试表明,EHSQ算法显著提高了对称(15×15)和非对称(20×15)TEG系统的发电效率。对称配置的最大输出功率为95.4瓦,功率提升率为4.33%;非对称配置的最大输出功率为109.4瓦,功率提升率为3.49%。硬件在环(HIL)实验验证了仿真结果的一致性,证实了EHSQ在优化TEG系统性能方面的有效性。这些结果凸显了EHSQ在提高TEG系统效率方面的显著优势。
引言
随着工业化和经济增长(Saxena等人,2024年;Mubarak等人,2024年),全球对电力的需求不断增加,这对煤炭、石油和天然气等非可再生能源资源造成了巨大压力(Mohamed,2018年)。这些有限资源正在迅速枯竭(Selimefendigil和?ztop,2021年),并且是温室气体排放的主要来源(Shin等人,2019年)。在这种背景下,由于可再生能源的可持续性和对环境的影响较小,它们变得越来越重要(Zhang等人,2024a,2024b;Kumler等人,2025年;Yan等人,2024年)。然而,电力生成过程中的热量损失仍然是一个问题。热电发电(TEG)技术在有效利用这些浪费的热量方面发挥着关键作用(Dhawan等人,2021年;Buzilo等人,2014年)。
当今的能源领域高度重视TEG技术,因其设计简洁、运行稳定且可靠性高(Matthew和Jae,2015年)。除了风能和水能等传统可再生能源外,TEG的应用已扩展到汽车系统的废热回收(Li等人,2016年)、地热能利用、天然气供暖系统的效率提升、太阳能热电制冷技术的进步,以及便携式电子设备和自供电传感器系统的集成(Luo等人,2025a,2025b)。其发展促进了能源来源的多样化和清洁化,特别是在回收和转换低品位热能方面,展现了其独特的价值和开发潜力(Sulaiman等人,2017年)。
TEG系统输出功率的稳定性直接受到温度变化的影响。与部分遮阴条件下的太阳能光伏(PV)系统类似(Yang等人,2024a),大型TEG系统经常面临由于模块间温度分布不均匀而导致的电压不平衡问题(Guo等人,2023年)。这种温度梯度以及模块参数不匹配(Luo等人,2025c)、接触电阻干扰(Vikhor和Kotsur,2023年)、阵列拓扑效应(Muhammad等人,2024年)等因素可能导致多个局部最大功率点(LMPP),从而阻碍全局最大功率点(GMPP)的捕获,进而影响系统的稳定性和效率(Li等人,2021年;Zhang等人,2022年)。GMPP出现的条件是热电转换过程中塞贝克效应和焦耳热之间的动态平衡达到,并且负载电阻与热电内部电阻相匹配(Jang等人)。为应对这些挑战并找到GMPP,高性能热电材料和最大功率点跟踪(MPPT)技术的应用被视为有前景的解决方案(Liu等人,2016年)。然而,高性能热电材料的广泛应用受到高成本和长开发周期的阻碍(Zhou和Wang,2015年)。相比之下,MPPT技术因其实用性和可行性更强而更受欢迎。已经开发了多种MPPT方法来跟踪温度变化条件下的TEG系统的GMPP(Jang等人,2024年)。其中,恒定电压跟踪(CVT)(Wang等人,2018年)和自适应参考电压(ARV)(Kouchaki等人,2023年)由于操作简单而最为普遍。尽管在特定条件下有效,但这些方法在温度分布不均匀(HTD)导致多个LMPP的情况下可能表现不佳。
为了解决温度变化条件下TEG系统的MPPT问题,研究人员开发了创新的启发式算法(HA)。在文献中(Yang等人,2024b),提出了一种基于人工蜂群(ABC)算法的动态重构策略,用于解决新能源发电系统中由于温度梯度分布不均匀导致的MPPT失败问题。在另一篇文献中(Yang等人,2022a),提出了一种通过改进的免疫遗传算法(IIGA)实现的TEG系统MPPT方法,该方法利用动态邻域搜索和自适应参数调整来处理多峰功率问题。此外,还有文献(Balachandran和Ramasamy,2022)提出了一种先进的自适应神经网络(SANN)优化技术,采用动态MPPT算法更有效地避免局部最优解。
传统的TEG系统MPPT方法侧重于调整输出电压以找到GMPP,但它们无法改变功率-电压(P-V)曲线的特性或消除TEG列之间的电压差异,尤其是在多峰输出功率情况下。受部分遮阴条件下的PV系统启发(Yang等人,2022b),本研究创新性地构建了一个基于强化学习的优化框架,其核心是设计了一种价值驱动的动态重构策略和高效混合策略Q学习(EHSQ)。该算法通过构建多策略协同机制并巧妙整合全局探索和局部利用过程,显著提高了复杂多峰场景下的搜索效率。
本研究的贡献如下:
- 使用强化学习(RL)算法对TEG系统进行动态重构;
- 创新地将Q学习(QL)与启发式搜索策略结合,在动作选择阶段显著提高了基于价值的强化学习性能,显著提升了搜索效率;
- 引入策略梯度方法,基于算法融合增强了算法的全局搜索能力;
- 通过与其他四种代表性强化学习算法的全面比较以及HIL实验,严格评估了EHSQ在对称和非对称两种典型场景下的有效性和优越性。
TEG系统由热电模块、热侧和冷侧组成,如图1(a)所示。热电模块是系统的核心,由P型和N型半导体热电偶、陶瓷板和铜电极组成,如图1(b)所示(Zhang等人,2020a)。这些热电偶将热能转换为电能,并通过优化排列来最大化功率效率。热电设备的热端吸收热能。
Q学习(QL)是一种基于价值的RL方法,非常适合解决TEG系统优化等离散决策问题(Xu等人,2022年;Amhraoui和Masrour,2023年)。它能够快速确定在TEG系统内各种模块配置下实现最大功率输出的最优策略,巧妙平衡探索与利用之间的权衡。在本研究中,使用改进的QL(EHSQ)进行TEG系统重构。
本研究的目的是评估EHSQ在提高TEG系统重构功率性能方面的有效性。选择了五种HTD场景进行评估:短宽型、长窄型、外部型、内部型和非均匀排列型。在实验和分析上述五种HTD场景时,热侧温度统一设置为107°C,冷侧温度设置为27°C,以确保结果的可比性和一致性。
通过使用RTLAB平台验证了硬件实现的可靠性,该平台支持实时HIL实验。如图17(Yang等人,2021年)所示,这些实验证实了系统的可行性,并提供了宝贵的实证数据。MATLAB仿真结果作为比较的基础。图18和图19展示了仿真与实验之间的对比,展示了对称和非对称情况下的最优解决方案。
本文提出了一种基于EHSQ的TEG系统重构新方法。其目标是消除五种不同HTD场景对TEG系统的影响,从而提高系统的功率输出。主要结论如下:
- 本研究提出了一种用于动态重构大规模TEG系统的新方法,利用RL提高废热回收效率并优化日常生活中的能量转换效率;
杨波:撰写——原始草案。
唐传云:数据整理。
周雷:数据整理。
张子健:数据整理。
陈一轩:方法论设计。
卢海:软件开发。
李宏标:软件开发。
高登科:软件开发。
桑一岩:形式分析。
姜琳:概念化设计。
张比丹:撰写——审稿与编辑。
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
本研究得到了国家自然科学基金(62263014)、云南省基础研究项目(202301AT070443、202401AT070344)以及云南澜沧-湄公河国际电力技术联合实验室(202203AP140001)的支持。