基于端边云协同技术的液冷系统废热预测方法,应用于高性能计算数据中心

《Engineering Applications of Artificial Intelligence》:End-edge-cloud collaborative-driven waste-heat prediction of liquid cooling system for high-performance computing data centers

【字体: 时间:2026年02月27日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  高效能计算(HPC)数据中心液冷系统废热预测研究提出端-边-云协同(EECC)架构,融合LSTM时序记忆与Transformer长程依赖建模能力,在ORNL Frontier超算实测中实现RMSE降低21.3%、MAE减少28.4%,预测区间覆盖概率达96.52%,为绿色计算提供高精度实时解决方案。

  
马帅银|张梦梦|程实|闵云冉|王家强|肖金华
西安邮电大学计算机科学与技术学院,中国西安,710121

摘要

高性能计算(HPC)系统的特点是能耗极高,因此高效管理废热对于可持续的数据中心运营至关重要。传统的建模方法往往难以捕捉动态热负荷的复杂性、强烈的时间依赖性以及液冷系统的实时需求。为了解决这些挑战,本研究提出了一种端边云协同(EECC)架构,用于短期废热预测,从而提高HPC数据中心的智能热管理精度。在该架构中,开发了一种混合长短期记忆(LSTM)-Transformer神经网络模型,结合了LSTM的短期记忆能力和Transformer的长距离依赖性建模能力。使用橡树岭国家实验室(ORNL)Frontier超级计算机的实际运行数据进行实验表明,所提出的模型优于几种基线模型。与第二好的Transformer模型相比,该混合模型将均方根误差(RMSE)和平均绝对误差(MAE)分别降低了约21.3%和28.4%,同时实现了最高的决定系数(R2)0.9767。在概率预测方面,它实现了0.9652的预测区间覆盖概率(PICP)和0.4904的平均预测区间宽度(MPIW),提供了可靠且狭窄的区间,以支持基于不确定性的运营决策。该模型在不同随机初始化、季节性变化和非稳态运行条件下也表现出很强的鲁棒性,证实了其在实际HPC环境中的适用性。本研究为高精度短期废热预测建立了一种可靠的人工智能驱动解决方案,推动了绿色计算实践,并提高了HPC数据中心的能源效率和可持续性。

引言

随着高性能计算(HPC)技术的快速发展,数据中心已成为支持科学计算、人工智能和大规模数据分析的核心基础设施(Daki?等人,2024年)。虽然HPC系统提供了强大的计算能力,但其高密度运行会产生大量热量(Du等人,2023年)。为了保持设备在安全的工作温度范围内,冷却系统必须消耗大量能量,在计算密度极高的HPC数据中心中,这部分能量可占总能耗的30%–40%(Habibi Khalaj和Halgamuge,2017年)。如果废热管理不当,不仅会进一步增加能源消耗,还会导致更高的碳排放,这与全球实现碳峰值和碳中和的目标相矛盾(Tervo等人,2025年)。
在这种背景下,准确预测HPC液冷系统中废热的动态行为对于优化冷却策略和提高整体能源效率至关重要(Li等人,2025年)。一方面,精确的废热预测有助于避免传统“过度冷却”策略造成的能源浪费,实现需求驱动的系统调节(Ljungdahl等人,2022年);另一方面,它为废热回收和级联能源利用提供了可靠的基础(Ebrahimi等人,2014年)。此外,准确的预测还有助于热控制系统的异常检测(Borghesi等人,2019年),从而提高运行安全性并延长硬件寿命(Nadjahi等人,2018年)。因此,废热预测不仅对于确保系统级别的能源效率至关重要,也是绿色计算和可持续运行的基础能力(Chen等人,2022年)。
然而,HPC液冷系统的热负荷表现出强烈的非线性、多因素耦合和显著的时间变化,这对预测精度、鲁棒性和实时性能提出了挑战。智能算法和数据驱动的方法已成为建模复杂动态系统的有希望的解决方案(Ahmadianfar等人,2023年),为HPC液冷环境中的废热预测提供了理论和方法论上的见解。尽管如此,深度学习模型通常面临高训练成本、参数空间大和调优效率低的问题,这限制了它们在实时预测场景中的应用。为了解决这些问题,具有智能搜索和自适应迭代机制的优化算法可以提高模型的适应性和决策质量,同时减少计算开销(Samadi-Koucheksaraee等人,2022年),为HPC液冷系统中废热预测管道的端到端优化提供了关键支持(Samadi-koucheksaraee等人,2019年)。
与此同时,端边云协同(EECC)计算的快速发展为解决高频数据流和实时预测的双重挑战提供了新的技术途径(Shahhosseini等人,2022a)。通过将计算任务分布在终端设备、边缘节点和云服务器上,EECC能够在保持模型复杂性和基于云的训练所能实现的精度的同时,实现快速的本地响应(G. Liu等人,2023年)。这使得开发同时满足实时推理和高预测精度要求的HPC液冷系统预测框架成为可能。
基于这些考虑,本研究提出了一种基于EECC的HPC液冷系统废热预测架构,能够高效处理高频、多源的热动态数据。在此架构的基础上,集成了深度时间模型用于短期废热预测,并使用橡树岭国家实验室(ORNL)Frontier超级计算机的实际运行数据进行了案例研究,以验证该框架的有效性和适用性。
本文的其余部分组织如下:第2节回顾了HPC液冷系统、废热预测方法和EECC协同架构的最新进展;第3节介绍了用于HPC数据中心液冷系统的EECC驱动的废热预测框架;第4节介绍了数据预处理程序和提出的预测模型;第5节使用ORNL Frontier超级计算机进行了案例研究,以验证所提出的框架并分析预测性能;第6节讨论了实施挑战、管理意义和未来展望;最后,第7节总结了研究并概述了局限性和未来研究方向。

节选内容

HPC数据中心中液冷系统的重要性和特点

随着现代超级计算系统中异构计算能力的迅速发展,服务器机架的热流密度持续上升。传统的空气冷却系统在冷却效率、能源效率和热分布管理方面面临越来越多的限制(Chen等人,2017年)。相比之下,液冷技术具有较高的比热容、优异的热导率和较低的温度提升要求,显著提高了

末端层的感知和数据采集

如图1底部所示,末端层是数据采集和控制的物理基础(Prabha等人,2025年)。通过在液冷系统的关键节点(如服务器机架的空气进出口、冷却水回路和热交换器)部署温度传感器、电磁流量计和智能电表,该层能够实时收集包括冷却剂温度、流量和功耗在内的关键参数。

数据预处理和废热预测模型构建

本节介绍了数据预处理程序、LSTM-Transformer混合预测模型的设计、损失函数的定义、预测不确定性的建模以及在所提出的EECC架构下HPC数据中心液冷系统中废热预测的性能评估方法。

案例研究

本节使用美国橡树岭国家实验室(ORNL)超级计算中心的液冷系统运行数据,验证了所提出的EECC架构和预测模型的有效性。

讨论

本研究为提高数据中心的智能管理、精确性和可持续性提供了实际途径。在此基础上,进一步阐述了运营和维护团队、研发单位和政府或政策制定机构在优化HPC冷却系统、提高能源效率以及指导未来产业方面的管理意义(Ma等人,2024c),突出了它们各自在其中的角色

结论

本研究提出了一种用于HPC数据中心液冷系统废热预测的EECC架构。该架构采用三层结构,包括设备级感知、边缘计算和基于云的建模,能够有效预测冷却回路中的废热。以ORNL Frontier超级计算机的液冷系统作为实际案例,进行了一系列系统验证实验。通过对完整数据的全面分析

CRediT作者贡献声明

马帅银:撰写——原始草稿、项目管理、正式分析、概念化。张梦梦:撰写——原始草稿、正式分析、概念化。程实:撰写——审阅与编辑、验证、监督。闵云冉:验证、监督。王家强:撰写——审阅与编辑、调查。肖金华:撰写——审阅与编辑、调查。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

作者衷心感谢橡树岭国家实验室(ORNL)高性能计算(HPC)数据中心提供了公开可用的数据集“Frontier HPC & Facility Data”,这对本研究提供了关键支持。作者还感谢陕西高校的青年创新团队,特别是专注于“工业大数据分析与智能处理”的团队。本工作得到了咸阳市重点研发计划的支持
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号