深度强化学习在节能风冷服务器中的应用:算法与实践

《ENERGY CONVERSION AND MANAGEMENT》:Deep reinforcement learning for energy-efficient air-cooled servers: Algorithms and applications

【字体: 时间:2026年05月10日 来源:ENERGY CONVERSION AND MANAGEMENT 10.9

编辑推荐:

  唐伟峰|王志川|王秋旺|储文宵 教育部热流体科学与工程重点实验室,西安交通大学,中国陕西省西安市710049 **摘要** 空气冷却仍然是数据中心的主要热管理策略,但标准控制方法往往无法在高密度服务器中平衡能效与复杂的热耦合问题。本研究提出了一种基于安全意识的Twi

  唐伟峰|王志川|王秋旺|储文宵
教育部热流体科学与工程重点实验室,西安交通大学,中国陕西省西安市710049

**摘要**
空气冷却仍然是数据中心的主要热管理策略,但标准控制方法往往无法在高密度服务器中平衡能效与复杂的热耦合问题。本研究提出了一种基于安全意识的Twin Delayed Deep Deterministic Policy Gradient (TD3)框架,并通过田口方法进行优化,以调节多风扇1U服务器系统。与传统的黑盒方法不同,该框架引入了双阈值奖励机制,严格限制结点温度(A型加热器的最大允许温度为100℃/B型加热器的最大允许温度为80℃),同时在温度低于临界阈值(Tc=80℃/60℃)时优化功耗。代理在1500次训练迭代后实现了收敛。与基线固定40%占空比策略的比较分析表明,所提出的方法有效消除了热点区域并显著降低了能耗。具体来说,在案例1、2和4中,三种典型热源布局下的能耗分别节省了18.7%、34.2%和55.4%。此外,在案例4的密集、非均匀布局下,重新训练算法的最大能耗节省达到了78.2%。这些结果证实,基于TD3的方法通过隐式学习非线性流热耦合关系,优于固定频率策略,为下一代绿色数据中心提供了稳健的解决方案。

**引言**
随着第四次工业革命的持续发展,数字计算和数据分析已成为这一转型的核心驱动力[1]。在这种背景下,对计算单元的需求呈指数级增长,同时算法复杂性也在增加。这种计算能力需求的激增要求不断提高计算机处理器的性能。英特尔最新的第五代Xeon Platinum处理器,其热设计功率(TDP)接近400瓦[2](如图1所示),凸显了先进计算技术中固有的热管理挑战。

数据中心作为现代信息基础设施的支柱,在处理、存储和交换大量数据方面发挥着关键作用。然而,数据中心运营面临的一个关键挑战是如何实现高效的热量散发。预测表明,到2030年,全球数据中心将占世界总能耗的大约8%[3]。值得注意的是,冷却系统占据了总能耗的很大一部分,约为30%,此外还有服务器本身使用的能量[4] [5] [6]。空气冷却技术因其简单的系统布局和成本效益而成为主要的冷却解决方案。它利用外部风扇通过强制对流将热量散发到服务器的内部热源,从而降低服务器的内部温度。空气冷却散热的研究和实践主要集中在改进风扇控制策略[7]、优化风扇位置和结构[8] [9] [10]、改进空气管道设计[11] [12] [13] [14]以及优化热源布局[15]上,其中风扇速度控制是影响冷却效率的关键因素。

通常,风扇控制依赖于离散的固定频率调制,这往往导致能源效率低下和噪音水平升高。因此,在不同负载条件下优化风扇运行至关重要。虽然早期的智能控制器(如模糊逻辑[16]和PID神经网络[17]在减少稳态误差方面显示出潜力,但它们通常依赖于线性化假设或解耦的控制回路(SISO),这在热耦合显著的高密度服务器中有效性有限。实际上,由空间不对称性和高功率密度引起的严重动态热力学挑战不仅限于服务器冷却,而是各种现代高功率电子系统的普遍瓶颈。例如,最近关于无线电动汽车(EV)充电技术的研究全面调查了热风险,揭示了耦合组件之间的空间错位如何显著加剧功率损失和局部热应力[18]。这些共同的物理机制凸显了迫切需要先进的、自适应的热管理策略,以动态响应不均匀的热分布。此外,从动态角度全面调查这些热风险表明,空间错位不仅会产生静态热应力,还会引发时间依赖的、快速变化的局部热点。这种高度动态的热行为使得传统的静态控制策略变得不足[19]。这迫切需要开发智能的、预测性的管理算法。

最近,研究转向了基于模型的控制和安全强化学习来解决安全和效率问题。例如,Brandi等人[20]将模型预测控制(MPC)与RL进行了比较,强调了基于模型方法的处理约束的能力。为了提高数据效率,Ding等人[21]提出了一个结合高斯过程的基于模型的RL系统用于HVAC控制,而Wan等人[22]引入了“SafeCool”,通过过渡和风险模型确保数据中心的安全冷却操作。同样,Mahbod[23]专注于通过动态设定点学习来减轻数据大厅中的冷却空气过度供应问题,而Lu等人[24]引入了一种结合RL和PID的交替RL策略来优化空气冷却HVAC系统的压缩机和风扇速度。同时,Wang等人[25]开发了一个基于物理的安全RL框架,Garg等人[26]探索了控制屏障函数以确保车辆热系统的安全探索。尽管传统控制算法在宏观层面或解耦系统中取得了成功,但由于高密度1U服务器面临的三个关键瓶颈,转向高复杂度的深度强化学习(DRL)架构变得不可避免:

**第一,强耦合MIMO系统中的SISO限制**:传统控制器(如标准PID或模糊逻辑)通常依赖于解耦的单输入单输出(SISO)回路。在紧凑的服务器布局中,强烈的热流体耦合意味着一个风扇的气流会对相邻区域造成严重干扰,导致传统独立回路振荡或冲突。

**第二,非线性空气动力学盲点**:高频湍流气流和复杂的流动相互作用(如剪切层混合和旁通卷吸)难以准确建模以实现实时控制。传统的基于模型的策略或基于规则的逻辑无法利用这些非直观的非线性物理现象来减轻局部热点。

**第三,边缘的计算延迟**:虽然像模型预测控制(MPC)这样的先进算法可以处理约束,但它们对在线迭代优化的需求给需要毫秒级响应的嵌入式服务器控制器带来了巨大的计算负担。

深度强化学习(DRL)代表了智能热管理领域的范式转变,从基于规则的逻辑转向通过直接交互进行学习。Berezovskaya等人[27]、Chu等人[28]和Fulpagare等人[29]的开创性工作证明了使用DDPG等算法进行服务器风扇控制的基本可行性。具体来说,Chu等人[28]和Fulpagare等人[29]表明,与固定速度策略相比,DDPG可以通过动态预测温度瞬变实现显著的节能(节能范围从12%到55%)。然而,这些早期的DDPG实现面临一个关键的理论限制:Q值过高估计的偏差。在敏感的服务器硬件环境下,这种偏差存在安全风险,因为代理可能会高估低风扇速度操作的奖励,可能在训练过程中导致热失控。

尽管取得了这些进展,但仍存在一个具体的问题:如何在组件级别(服务器风扇)实现安全、稳健的控制?在这种情况下,气流过于湍流,无法进行准确的实时建模(限制了基于模型的方法),而动态变化太快,无法通过设施级控制器处理。这需要转向Twin Delayed DDPG(TD3)。通过采用剪裁双Q学习,TD3特别减轻了DDPG的过高估计偏差,为物理服务器硬件的直接、无模型控制提供了所需的稳定性。与需要专家知识的基于规则的逻辑不同,该框架在连续的动作空间中运作,自主发现复杂的、非直观的流分布策略。

为了应对现有设施级或基于模型控制器在处理1U服务器的强热耦合和非线性空气动力学方面的局限性,本研究提出了一种新型的安全意识、无模型的深度强化学习框架。与标准DRL应用不同,本工作的具体贡献包括:

**首先,**我们的方法将多风扇阵列视为一个耦合的MIMO系统,而不是依赖于解耦的反馈回路。这使得代理能够自主学习和利用复杂的、非线性的流动相互作用(如剪切层混合和旁通卷吸)来减轻局部热点,这是分散式控制器无法实现的。

**其次,安全嵌入的奖励机制**:为了解决黑盒探索中的安全风险,我们设计了一种离散惩罚奖励结构。即使在没有预测动态模型的情况下,也可以强制实施严格的结点温度限制,确保硬件安全。

**最后,样本高效的物理部署策略**:为了解决在物理硬件上训练RL代理时高昂的试错成本问题,我们展示了田口方法在超参数调整方面的有效性。与基于仿真的网格搜索不同,这种方法系统地利用信噪比(S/N)分析来识别稳健的参数,为工业部署提供了一种可扩展的方法。

**实验系统描述**
开发了一个具有多个热源的实验系统。图2展示了模拟服务器实验系统的示意图,包括热源、热沉和风扇。系统包括一个电源单元来调节热源的功率输出。此外,微处理器ESP32可以为风扇供电,记录功耗并控制风扇的旋转速度。六个吸风扇将冷空气引入服务器机箱。

**问题表述**
服务器热控制问题被表述为一个受限马尔可夫决策过程(CMDP),由元组(S, A, P, R, γ, C)定义。

状态向量st包括n个热源的结点温度、m个测量点的空气速度以及k个风扇的当前占空比:
S := [Tjun1, …, Tjunn, …, Vadir1, …, Vadirk, …, Dfan1, …, Dfank]
动作向量at表示k个风扇的目标占空比。为了防止机械磨损和声学尖峰,动作被限制在一定范围内。

**结果与讨论**
当服务器的CPU和GPU执行复杂计算时,由于产生大量热量,风扇必须保持高功率模式。虽然有多种放置方案,但在工业供应的服务器中通常使用四种典型的热源放置策略。图7展示了被称为案例1、案例2、案例3和案例4的典型配置。案例1和案例2表明了均匀分布的配置。案例1中的组件位于较高的热量生成区域。

**展望**
虽然所提出的TD3框架显示出显著的节能效果,但仍存在几个限制,为未来的研究指明了方向:

(1)严格的安全约束:目前,安全性是通过基于惩罚的奖励成型(软约束)来实现的。未来的工作将探索正式的安全强化学习方法(如受限MDP或拉格朗日松弛),以在探索阶段提供零安全违规的理论保证。

**作者贡献声明**
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

**致谢**
作者感谢中国国家自然科学基金(编号52206113和52130609)的支持。最后一位作者(C.-C. Wang)感谢台湾国家科学技术委员会在合同编号111-2221-E-A49-090-MY3下的部分支持。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号