基于有限元-机器学习协同设计与FPGA部署的超低功耗实时芯片热预测框架

《Advanced Intelligent Systems》：Ultralow-Power Real-Time On-Chip Thermal Prediction via Finite Element Method–Machine Learning Codesign and Field-Programmable Gate Array Deployment

【字体：大中小】 时间：2026年02月10日 来源：Advanced Intelligent Systems 6.1

编辑推荐：

　　本文提出了一种集成有限元仿真（FEM）、机器学习（ML）和现场可编程门阵列（FPGA）硬件加速的可扩展能效框架，用于先进封装中的实时芯片级温度预测。该工作通过混合ML-Pareto优化校准紧凑热模型（CTM），利用生成的高保真合成数据训练轻量级单层感知机（SLP），实现在Xilinx Zynq平台上仅消耗1.71 W功率、推理延迟媲美桌面GPU（较GPU能效提升21倍以上，计算速度较全FEM提升2600倍以上）的性能，为边缘人工智能（AI）、移动系统及物联网（IoT）设备提供了精准、低功耗的热管理解决方案。

1 引言

随着半导体工艺持续微缩，通过硅通孔（TSV）和微凸块等先进封装技术日益广泛应用于实现高性能、高密度集成。这些方法支持单封装内的多层架构和异质集成，显著提升系统能力。然而，高密度堆叠也导致功率密度升高，加剧热管理挑战，并增加制造缺陷风险。在三维架构中，TSV提供垂直互连但限制散热路径，抬升内部芯片温度，可能劣化性能或缩短器件寿命。随着工艺节点缩小，诸如未对准微凸块或不规则TSV制造等变异和缺陷更为常见，常常引发局部加热，严重时导致运行期间热失效。

封装后热管理因此对维持先进封装可靠性至关重要。然而，一旦芯片被散热器或盖板密封，直接测量内部芯片温度便不再可行。嵌入式温度传感器仅提供稀疏的点式测量（每个小芯片数十个测点相对于数千个潜在热点），留下大面积未监测区域。这使得仅靠传统传感策略极难捕捉局部梯度或预测热点演化。需要一种新方法——能够在有源运行期间实现内部芯片温度的高分辨率实时监测和控制，即使在盖板封闭条件下。

近期研究显示机器学习（ML）预测芯片温度的潜力远高于传统有限元方法（FEM）或有限差分仿真。大量研究表明，给定准确功率和边界条件数据，基于ML的热求解器能够以较经典方法数量级加速重建稳态或瞬态热图。然而，这些工作大多停留在理论或软件仿真层面，未直接集成到实用化的片上监测系统。

本工作超越仿真，首次为实用先进封装应用呈现了基于ML的热预测框架的端到端实现。具体地，我们瞄准盖板密封环境中内部小芯片温度的实时预测。我们的方法集成基于FEM的紧凑热模型（CTM）与Pareto优化的ML训练，并将最终神经网络直接部署到现场可编程门阵列（FPGA）上进行原位推理。校准时，开盖红外（IR）热成像在多个工作电压下提供真实内部温度分布，用于精化FEM仿真并生成大规模物理一致数据集。训练后，框架仅需盖板表面温度作为输入，确保与真实封装器件条件兼容，同时保留校准数据保真度。

除运行时监测外，该策略还为小芯片产品质量控制提供潜力。通过测试期间轻载操作无盖芯片，可比较IR测量预期与观测热分布，从而在全封装前诊断不良热接触、空洞或有缺陷微凸块。此能力在小芯片系统中尤为宝贵，因数千互连和接口可靠性需确保良率。

除预测精度和推理速度外，我们的方法强调低功耗运行——移动和边缘人工智能（AI）平台中关键要求，因热和功率预算高度受限。传统FEM仿真提供高保真热数据，但耗时且计算昂贵。类似地，基于GPU的推理可实现高吞吐但连续运行消耗数十瓦。相比之下，我们的FPGA实现以低于2 W功耗实现实时推理，较商用GPU提供超过21倍的能效提升。此硬件就绪方法将有望的研究概念转化为可部署用于先进封装的热管理工具，实现在可靠性、延迟和能效关键的环境中的运行监测和制造诊断。

2 方法论

所提框架通过四阶段工作流实现。首先，在四种功率条件（P1–P4）下执行IR热成像获取参考温度数据。这些测量用于通过Pareto基于多目标优化校准FEM模型，产生具有物理一致参数的CTM。

接下来，校准的FEM模型用于训练能够转换盖板表面温度图为芯片级热图的ML预测器。训练后网络映射到并行全连接（FC）核并部署于FPGA，实现在约2 W功率包络内实时推理。

实验装置采用安装于定制评估板上的Sapeon X330测试芯片。顶置IR相机在正常运行期间记录盖板温度分布，随后进行开盖测量直接获取芯片温度用于校准和验证。这些二维温度场T(x, y)在主机工作站处理，提供给FEM进行参数拟合，并用作预测网络的监督学习目标。

尽管IR热成像提供准确参考，其吞吐量有限——每个循环需近一小时用于稳定、校准和重复，且开盖/关盖程序加倍努力。因此，测量样本数不足以支撑稳健ML。为克服此限制，采用校准的FEM模型生成具有高空间分辨率和物理一致性的合成数据集，实现运行条件的全面覆盖和所有功率水平的平衡训练。

2.1 用于数据增强的有限元建模

开发能够准确预测片上温度分布的ML模型需要跨多样功率条件的全面热数据集。然而，通过IR热成像直接采集此类数据高度耗时且昂贵，因每个条件需近1小时用于热稳定、校准和重复测量。此外，我们设置需关盖和开盖配置，有效加倍采集努力。延长测量持续时间还可能引入环境噪声，降低整体数据可靠性。

为克服这些限制，采用FEM产生合成但物理基础的热图，解决测量数据量有限问题。FEM特别适合包含异质元件（如TSV和微凸块）的先进封装环境，因能够以高空间保真度捕捉复杂三维热传输路径。校准的FEM模型不仅复现实验测量分布，还将数据集扩展到无法通过IR采集实际获取的条件，形成大规模模型训练基础。

在四种代表性功率条件（P1–P4）下测量的温度分布用于校准COMSOL Multiphysics内的CTM。Sapeon X330为裸片原型器件，无封装或散热器，因需直接IR热成像芯片表面。此配置显著约束允许操作功率范围，因对过热敏感性增加。

通过实验评估，我们识别最小操作功率低于此温度变化与环境噪声无法区分，和最大功率超过此持续操作风险热失效。在此有界安全操作区域内，稳定基准工作负载仅能在有限数量操作点执行。四种功率条件——5.23 W/1.39 W (P1)、3.56 W/1.26 W (P2)、2.72 W/1.14 W (P3)和2.34 W/1.10 W (P4)，分别对应NPU和VDD功率——因此选作热校准的可靠参考条件。这些功率水平非均匀间隔，因由基准可行性和硬件安全约束定义而非均匀功率划分。

为补充此安全操作窗口内测量的功率-温度数据集，使用COMSOL仿真通过以0.25 W和0.03 W增量分别扫描NPU和VDD功率产生额外中间功率条件。这些插值操作点提供更密集温度剖面用于模型训练。

CTM校准使用多目标优化执行，期间调整关键热参数——包括传热系数、热导率、热容和表面发射率——以最小化仿真与测量温度分布间差异。环境条件和热源定位配置为匹配实验测量设置。

FEM几何基于Sapeon X330封装的物理尺寸和材料属性，包括散热器、硅芯片、微凸块和基板。两个主要功能区域NPU和VDD块建模为 distinct 热源以捕捉实验观测的非对称功耗。使用"固体热传输"模块，体功率输入应用为：Q = P₀/V，其中P₀为施加块功率（W），V为块体积（m³）。热传输受控于：ρC_P?T/?t + ρC_Pu·?T = ?·(k?T) + Q + Q_ted，其中ρ为密度（kg/m³），C_P为比热（J/kg·K），u为速度矢量（对于任何缺陷驱动流），k为热导率（W/m·K），Q为内部热生成，Q_ted为额外源如热电效应。边界热损失通过对流/辐射建模为：-n·(-k?T) = h(T_ext- T)，其中h为传热系数（W/m²·K），T_ext为环境温度，T为芯片表面温度。

校准的FEM模型针对测量IR数据验证，显示在绝对温度和空间分布上紧密一致。一旦验证，用于生成跨越全电压-功率设计空间的高分辨率表面图（61×45网格）。这些合成数据集与测量数据结合训练基于ML的热图预测器，确保平衡覆盖和改进泛化。

2.2 数据拟合至测量值

为桥接IR测量与高保真FEM仿真间差距，我们采用结合ML与多目标Pareto优化的混合校准策略。从COMSOL中基线材料属性出发，参数扫描生成约1000合成温度图，用于训练初始ML代理。此代理支持逆推理估计四个关键热参数——传热系数、硅热导率、热容和表面发射率。

然而，ML-only拟合在四种代表性功率条件（P1–P4）间呈现预测精度不平衡，每种测量为61×45温度图（10980点）。具体地，模型倾向于过拟合至（P1 & P3）组或（P2 & P4）组，导致相反情况性能下降。此不平衡凸显关键限制：基于单目标的参数调优无法确保所有操作条件均匀精度。为解决此问题，引入Pareto基于多目标优化。预测误差分两类以更好捕捉和平衡模型在不同热场景下表现不佳倾向。

为量化此不平衡，平均绝对误差（MAE）聚合为：MAE_SUM(P1, P3) = MAE_P1+ MAE_P3和MAE_SUM(P2, P4) = MAE_P2+ MAE_P4。ML-only调优常最小化一个和以另一个为代价。为强制平衡，优化目标为：minimize [MAE_SUM(P1, P3), MAE_SUM(P2, P4)]，防止一组改进过度退化另一组。

此公式确保一组改进不会过度恶化另一组性能，从而促进整个功率范围平衡校准。为实现此类平衡权衡，需参数空间密集采样。总共有四个关键参数——传热系数、硅热导率、热容和表面发射率——的细粒度扫描产生68452种组合。然而，因每个FEM仿真耗时约72秒，暴力评估所有候选需超过57天，对迭代设计不可行。为克服此限制，我们采用"采样+ML代理"策略。模拟4000种参数组合子集，结果热剖面用于训练DNN代理约880秒，实现约14毫秒预测——比直接FEM快约17倍。

34轮后，代理达到测试确定系数R²= 0.9999，验证MAE 0.01999和测试MAE 0.0163，平均轮时间40秒内达成。这些结果确认模型稳定收敛无任何过拟合迹象。此外，表2显示总仿真时间较暴力FEM减少2600倍，凸显代理效率。

代理支持通过NSGA-II全搜索68452种组合，从钩形Pareto前沿选择非支配参数集。NSGA-II的交叉、突变和拥挤距离操作确保多样性同时最小化所有四种功率条件MAE。

表3显示参数在三个阶段——基线、ML-only和Pareto优化——的收敛，且最终值既物理一致又良好平衡。较ML-only校准，Pareto优化降低平均MAE 2.6%和方差20.7%。将这些参数纳入管道能够生成25个额外FEM数据集，扩展训练覆盖和改进全电压-功率范围ML泛化。

2.3 通过ML训练的热图预测

参数校准后，使用优化设置运行25种不同功率条件的FEM仿真，并结合4个IR测量剖面形成29样本数据集。尽管具有Pareto优化参数的FEM仿真提供准确热剖面，它们依赖线性假设且可能未完全捕捉真实环境中非线性因素。为解决此，特意将四个测量功率剖面纳入数据集，使模型能够从实际热行为学习，包括环境噪声和仿真未计过程引起不确定性。

为确保学习不受地面真值与FEM生成温度间小差异（约0.3°C）负面影响，功率扫描精心设计使每个场景引起芯片级温度分布约1°C差异。此故意间距最小化残余仿真误差影响，允许ML模型聚焦学习真实热模式而非FEM拟合伪影。

每个样本由表面温度图（关盖）和相应芯片级图组成，两者从61×45网格（2745特征）展平并归一化至[0, 1]以稳定优化。数据集分割为70%训练、15%验证和15%测试。

选择轻量级单层感知机（SLP）因其低参数数、小数据集高效学习能力和适合FPGA部署。SLP直接映射表面温度向量（X）至芯片温度向量（Y）。具体地，X和Y均定义为2745维节点向量以摄氏度表示，其中X对应盖板表面温度，Y对应内部芯片温度。此直接映射实现实时推理与最小资源使用。

表4总结的性能指标证明测试集高预测精度。这些结果确认结合有限测量数据与FEM生成仿真能够快速准确预测先进封装系统内芯片级温度分布（热图）。

2.4 基于FPGA的加速器架构

基于FPGA的加速器通过实现针对大规模并行工作负载（如神经网络推理）优化的应用特定硬件，实现优于通用处理器的能效。在Xilinx Zynq系列中，可编程逻辑（PL）区域可配置为专用AI加速器，仅包含基本计算模块和数据路径。此选择性实例化最小化逻辑开销，最大化吞吐量，并显著降低功耗——对功率和空间受限平台（如边缘设备和电池供电系统）特别有利的特性。

Zynq架构集成ARM Cortex-A9处理系统（PS）与PL结构，支持统一平台内直接硬件-软件性能比较。此双架构设置促进协同设计方法，其中计算工作负载可动态分区 between 软件执行和硬件加速以实现最优效率。

图9图示为执行训练FC神经网络用于热图预测开发的定制硬件架构。实现目标为Zynq Zybo Z7板，模型参数存储于安全数字（SD）卡并在传输至PL via AXI4总线前加载入PS。PL内，块RAM（BRAM）缓冲输入向量和权重参数。每个参数以16位定点格式表示，每个32位BRAM字存储两个参数。四个BRAM块支持八个并行FC单元，允许多个输出节点并发计算。

FC层在FPGA上实现为基于八路定点乘加（MAC）阵列的流加速器，由轻量级数据移动有限状态机（FSM）控制。输入特征向量存储于双端口BRAM，其中每个32位字打包两个16位定点元素。八个神经元的权重参数分布于四个BRAM库使用相同打包格式，实现每个MAC管道独立并行权重访问。

推理期间，启动命令和输入向量长度通过控制寄存器发出。数据移动FSM随后顺序遍历输入BRAM地址，广播每个输入字至所有MAC单元，同时每个MAC单元同时从指定BRAM库获取对应权重字。每个MAC管道在完整输入维度上执行定点乘法和累加，其累加器保留对应一个输出神经元的最终点积结果。

因所有八个MAC单元在共享输入流上并发操作同时消耗不同权重流，架构每次完整遍历输入向量产生八个神经元输出并行。对于更大输出维度网络，如本工作使用的2745神经元热图预测器，输出以八组迭代产生并写回BRAM供PS检索。

为基准测试，相同推理任务在ARM Cortex-A9上使用相同输入和参数软件执行。基于FPGA的加速器在执行时间和能效上显著优于CPU，证明其适合先进封装系统中高吞吐、低功耗标量操作如实时热预测。

3 结果与讨论

3.1 模型性能与热图可视化

使用29个数据集评估所提热图模型的预测精度和稳健性：25个FEM生成热剖面——用优化参数校准——和4个IR测量剖面。性能在四种功率条件（P1–P4）下使用基线ML优化FEM模型和所提Pareto优化变体评估。

Pareto优化模型在所有指标上一致优于基线，显示MAE平均改进15.9%、MSE 28.2%和RMSE 8.1%。优势在P4最显著，其中基线MAE（0.547°C）降至0.403°C，指示挑战操作条件下改进稳定性。跨功率模式预测误差方差也显著降低，证明更好泛化。

图10比较四种功率条件（P1–P4）下预测热图与地面真值测量，对比两种模型训练策略：（a）FEM + Pareto优化和（b）基线ML-only优化。Pareto优化模型准确捕捉跨芯片局部热点和热梯度，所有条件保持均匀低MAE。相比之下，基线模型在选定场景（P1和P2）表现良好但在P3和P4显示下降精度，指示条件特定过拟合。此比较凸显Pareto基于多目标校准在避免跨操作点性能权衡的有效性——可变工作负载下真实热管理关键特征。

两个设计选择主要驱动这些增益。首先，Pareto引导CTM校准平衡跨P1–P4误差而非过拟合单操作点，产生均匀低MAE和更紧条件间方差。其次，功率扫描使用场景间约1°C间距——大于约0.3°C FEM-测量残余——使网络学习物理有意义结构而非仿真伪影。混合四个关盖/开盖IR锚点与合成集也注入真实噪声和过程可变性，提升稳健性。值得注意的是，轻量级SLP足够因稳态传导施加从盖板表面至芯片场近线性映射一旦CTM良好校准；61×45输出网格进一步保留空间细节用于热点定位。实践中，芯片级亚0.5°C误差与主动控制兼容（如小芯片级功率封顶、微凸块自加热），实现更紧热保护带而不牺牲可靠性。

3.2 FPGA推理性能与能效

为验证实时适用性，训练SLP模型部署于Xilinx Zynq-7000 FPGA（Zybo Z7板），FC层实现为并行硬件加速器。FPGA实现核心推理时间0.0143秒——媲美RTX 3060 Ti GPU记录的0.0147秒，尽管操作在功率一小部分。相比之下，ARM Cortex-A9软件执行需8.6408秒，代表603倍加速。包括从SD卡至BRAM数据传输，总FPGA执行时间1.5005秒（包含1.4862秒数据传输和0.0143秒计算），仍产生5.76倍加速较ARM软件执行。跨FPGA、GPU和ARM平台的性能和能效比较总结于表5。

功率测量显示最大1.71 W，提供>20倍更好能效较相同FC模型在GPU上执行基准测试实验。加速器使用八个FC核并行操作，具流水线执行和四个BRAM用于权重和中间数据存储。16位定点格式最小化资源使用同时保留模型精度。

这些结果确认所提FPGA加速器交付GPU级延迟与数量级更低功耗，使其成为能量和热约束智能系统（如移动设备、无人机和边缘AI平台