一种针对GPU加速的大规模等几何拓扑优化的新数据压缩方法，该方法采用升序策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Finite Elements in Analysis and Design》：A novel data compression method for GPU accelerated large-scale isogeometric topology optimization with order-ascending strategy

【字体：大中小】 时间：2026年02月02日 来源：Finite Elements in Analysis and Design 3.5

编辑推荐：

聂涛|刘建利|赵万鹏|张涛|张瑞晨|韩金鹏|夏兆辉

华中科技大学机械科学与工程学院智能制造装备与技术国家重点实验室，武汉，430074，中国

摘要

本文旨在解决等几何拓扑优化（ITO）在处理大规模问题时面临的存储开销高和计算效率低下的常见问题。为了解决这些问题，本文提出了一种新的框架，该框架结合了高效的数据存储策略和图形处理单元（GPU）加速的优化方法。通过使用控制点对并消除冗余的矩阵存储，等几何压缩稀疏行（IGA-CSR）技术有效降低了存储需求。此外，本文还提出了一种按顺序递增的优化策略，以避免早期由于自由度过大而导致的密集计算。引入GPU进一步改进了优化过程。结合这些方法，本文提出了一个高效的优化框架，即使对于涉及数千万个自由度的问题，也能通过单个NVIDIA GeForce RTX 3090 GPU（24 GB内存）实现高效优化。通过两个3D基准测试示例的验证表明，IGA-CSR方法在内存消耗方面优于现有方法，并且与传统的二阶等几何拓扑优化方法相比，计算效率提高了约65.4%。

引言

结构拓扑优化是结构优化的一个关键分支，起源于20世纪80年代初。Bends?e和Kikuchi [1] 提出了连续体拓扑优化的基础理论，开创了有限元分析（FEA）与优化方法的结合。这导致了多种连续体结构拓扑优化技术的发展，通常分为两类方法：基于材料分布的方法和基于边界描述的方法。基于材料分布的方法使用单元密度作为设计变量，在给定材料分布下分析结构响应。著名的方法包括1989年提出的Bends?e的Solid Isotropic Material with Penalization（SIMP）方法[2]、均质化方法[1]以及进化结构优化方法[3,4]。另一方面，基于边界描述的方法将结构边界参数作为设计变量，根据结构响应分析来演化边界，包括水平集方法[5,6]和移动可变形组件方法[[7], [8], [9]]。由于其高效性和能够获得创新设计的能力，拓扑优化吸引了全球的关注[[10], [11], [12]]。

传统基于有限元的拓扑优化方法的一个挑战是计算机辅助设计（CAD）几何模型与计算机辅助工程（CAE）分析模型之间的不一致性，这会导致几何误差[13]。CAE分析后需要重建CAD模型，从而引入额外的误差并延迟模型转换，影响FEA的效率和准确性。为了解决这个问题，Hughes等人[14]在2005年引入了等几何分析（IGA）。IGA使用B样条和非均匀有理B样条（NURBS）来表示几何模型，并直接将这些表示应用于数值计算。通过整合几何建模和数值分析，IGA在优化过程中保持了几何精度，为拓扑优化提供了新的研究机会[15]，特别是对于复杂几何形状和高精度应用。

近年来，在等几何拓扑优化（ITO）的理论发展[16], [17], [18]、算法进步[19], [20], [21], [22]以及工程应用[23,24]方面取得了显著进展。Qian等人[25]在2010年首次提出了基于NURBS的系统性ITO框架，将几何表示与优化相结合。随后Wang等人[26]将IGA与参数化水平集方法结合，提出了一种用于解决最小合规性问题的高效ITO方法。2017年，他们为周期性晶格材料引入了一种ITO方法[27]，通过在FEA中直接应用NURBS基函数，提高了计算精度和效率。Kang等人[28]将ITO扩展到壳结构，结合了修剪表面分析（TSA）技术，并使用未修剪的NURBS补丁来构建优化过程中遇到的复杂拓扑结构，同时将2D TSA概念适应于壳结构以管理复杂的拓扑配置。Gao等人[29,30]通过开发多补丁公式（MP-ITO）进一步推进了等几何拓扑优化框架，该公式使用Nitsche耦合技术，便于设计具有改进的边界连续性和几何灵活性的周期性和分级蜂窝结构。Lin等人[31]在整合不同运动学描述的基础上，引入了一种基于粒子流的拉格朗日-欧拉拓扑优化框架，将等几何分析与粒子驱动建模相结合，有效解决了初始配置中不规则和极端粒子分布相关的数值挑战。Gu等人[32]通过引入疲劳约束ITO（FCITO）方法解决了ITO方法中的差距，该方法专注于比例循环载荷下的高循环疲劳，并使用移动渐近线法（MMA）求解优化模型。同时，Zhang等人[33]通过将基于T样条的等几何分析与高阶面板方法结合，为复杂壳结构建立了空气动力学拓扑优化框架，实现了精确的空气动力载荷评估和高效的刚度导向优化。

在拓扑优化的工程应用中，提高网格分辨率显著提高了分析精度。然而，尽管IGA具有高阶连续性的优势[34]，但由于刚度矩阵的密集性，它面临着计算复杂性和内存需求呈指数级增长的挑战。即使在使用有限元方法（FEM）或其他数值方法的拓扑优化问题中，这个问题仍然存在，平衡计算效率和可扩展性仍然是一个核心挑战[35,36]。

为了解决这些挑战，将拓扑优化与高性能计算（HPC）相结合已成为一个关键的研究焦点[36,37]。2007年NVIDIA推出计算统一设备架构（CUDA）[38]，标志着图形处理单元（GPU）从图形渲染向通用并行计算的转变。由于GPU具有广泛的计算核心和高内存带宽，它们特别适合拓扑优化中固有的常规数值任务。因此，越来越多的研究人员采用了基于GPU的并行计算技术。Leonardo等人[39]将Talischi等人[40]的PolyTop代码与C++和CUDA结合，开发了PolyTop++框架，以应对在任意设计域中使用多边形网格的挑战。Munk等人[41]首次将GPU框架应用于双向进化结构优化（BESO）算法，并将其与GPU-LBM代码结合，以评估解决实际多物理设计问题的可行性。Tr?ff等人[42]提出了两种基于GPU加速的线性弹性最小合规性拓扑优化问题的方法及其相应的实现代码。一种使用Futhark语言，另一种利用OpenMP 4.5生成GPU内核。最近，开发了一种高效的GPU求解器，用于支持纤维增强复合材料（FRCs）的大规模3D拓扑优化，其中包含了空间变化的纤维方向[43]。这些进展突显了GPU在拓扑优化中的演变，从单纯的加速器转变为核心计算架构。

尽管取得了这些进展，但在单个GPU上处理超过一千万个自由度问题的研究仍然有限。鉴于学术界和工业界越来越关注以更低的计算成本实现更大、更快的拓扑优化设计，本文提出了一种基于GPU加速的ITO方法，该方法采用了一种新的稀疏矩阵压缩方法——等几何压缩稀疏行（IGA-CSR），该方法使用控制点对并消除冗余的矩阵存储。此外，还引入了一种按顺序递增的策略，以减少早期由于自由度过大而导致的计算成本。本文的其余部分结构如下：第2节简要介绍了NURBS和基于SIMP的ITO的基本理论。第3节提出了新的压缩稀疏行（CSR）数据压缩方法IGA-CSR和按顺序递增的ITO方法，以及针对它们的高性能GPU并行加速方法。第4节通过一些数值示例验证了所提方法的效率和低内存成本。第5节给出了结论。

章节摘录

NURBS简介

2005年，Hughes等人[14]引入了IGA，这是一种新的FEM，它直接整合了CAD几何形状用于结构分析，消除了CAD和CAE系统之间的模型转换需求。与使用拉格朗日插值函数作为基函数的传统FEM不同，IGA采用NURBS，保留了FEM的等参概念，但提高了几何精度[44]。

要理解NURBS，首先需要了解广泛用于计算中的样条曲线的基础知识

IGA-CSR数据压缩方法

对于大规模ITO问题，刚度矩阵通常占据超过98%的存储空间。本节重点优化IGA刚度矩阵的存储方法，并提出了一种基于CSR方法的增强型IGA-CSR压缩数据方法，旨在增加ITO模型中可解决的最大自由度（DOFs）。

在静态问题中，刚度矩阵表示控制点位移与施加力之间的关系。

数值示例

所有测试案例使用的计算环境如下：CPU：Intel Xeon Gold 6133，128 GB RAM，40核心；GPU：3 × NVIDIA GeForce RTX 3090，24 GB；PCI-e：3.0 × 16；Windows 10；OpenMP 2.5和CUDA 11.6.1。变量类型为双精度，收敛标准tol在残差向量的L2范数中指定。值得注意的是，所有这些数值示例仅在1个GPU上运行。

结论

本文提出了一种新的ITO框架，以解决大规模问题中的存储开销和计算效率问题。所提出的IGA-CSR方法是一种高压缩稀疏矩阵方法，它利用控制点对与刚度矩阵元素之间的相互作用来优化内存使用并提高计算性能。该方法将内存需求减少了近一半，同时提高了GPU的内存访问效率。

CRediT作者贡献声明

聂涛：撰写——原始草案、方法论、调查、概念化。刘建利：概念化。赵万鹏：可视化。张涛：形式分析。张瑞晨：数据整理。韩金鹏：调查。夏兆辉：撰写——审稿与编辑、监督、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家关键研发计划（项目编号2022YFB3302900）和国家自然科学基金（项目编号52475261）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言