通过深度迁移强化学习加速三维拓扑优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

通过深度迁移强化学习加速三维拓扑优化

《Engineering Applications of Artificial Intelligence》：Accelerated three-dimensional topology optimization via deep transfer reinforcement learning

【字体：大中小】 时间：2026年05月11日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　王明伟|张健|李恩明|张航|王振|黄旭|江腾远|周静涛中国西安西北工业大学机械工程学院，710072 摘要为了提高三维设计求解算法的效率，已经提出了多种基于深度学习的替代模型，这些模型通过学习历史数据来增强算法性能，因为传统的基于有限元方法（FEM）的拓扑优化算

　　王明伟|张健|李恩明|张航|王振|黄旭|江腾远|周静涛
中国西安西北工业大学机械工程学院，710072

摘要
为了提高三维设计求解算法的效率，已经提出了多种基于深度学习的替代模型，这些模型通过学习历史数据来增强算法性能，因为传统的基于有限元方法（FEM）的拓扑优化算法在计算成本上较高且可重用性有限。然而，这些模型存在两个显著的限制。首先，缺乏物理反馈使得优化后的结构难以满足关键的物理约束，如体积分数和结构可行性。其次，它们对大规模标记数据集的依赖性较强，当任务复杂性在保持物理目标不变的情况下增加时，会限制知识的有效重用。本文提出了一种基于深度迁移强化学习（DTRL）的新三维拓扑优化方法来解决这些问题。具体而言，设计了一种多阶段的物理奖励函数，该函数整合了结构连通性、体积约束和合规性。这确保了深度强化学习（DRL）训练过程以机械性能为导向，并产生物理上可行且高性能的输出结构。此外，还开发了一种两阶段预训练和微调范式，通过状态和参数初始化策略将简单的源任务的物理先验知识转移到更复杂的任务中，显著提高了样本效率和适应能力。在对航空安装支架的拓扑优化公开数据集进行的实验表明，即使在使用有限的目标域数据子集进行微调时，该方法也能在变化的加载条件下生成物理上可行且高性能的结构。与监督学习（SL）基准方法相比，该方法在样本效率和鲁棒性方面表现出显著优势。

引言
拓扑优化（TO）是现代结构设计中的革命性技术。它能够自动确定给定设计空间内的最佳材料分布，以在指定负载和约束条件下最大化性能并最小化重量（Sigmund和Maute，2013）。迄今为止，结构拓扑优化算法及其变体在理论和实践中都取得了巨大成功。这些方法包括具有惩罚项的固态各向同性材料（SIMP）（Bends?e和Kikuchi，1988）、进化结构优化（ESO）（Xie和Steven，1996；Yang等人，1999）、水平集方法（LSM）（Allaire等人，2002，2004；Wang等人，2003）以及移动可变形组件（MMC）（Guo等人，2014；Zhang等人，2017）等。然而，尽管这些方法可以生成有效的概念设计，但大多数方法依赖于重复的有限元分析（FEA）和迭代设计变量更新的计算范式，这导致了高昂的计算开销和有限的扩展性。在航空航天领域，由于追求轻量化、高性能和高可靠性的结构，将这些方法应用于高分辨率的三维（3D）承重部件或涉及复杂和变化负载条件的设计场景时，每次迭代都需要巨大的计算资源。因此，单次优化过程通常需要数小时甚至数天。更关键的是，这些方法通常无法有效利用历史数据或专家知识，因此大多数类似的设计任务必须从头开始计算，这是一个昂贵的重复计算过程。在当前航空航天产品开发向小批量、定制化和快速迭代模型转变的背景下，这种高昂的时间成本已成为限制设计效率的关键瓶颈（Li等人，2025）。因此，解决传统迭代范式中的问题以实现更高效和可复用的拓扑优化方法已成为该领域迫切需要解决的关键挑战（Woldseth等人，2022）。

最近，在人工智能领域取得了显著进展，例如深度学习（DL）方法的出现。这些进步催生了新的方法，这些方法被证明可以提高TO过程的效率。由此产生了基于深度学习的拓扑优化（DLTO），成为当前研究的热点领域（Liu等人，2018；Shin等人，2023）。根据实现方式，主流的DLTO方法可以分为两大类：迭代加速模型和直接设计模型。迭代加速模型通过预测中间步骤来减少总迭代次数。直接设计模型更为激进，试图完全绕过迭代过程，实现端到端的单步预测。由于其在效率方面的显著优势，直接设计模型已成为当前的研究焦点（Shin等人，2023）。

尽管基于监督学习的拓扑优化替代模型在提高计算效率方面取得了显著进展，但在3D承重结构的轻量化设计领域（如航空安装支架）仍面临新的挑战。这类结构通常承担关键功能，包括设备连接和负载转移。尽管它们的几何接口和边界条件在设计过程中通常是固定的，但在服役中的加载条件在大小、方向和位置上经常表现出显著变化。本文将这些任务称为变量负载设计问题，其中负载配置发生变化，但边界约束保持不变。鉴于这些因素，现有的拓扑优化替代建模方法仍然存在以下缺点：
（1）优化过程中缺乏物理反馈。大多数现代替代模型使用SL进行训练，优化目标是最小化预测结构与常规算法生成的真实结构之间的几何差异（例如，像素级误差）。这种数据驱动的范式主要关注静态输入-输出映射，没有将物理性能反馈（如合规性和结构连通性）明确纳入决策过程。因此，生成的结构可能在未见的负载条件下出现结构不连续、应力集中甚至断裂，这限制了其在工程实践中的直接应用（Lei等人，2019；Ulu等人，2016；Napier等人，2020）。尽管某些研究通过将性能指标或物理约束显式纳入损失函数来提高生成结果的物理合理性（Yu等人，2019；Luo等人，2021a；Lee等人，2026），但这些方法通常需要仔细调整，并且在推理过程中仍然缺乏迭代反馈机制，难以确保在多种加载场景下的物理可靠性。
（2）严重依赖于大规模数据且可转移性有限。为了适应广泛的设计场景，现有模型通常需要包含大量操作条件的广泛训练数据集。然而，为每个新的设计问题构建如此庞大的数据集不仅成本高昂，而且对于复杂的TO问题来说在实践中是不可行的（Behzadi和Ilie?，2021a）。更重要的是，随着设计任务从简单负载配置发展到更复杂的配置，这些模型难以重新利用先前学习的知识，并且难以在有限的目标域数据下快速适应。实际上，这通常需要重新构建数据集并从头开始重新训练模型，导致数据效率低、知识转移差以及在变量负载设计场景下的适应能力有限。虽然某些研究通过使用非参数化设计域来简化数据集构建的复杂性，但这种方法经常导致新的数学假设（Huang等人，2022；Chandrasekhar和Suresh，2021a；Chandrasekhar和Suresh，2021b）。这些假设反过来又增加了替代模型构建和训练的复杂性。

为了解决上述问题，本文提出了一种基于DTRL的新三维拓扑优化方法。该方法旨在在保持物理目标一致的情况下，有效重用优化知识，从而提高对更复杂变量负载设计场景的适应能力，同时确保物理可靠性。该方法分为两个阶段：预训练和微调。第一阶段是监督预训练。在此阶段，该方法利用历史单负载设计案例训练一个包含TO物理原理和优化模式的先验知识模型，为后续的强化学习（RL）阶段提供网络初始化和策略先验。第二阶段是DTRL微调。在此阶段，智能代理将在模拟真实拓扑优化过程的RL环境中进行探索性学习，并使用内置的环境后处理操作员（包括密度过滤、投影、剪枝等）来避免拓扑优化中的数值不稳定问题（Sigmund和Petersson，1998），并获得清晰的0-1设计。同时，所有关键信息（包括边界条件、负载、设计域和结构的应力分布）都统一表示为张量模型，确保代理在每个决策步骤都能接收到必要的物理信息。更重要的是，为了有效地将第一阶段获得的先验知识传递给代理，本文设计并比较了两种迁移学习策略：状态初始化和参数初始化。这些策略分别将学习到的物理表示和高质量的初始设计状态传递给RL过程，使代理能够快速适应并实现在更复杂但物理目标一致的双重负载设计场景下的性能转移。此外，为了确保输出结构的物理可靠性，该方法采用了一个多阶段奖励函数。该奖励函数不依赖于与真实结构的几何比较，而是直接结合了核心物理指标，如结构完整性、体积分数和合规性。具体而言，表现出低合规性、满足体积约束且无断裂和局部应力集中的结构将获得高奖励；反之则获得低奖励。这种设计确保整个学习过程由物理性能驱动，从而保证代理可以输出物理上可行且高性能的结构。最后，在公开可用的航空安装支架数据集上的实验表明，与SL基线相比，该方法使用显著更少的目标域样本即可实现对复杂双重负载设计任务的强大适应。生成的结构一致满足物理约束并表现出卓越的机械性能，突显了所提出框架的有效性和实际潜力。

本文的主要贡献如下：
（1）本文提出并验证了一种新的两阶段DTRL方法，用于在复杂性递增的变量负载条件下进行三维拓扑优化。该方法建立了一种物理驱动的、可重用的优化范式，有效解决了传统基于SL的替代模型方法在拓扑优化方面的局限性，包括物理可靠性不足、可重用性有限和数据效率低等问题。
（2）本文设计并比较了两种互补的TL策略。通过利用预训练模型提供网络权重初始化和环境初始状态，这些策略有效地解决了DRL中的探索-利用困境（Sutton和Barto，2018），并在将优化知识转移到更复杂但在结构和物理上一致的设计任务时促进了高效的知识转移和稳定的适应。
（3）本文构建了一个与实际TO过程高度相似的RL环境。环境后处理操作员的开发和逐步物理奖励函数的设计使得工程约束和机械性能指标成功整合到学习循环中，确保了物理结构设计的可靠性和高性能。

本文的其余部分组织如下：第2节回顾相关工作。第3节提供了核心方法的全面概述，包括预训练模型的获取、TL策略以及DRL代理的网络架构和训练过程。第4节展示并分析了实验结果。第5节探讨了所提方法的局限性，并提出了未来研究的方向。本文的最后一节第6节提供了结论。

相关工作
本节回顾了与本研究相关的三个基本领域。首先，简要概述了传统的TO算法。在本文中采用了（Chen等人，2024）中的传统算法定义。接下来的一节深入讨论了当前DLTO替代模型的现状，包括它们的主要技术路线和局限性的探讨。最后，作为本文的基本方法论这种内在的顺序决策特性与强化学习（RL）中的马尔可夫决策过程（MDP）（Bellman, 1957）框架自然而然地相符，构成了其核心。为了系统评估所提出的DTRL方法，本研究还采用了公开的SELTO数据集，并设计了一个从单负载条件下的简单设计任务逐渐过渡到双负载条件下的复杂设计任务的迁移场景。具体来说，前一节通过在Disc简单数据集（包含1509个单负载条件样本）上进行监督学习，成功预训练了一个拓扑优化先验替代模型。随后，通过一系列全面的实验，本研究成功验证了所提出的DTRL方法在3D拓扑优化方面的有效性和优越性。实验结果清楚地表明，通过迁移从SL获得的先验知识来加速DRL的微调过程，RL代理不仅能够通过物理驱动的奖励机制确保生成结构的工程可行性，而且结果表明RL代理能够...

为了应对传统拓扑优化算法的高计算成本以及现有DL替代模型的物理不可靠性和有限的任务适应性，本文提出并验证了一种基于DTRL的新颖的两阶段3D拓扑优化方法。首先，该方法利用SL对源任务进行预训练，旨在捕捉历史数据中嵌入的任务一致性的物理原理和可重用的优化模式。其次，它采用了CRediT方法...

作者贡献声明：
王明伟：撰写——审稿与编辑、项目管理、资金获取。
张建军：撰写——原始草案、可视化、验证、软件开发、方法论。
李恩明：撰写——审稿与编辑、验证、资金获取、数据整理。
张航：撰写——审稿与编辑、调查、形式分析、概念化。
王振：资源准备、形式分析。
黄旭：调查、数据整理。
江腾远：项目管理、形式分析。

利益冲突声明：
作者声明他们没有任何已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢：
本项工作得到了四川省科学技术计划（2026NSFSC1234）和陕西省政府教育部门（项目编号24JK0620）的支持。

联系信箱：

粤ICP备09063491号

热点排行