MORL-IC：用于模拟集成电路优化的多目标强化学习方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Integration》：MORL-IC: Multi-objective reinforcement learning approaches for analog integrated circuit optimization

【字体：大中小】 时间：2026年02月02日 来源：Integration 2.5

编辑推荐：

　　模拟和射频集成电路的多目标强化学习优化工作流设计及其效果分析。通过结构化初始化和代理环境评估机制，提出MODDPG家族框架，在保持Pareto前沿质量前提下将SPICE仿真次数减少30%-75%。研究重点在于工作流层面的设计决策对收敛行为和计算成本的影响。

Hakan Ta?k?ran|Engin Afacan

电子工程系，Gebze技术大学，Gebze，Kocaeli，41400，土耳其

摘要

模拟和射频集成电路（IC）设计需要在高度非线性和紧密耦合的约束条件下同时优化多个相互冲突的目标。虽然之前的研究（包括我们自己的研究）已经证明了将多目标强化学习（MORL）应用于模拟电路优化的可行性，但工作流级设计选择对收敛行为、仿真成本和帕累托前沿特性的具体影响尚未得到充分探索。本文将多目标深度确定性策略梯度（MODDPG）方法重新定义为不是一种单一的固定算法，而是一系列优化工作流，这些工作流共享相同的多目标演员-评论家学习核心，但在初始化策略和环境评估机制上系统地有所不同。在这个统一的框架下，研究了三种配置：（i）具有随机初始化和直接SPICE评估的基线MODDPG工作流；（ii）MODDPG-2，它使用分析推导出的极值解来指导早期探索；（iii）MODDPG-3，它引入了一个基于ANN的伪设计器，直接从性能规格生成边界解。此外，还研究了一种完全基于ANN的执行模式，在该模式下，基于ANN的伪模拟器在策略学习期间替代SPICE，以加速环境交互。通过在整个变体中保持相同的强化学习架构，所提出的框架隔离了结构化初始化和基于替代物的环境对优化结果的影响。这些工作流在三个模拟电路（有源负载差分放大器、折叠级联放大器和电压比较器）和一个射频电路（CMOS交叉耦合LC振荡器）以及标准分析基准上进行了评估。与NSGA-II和MOEA/D的比较结果表明，没有一种方法普遍占优；然而，所提出的工作流一致地将所需的SPICE仿真次数减少了大约30％-75％，同时保持了竞争性的帕累托前沿质量。这种效率提升表明，强化学习代理逐渐获得了与经验丰富的人类设计师相当的设计直觉——学会了避免设计空间中不具前景的区域，并将评估重点放在高价值的候选方案上。因此，结果表明，除了学习算法的选择之外，工作流级设计决策对于RL如何有效地模拟专家设计行为至关重要，为在自动化的模拟和射频电路设计流程中平衡解决方案质量和计算成本提供了实际指导。

引言

模拟和射频集成电路的设计在现代微电子学中仍然是一个关键且具有挑战性的任务。与数字电路不同，数字电路可以通过计算机辅助设计（CAD）和电子设计自动化（EDA）工具实现几乎完全的自动化，而模拟电路设计仍然严重依赖于专家知识和迭代的手动细化[1]。这种依赖性源于模拟电路的强非线性行为、器件级参数之间的紧密耦合，以及需要同时满足多个经常相互冲突的性能目标，如增益-带宽、延迟-功率和相位噪声-功耗。随着技术的发展和设计约束变得越来越严格，对计算效率高且能够捕捉现实权衡的优化方法的需求也随之增加。

传统的模拟电路优化方法主要依赖于基于种群的元启发式算法，包括遗传算法（GA）、差分进化（DE）和粒子群优化（PSO）。这些方法已被广泛采用并用于模拟和射频电路的帕累托前沿提取[2]，[3]。然而，由于它们依赖于大量的SPICE仿真，因此随着设计空间维度的增加，计算成本很高且收敛速度慢，这限制了它们在时间受限的工业工作流中的实用性。

机器学习（ML）的最新进展为模拟电路设计自动化带来了新的机会。特别是强化学习（RL）因其能够通过与环境的直接交互来学习序列决策策略而受到关注。与需要大型预收集数据集的监督学习方法不同，RL代理在线生成经验并动态调整其策略，使其适用于高维和非线性优化问题。多目标强化学习（MORL）通过允许显式处理冲突目标并直接生成帕累托前沿进一步扩展了RL[4]。几项最近的研究探索了基于RL和MORL的模拟电路优化公式，并经常将它们与已建立的进化算法（如NSGA-II和MOEA/D）进行比较[5]，[6]。尽管有这些发展，许多现有的基于MORL的模拟设计框架主要关注学习算法本身，而将工作流级设计选择（如初始化策略和环境评估）视为次要考虑因素。实际上，这些选择强烈影响早期探索行为、收敛特性和仿真成本。随机或信息不足的初始化可能导致早期学习阶段的探索效率低下，而在策略训练期间直接依赖SPICE则占据了计算努力，并使跨方法报告的性能差异的解释变得复杂。

在我们之前的工作中，引入了一个用于模拟电路优化的基线多目标深度确定性策略梯度（MODDPG）框架[5]。该研究证明了在现实电路约束下应用MORL进行帕累托前沿提取的可行性。然而，该框架依赖于随机初始化和直接基于SPICE的评估，这使得难以隔离初始化策略和环境建模对收敛行为和解决方案质量的影响。

当前的工作通过将MODDPG重新定义为不是一种单一的固定算法，而是一系列优化工作流来解决这一限制，这些工作流共享相同的多目标演员-评论家学习核心，但在初始化策略和环境评估机制上有所不同。通过保持学习算法不变并系统地修改这些工作流组件，所提出的框架能够更清楚地归因于观察到的收敛行为、仿真成本和帕累托前沿特性的差异。具体来说，引入了结构化的初始化策略和基于替代物的环境建模来调节早期探索动态和评估成本。MODDPG-2使用分析推导出的端点解来指导探索，朝着目标空间的物理有意义区域进行。MODDPG-3进一步结合了一个基于ANN的伪设计器，能够直接从性能规格生成极值帕累托解，减少了对随机采样的依赖。此外，还考虑了一种完全基于ANN的执行流程，在该流程中，基于ANN的伪模拟器在策略学习期间替代SPICE，从而加快了环境交互并通过替代辅助估计促进了帕累托前沿的密集化。

由于所有工作流变体都使用相同的MODDPG学习算法，因此观察到的任何优化行为差异都可以归因于工作流设计选择，而不是网络架构或超参数调整的变化。这种表述允许实验分析专注于识别初始化和环境建模如何影响基于MORL的模拟电路优化，而不是提出另一种学习算法。

这项工作的主要贡献可以总结如下：

•
本研究在工作流级别而不是在算法级别重新定义了多目标深度确定性策略梯度（MODDPG）方法。虽然多目标演员-评论家学习核心保持不变，但初始化策略和环境评估机制被明确定义为设计维度，使得可以通过有根据的工作流级决策来塑造RL代理的行为。
•
为了在不依赖低效的随机扫描的情况下调节早期探索，引入了两种结构化的初始化策略：分析端点初始化（MODDPG-2）和基于ANN的伪设计器初始化（MODDPG-3）。这些策略从一开始就引导代理朝向与帕累托相关的区域，从而在高度非线性和紧密耦合的模拟设计空间中实现更快的收敛，同时保持解决方案的多样性。
•
研究了一种完全基于ANN的强化学习环境，在该环境中，策略学习期间用基于ANN的伪模拟器替代SPICE仿真。这种配置大大降低了评估成本，并在早期探索和收敛阶段实现了快速的代理-环境交互，同时所有最终解决方案都使用全晶体管级SPICE仿真进行验证。
•
在相同的目标、约束和评估协议下，将所提出的工作流与NSGA-II、MOEA/D [6]和原始MODDPG框架[5]进行了系统比较。结果表明，所提出的方法在显著减少SPICE仿真的数量的同时，实现了具有竞争力的帕累托前沿质量，突显了工作流级设计选择在平衡探索质量和计算成本方面的有效性。

所提出的工作流在分析基准问题（ZDT2和ZDT4）以及多种代表性的模拟/射频电路拓扑结构上进行了评估，包括差分放大器、折叠级联放大器、比较器和CMOS交叉耦合LC振荡器。通过明确隔离工作流级设计选择，本研究旨在提供对结构化初始化和基于替代物的环境如何影响基于MORL的模拟电路优化的更清晰和更可解释的理解。

本文的其余部分结构如下。第2节回顾了模拟电路优化的相关工作，重点是元启发式和基于ML的方法。第3节详细介绍了所提出的MODDPG框架。第4节讨论了基准问题和电路的结果以及实验评估。第5节总结了本文并概述了未来研究的方向。

章节片段

现状

在使用或制造模拟电路的工业应用中，提高效率依赖于在短时间内交付高质量的产品。实现这一目标需要先进的自动化系统和设计流程，尽量减少人工参与。考虑到对集成电路的高需求，显然目前全球熟练设计师的数量无法满足这一需求，而且这一差距预计还会扩大。

提出的方法

所提出方法的总体结构和设计流程如图1所示。这不是将MODDPG视为一种单一的固定算法，而是将其定义为一系列工作流配置，这些配置共享一个共同的多目标演员-评论家学习核心，但在初始化策略和环境评估机制上有所不同。这种表述使得可以系统地研究结构化初始化和基于替代物的评估如何影响收敛

实验结果

评估过程分为两个互补的阶段。在第一阶段，使用了一组标准分析基准来验证算法的正确性和鲁棒性。在第二阶段，通过获取表1中给出的模型，该方法被应用于真实的模拟/射频电路设计问题，以评估其在现实约束和性能权衡下的实际有效性。

对于分析验证，选择了ZDT2和ZDT4基准问题

结论

本研究提出了MODDPG-2和MODDPG-3的统一框架，这两种方法是针对模拟和射频集成电路设计中的多目标优化而开发的MODDPG算法的改进版本。通过研究分析驱动的、数据驱动的和基于ANN的初始化策略，该工作解决了多目标强化学习中的一个关键挑战：在高度非线性和紧密耦合的设计空间中实现有效的探索。因此，所提出的框架被定位为

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

作者是该期刊的编委会成员/主编/副主编/客座编辑，并未参与编辑审查或决定发表这篇文章。

致谢

本研究由土耳其科学技术研究委员会（TUBITAK）ARDEB 1002 Grant No 124E401资助。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

现状

提出的方法

实验结果

结论

利益冲突声明

致谢

热点排行