新颖性感知的进化贝叶斯优化用于多目标发现科学

《Digital Discovery》:Novelty-aware evolutionary Bayesian optimisation for multi-objective discovery science

【字体: 时间:2026年06月03日 来源:Digital Discovery 5.6

编辑推荐:

  复杂实验系统的高效优化是现代发现科学中的核心挑战,尤其在以高维设计空间、昂贵评估和多竞争目标为特征的环境中。多目标贝叶斯优化(MOBO)因其样本效率而成为此类问题的领先方法,但可能面临探索有限和多样性降低的问题,特别是在多目标、多模态和约束设置中。相比之下,进

  
复杂实验系统的高效优化是现代发现科学中的核心挑战,尤其在以高维设计空间、昂贵评估和多竞争目标为特征的环境中。多目标贝叶斯优化(MOBO)因其样本效率而成为此类问题的领先方法,但可能面临探索有限和多样性降低的问题,特别是在多目标、多模态和约束设置中。相比之下,进化算法擅长在帕累托前沿上保持多样性,但通常需要大量评估预算。在此,研究人员系统地研究了结合两种优势的混合进化-贝叶斯优化策略。基于进化引导贝叶斯优化(EGBO)框架,研究人员在统一基于获取函数的流水线中,跨十个涵盖多模态、多目标和约束区域的合成测试问题,对多个进化生成器进行了基准测试。研究人员进一步引入了一种新颖性感知批次选择策略,该策略在保留模型引导优先排序的同时,明确促进候选批次内的多样性。跨基准测试,混合方法在挑战性优化场景中持续优于纯获取MOBO,实现了更高的超体积(HV)、更低的倒置世代距离(IGD)和更可靠的收敛。收益在多目标和多模态问题以及可行性受限搜索空间中最为显著。然而,在非常高维的特征空间中,性能优势减弱,因为进化探索降低了样本效率。所提出的新颖性感知选择通过减少批次内的冗余和缓解优化停滞进一步提升了性能。重要的是,这些趋势转化到了涵盖反应优化、药物配方、材料设计和药物筛选的真实世界实验数据集中。总之,这些结果表明,混合进化-贝叶斯优化为自主和数据驱动发现工作流中的优化性能提升提供了一种稳健且实用的策略。
### 论文解读:新颖性感知的进化贝叶斯优化用于多目标发现科学

#### 研究背景与问题

在现代发现科学中,化学、制药和材料学等领域日益采用闭环优化,通过机器学习模型迭代提出新实验以高效导航复杂设计空间。然而,实验评估昂贵、嘈杂且数量有限,同时设计空间常呈高维且受多个竞争目标支配。多目标贝叶斯优化(MOBO)因样本效率成为主流,但基于获取函数最大化(如期望超体积改进EHVI)的策略倾向于贪婪的模型驱动利用,而非探索,导致在多数目标、多模态或约束复杂场景中帕累托前沿探索不足、多样性降低。进化多目标优化(EMO)方法(如U-NSGA-III、SMS-EMOA、AGE-MOEA-II)通过基于种群的搜索和非支配排序保持前沿多样性,但需要大量函数评估。因此,存在根本性权衡:贝叶斯优化样本高效但多样性有限,进化算法多样性丰富但评估密集。为弥合这一差距,Low等人引入进化引导贝叶斯优化(EGBO)框架,耦合进化候选生成与获取驱动优化,但候选选择步骤仍可能因冗余导致停滞。此外,现有多样性感知方法多针对纯新颖性搜索或单目标多模态优化,未直接解决多数目标约束设置中的帕累托前沿停滞问题。为此,本研究系统性评估混合进化-贝叶斯优化策略,并提出一种新颖性感知批次选择策略以提升探索效率。

#### 研究内容与结论

研究人员基于EGBO框架,在十个合成测试问题(涵盖多目标、多数目标、多模态和约束场景)上比较了不同进化生成器与纯获取函数qLogNEHVI的性能,并引入新颖性感知批次选择策略。研究还通过高斯噪声、约束边界调整和高维特征扩展进行压力测试,并在四个真实实验数据集(Suzuki-Miyaura交叉偶联反应、微颗粒配方、工业涂料配方、药物筛选)上进行了事后优化验证。主要结论:混合方法在挑战性优化场景中持续优于纯qLogNEHVI,尤其在多数目标(如DTLZ2五目标)和多模态问题(如ZDT4)中,实现了更高的超体积(HV)、更低的倒置世代距离(IGD)和更可靠的收敛。收益在约束问题中同样显著,但在非常高维特征空间(如50维或100维)中,进化探索降低了样本效率。新颖性感知EGBO通过减少批次内冗余和优化停滞,在合成和真实实验数据上均进一步改进了性能,尤其在约束问题中减少了约30%的停滞批次。研究还发现,组合多个进化生成器仅带来边际性能提升,而增加计算成本。

#### 意义

本研究为自主实验室和数据驱动发现工作流提供了稳健且实用的混合优化策略,证明将多样性作为批次多目标优化的设计原则而非获取最大化的副产品具有实际价值。结果发表在《Digital Discovery》。

#### 主要关键技术方法

1. **混合优化框架**:基于EGBO,将qLogNEHVI获取函数优化产生的候选与进化生成器(U-NSGA-III、SMS-EMOA、AGE-MOEA-II)产生的候选合并,再通过共同获取函数评分选择批次。
2. **新颖性感知批次选择**:在合并候选池中,采用贪心选择,结合归一化qLogNEHVI得分(权重0.7)和归一化新颖性得分(权重0.3),新颖性定义为归一化决策空间中候选到已评估点或已选点的最小欧氏距离。
3. **基准测试与压力测试**:使用来自DTLZ、ZDT和MW测试套件的十个问题,并引入高斯噪声(0-20%)、约束边界调整和高维特征(最高100维)进行鲁棒性评估。
4. **真实数据集事后优化**:在四个数据集(Suzuki反应、SDL5配方、ADA涂料、GDSC CRC5药物筛选)上模拟闭环优化,每个数据集来源均注明。

#### 研究结果

**2.1 混合进化-贝叶斯优化在挑战性基准问题上提升性能**
基于EGBO框架,比较qLogNEHVI与分别耦合U-NSGA-III、SMS-EMOA、AGE-MOEA-II的混合方法。在多数目标DTLZ2五目标问题上,NEHVI+U-NSGA-III的最终HV比纯获取基线高五倍以上,IGD更低、前沿覆盖更广、收敛更快。在多模态ZDT4上同样更优。在简单两目标问题上差异小。统计检验(Friedman和Wilcoxon)确认混合方法显著优于纯qLogNEHVI。分析生成器贡献显示,进化提议在复杂问题中主导选择,但获取贡献保持非零。U-NSGA-III提供最一致的前沿覆盖。比较qParEGO表明,仅靠获取水平标量化不足以复制进化互补多样性。

**2.2 组合多个生成器带来边际性能提升与计算成本**
比较单生成器EGBO与多生成器组合(U-NSGA-III+SMS-EMOA等)。在八个问题上,多生成器变体的最终HV改进小(尽管统计显著),IGD无差异。多生成器贡献帕累托最优解,但最终解分布与单生成器几乎一致,计算时间显著增加。

**2.3 进化生成器提升对噪声和可行性受限搜索的鲁棒性,但在高维特征空间中退化**
仅比较EGBO(U-NSGA-III耦合)与纯qLogNEHVI。添加高斯噪声(0-20%)后,两者HV随噪声增加而下降,但EGBO在五目标DTLZ2上仍优于qLogNEHVI(后者HV无增长)。约束问题中,EGBO在MW3/5/7上生成更多可行点,且当约束边界收紧时仍保持优势。高维特征(50/100维)测试中,EGBO的HV和IGD逐渐劣于纯qLogNEHVI,表明进化探索在高维稀疏空间中稀释样本效率。

**2.4 引入新颖性感知提升混合模型优化效率**
提出新颖性感知EGBO,在合并候选池中基于加权得分(w=0.7获取,1-w=0.3新颖性)贪心选择。在十个基准问题上,新颖性感知EGBO的HV和IGD优于标准EGBO和纯qLogNEHVI。探索得分(1-选择点的平均获取百分位数)显著更高,表明更倾向于探索。在约束问题中,新颖性感知EGBO将平均停滞批次从2.37减少至1.67,最终HV提升12.9%。在四个真实数据集上,新颖性感知EGBO在三个数据集中达到最高平均HV,IGD显著低于其他方法。统计检验确认其优越性。

#### 总结讨论

**研究结论翻译**:在这项工作中,研究人员系统地评估了混合进化-贝叶斯优化策略用于多目标发现问题。通过将进化候选生成纳入获取驱动优化工作流,混合方法在挑战性场景中持续改善了优化性能,特别是在传统纯获取优化可能过度利用的多目标和多模态问题中。跨一系列基准景观,进化生成器改善了帕累托前沿覆盖、收敛可靠性和超体积扩展,同时在更简单的优化任务上保持可比性能。研究结果进一步表明,这些收益源于获取驱动搜索和进化搜索的互补角色:进化算法提供目标空间的广泛探索,而获取优化细化设计景观中的有希望区域。在评估的进化算法中,U-NSGA-III提供了最一致的帕累托前沿覆盖,而组合多个进化生成器相对于额外计算成本仅带来边际改进。相反,在非常高维的特征空间中,混合收益减弱,因为广泛的进化探索显著降低了样本效率。研究人员还证明,引入新颖性感知批次选择策略通过促进候选批次内的多样性、减少优化停滞并改善帕累托前沿近似,提高了优化效率。尽管这些改进适度——仅在HV和IGD上显示轻微改进,但它们为以新方式调整样本选择方法开辟了途径,可能通过更复杂的方法带来进一步改进。重要的是,这些发现超越了合成基准,有效转化到真实实验优化问题,其中混合优化策略持续优于传统贝叶斯优化方法。这些结果在自动驾驶实验室背景下尤为相关,其中每个优化批次对应一组物理实验。在此类设置中,优化停滞代表浪费的实验资源,包括试剂、仪器时间和研究人员精力。因此,在候选生成中保持多样性的混合优化策略在纯计算指标之外具有实际优势,因为它们减少了重复采样设计空间相似区域的可能性,并提高了发现多样化高性能解决方案的概率。更广泛地说,这项工作表明,在批次多目标优化中,多样性应被视为设计原则,而非仅获取最大化的副产品。在实际应用中,混合进化-贝叶斯方法在具有复杂权衡、受限可行区域或崎岖优化景观的发现活动中最有价值,而更简单的纯获取方法在样本效率至关重要的非常高维设置中可能仍更可取。未来工作应侧重于将这些框架扩展到更高维的实验设计空间,开发更自适应的选择规则以在活动期间调整探索压力,并在实时自动驾驶实验室工作流中前瞻性地验证这些方法。总之,这些结果表明,进化辅助贝叶斯优化为自主发现中导航复杂多目标设计空间提供了一种稳健且实用的策略。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号