
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于偏好条件的多目标质量多样性梯度变分算法
《ACM Transactions on Evolutionary Learning and Optimization》:Preference-Conditioned Gradient Variations for Multi-Objective Quality-Diversity
【字体: 大 中 小 】 时间:2026年02月16日 来源:ACM Transactions on Evolutionary Learning and Optimization
编辑推荐:
多目标质量-多样性算法MOME-P2C通过偏好条件策略梯度突变和拥挤机制,有效探索高维搜索空间,在六项机器人运动任务中表现优于现有方法,并引入新稀疏度指标评估非支配前沿分布平滑度。
AI 生成的摘要
该摘要由基于已发表文章内容的自动化系统生成。
生成日期:2026年2月10日。
本研究介绍了一种名为 MOME-P2C 的新型多目标质量多样性算法,该算法在发现具有多样性和高性能的解决方案方面优于现有方法。通过结合偏好条件下的策略梯度变异和拥挤机制,该算法能够高效地探索复杂的客观空间,从而克服了现有方法的局限性。
质量多样性算法旨在生成在特征上具有多样性且在给定任务中表现优异的解决方案集合。传统的算法(如 MAP-Elites 和 Multi-Objective MAP-Elites)虽然表现出一定的潜力,但在涉及神经网络的高维搜索空间中存在可扩展性问题。之前的最先进方法 MOME-PGX 为每个目标维护了独立的演员-评论家网络,这导致计算成本较高,并且无法捕捉目标之间的有意义权衡。
MOME-P2C 引入了一个统一的偏好条件下的演员-评论家框架,可以同时处理多个目标。该方法不是为每个目标训练单独的网络,而是根据指定不同目标相对重要性的偏好向量来调整策略梯度更新。这使得算法能够发现实现各种权衡的解决方案,而不仅仅是独立优化每个目标。偏好条件下的演员网络可以重新调整并注入种群中,而不会导致架构不匹配,从而提供了一种优雅的基于梯度的优化方法。
该算法结合了拥挤机制,以促进解决方案在非支配前沿的均匀分布,确保权衡选项的多样性。它将遗传变异操作符与策略梯度变异相结合,从而在低维和高维搜索空间中实现稳健的探索。该方法在六个机器人运动任务上进行了评估,其中包括三个新提出的多目标任务,并在多个指标上表现出优越的性能。
结果表明,MOME-P2C 在性能上始终优于或与现有基线算法(包括 MOME-PGX、MOME 和经典的多目标进化算法)相当。重要的是,除了获得更高的质量分数外,MOME-P2C 还产生了更平滑的权衡分布,这是通过新提出的稀疏性指标来衡量的。由于其单一的共享演员-评论家架构,MOME-P2C 比 MOME-PGX 更节省内存,降低了计算成本,并提高了处理更多目标问题的可扩展性。
消融研究证实,每个组件都对性能有重要贡献。拥挤机制在所有任务中都至关重要,遗传变异在大多数环境中都能改善结果,而偏好条件下的更新增强了探索能力。然而,研究也指出了局限性,包括仅限于运动基准测试,以及在高维目标空间中均匀偏好采样可能效果不佳的潜在挑战。未来的工作应探索自适应偏好采样策略和在多目标优化场景中保持多样性的机制。
生物通微信公众号
知名企业招聘