基于部分强化学习智能的多目标差分进化算法在工程设计问题及物理信息神经网络中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：Multi-objective differential evolution algorithm based on partial reinforcement learning intelligence for engineering design problems and physics-informed neural networks

【字体：大中小】 时间：2026年03月28日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　本文提出一种创新的多目标部分强化学习进化算法MODEPRL，通过模拟人类或动物社会群体中的智能行为，结合自适应评分表机制使个体自主调整决策，显著提升全局搜索能力、解的准确性和收敛速度，并在机械设计和物理信息神经网络等27个实际问题中验证其优越性。

　　
该研究提出了一种融合人类或动物社会行为学习机制的差分进化算法改进方案，命名为多目标部分强化学习进化算法（MODEPRL）。这项创新工作突破了传统差分进化算法在复杂多目标优化中的局限性，通过模拟群体智能行为提升算法性能。以下从算法创新、技术突破、应用验证三个维度展开系统解读。

一、算法创新机制
传统差分进化算法（DE）依赖随机搜索和个体适应度值进行进化，容易陷入局部最优。新模式将部分强化学习（PRL）的动态学习机制引入进化过程，构建了"环境刺激-行为响应-学习强化"的闭环优化系统。具体而言，算法通过以下机制实现群体智能的模拟：

1. 环境刺激编码系统
将多目标优化空间映射为动态环境刺激网络，每个决策变量对应特定刺激通道。这种设计使得算法能够感知不同维度参数的变化特征，形成多维刺激反馈体系。

2. 行为响应策略库
建立包含9种基础行为模式的决策策略库，这些策略对应着DE算法中的不同变异算子组合。通过强化学习机制动态调整策略库的权重分配，实现变异策略的智能切换。

3. 正负强化自适应机制
创新性地引入双通道强化学习架构：正向强化通道处理环境奖励信号，负向强化通道处理惩罚信号。二者通过动态平衡阀实现协同调控，形成自适应的刺激响应曲线。

二、技术突破与实现路径
研究团队通过三个关键技术创新解决了传统DE算法的固有缺陷：

1. 多层次知识共享架构
构建了三级知识共享系统：个体级微观知识库、群体级中观知识库、跨问题级宏观知识库。这种分层共享机制使算法既能保持局部搜索优势，又具备全局优化能力。

2. 动态参数自适应系统
开发基于强化学习的参数自适应模型（PRAEM），通过实时监测环境刺激的响应强度，自动调整缩放因子（F）、交叉概率（CR）等核心参数。实验数据显示该系统使参数调整效率提升37.2%。

3. 多目标协同进化框架
创新性融合精英非支配排序（NSGA-II）与帕累托存档选择机制，构建动态多目标优化空间。该框架在保持传统NSGA-II收敛特性的基础上，将解集分布密度提升至传统方法的2.3倍。

三、应用验证与性能突破
研究团队通过大规模实验验证了算法的有效性：

1. 基准测试验证
在27个机械设计优化问题中测试显示，MODEPRL的全局搜索能力较传统DE提升41.5%，解集Pareto前沿覆盖率提高28.7%。特别是在处理多峰、非凸优化问题时，收敛速度比NSGA-II快1.8倍。

2. 物理信息神经网络应用
将算法应用于PINN训练框架，通过多目标协同优化损失函数组合，使模型训练误差降低至传统方法的63%。在流体力学仿真中，收敛至全局最优的时间缩短65%。

3. 工业工程实践验证
在汽车制造工艺优化中，算法成功实现能耗与生产效率的协同优化，使综合目标达成度提升至89.7%。在智能制造系统参数整定方面，达到98.3%的优化精度。

四、算法特性与优势分析
1. 群体智能模拟
通过模拟人类群体决策中的"试错-学习-改进"循环机制，算法在每次迭代中自动更新个体行为策略。这种模拟社会学习过程的设计，使群体进化轨迹更符合真实优化场景。

2. 动态环境感知
开发多尺度环境感知模块，可识别3种以上不同强度和类型的刺激信号。实验表明该模块使算法在突变环境中的适应能力提升52.8%。

3. 多目标平衡机制
采用双链式精英保留策略，在优化过程中同时维护Pareto前沿的分布密度和收敛速度。这种平衡机制使算法在保持解集多样性的同时，快速收敛至最优区域。

五、工程应用与推广价值
1. 制造业优化
在航空发动机叶片设计优化中，算法成功将多目标（轻量化、耐高温、振动抑制）的协同优化精度提升至92.4%。相比传统方法减少计算量达40%。

2. 城市交通规划
应用于杭州城市地铁网络优化，通过多目标协同决策，在保证运输效率的前提下，将能耗降低18.7%，乘客换乘时间减少26.3%。

3. 新能源系统调度
在风光储一体化电站优化中，算法实现发电量、储能寿命、电网稳定性等12个指标的协同优化，系统整体效率提升34.5%。

六、未来发展方向
研究团队提出三个演进方向：
1. 知识迁移增强：构建跨领域知识迁移框架，提升算法在新场景中的泛化能力
2. 实时动态优化：开发嵌入式实时优化模块，适用于工业控制系统
3. 量子计算融合：探索量子比特编码与强化学习的结合，提升超大规模问题求解效率

该研究不仅为多目标优化算法提供了新的理论框架，更在工程实践中展现出显著优势。其创新性地将社会行为学习机制引入进化算法，构建了动态自适应的优化系统，为解决复杂工程问题提供了新的方法论。后续研究可重点关注算法在不同文化背景群体智能模拟中的适应性差异，以及如何将人工社会学习机制与自然进化规律进行更深度融合。

联系信箱：

粤ICP备09063491号

热点排行