机械加工工艺路线规划:基于图谱的历史工艺数据引导的深度强化学习

《ADVANCED ENGINEERING INFORMATICS》:Machining process route planning: Deep reinforcement learning guided by graph-based historical process data

【字体: 时间:2026年03月06日 来源:ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐:

  本文提出一种知识引导的深度强化学习框架,用于解决机械加工过程路线规划中的搜索空间过大和解决方案可信度不足的问题。通过图卷积网络(GCN)提取历史数据中的可靠操作序列,缩小搜索范围;设计双模式状态表示,结合实时状态和历史数据训练DRL代理,并在推理时使用GCN预测。实验表明,该方法有效提升效率和可信度。

  
王振|张书生|张航|王月|张亚军|梁家晨|蒋腾远
西北工业大学机械工程学院,中国西安710072

摘要

用于机械加工路径规划的深度强化学习(DRL)方法面临两个关键且相互关联的挑战:庞大的搜索空间和有限的解决方案可信度。这些方法依赖于预定义的通用规则来生成候选操作,从而创建了一个庞大的搜索空间,限制了学习效率。更严重的是,由于这些规则往往不能充分代表复杂的经验知识,DRL智能体可能会探索出实际上不可行或不安全的路径。这在难以实现高保真物理仿真的制造场景中构成了一个重大障碍。为了解决这些问题,我们提出了一个基于知识的框架。我们的核心策略是将知识提取与序列优化分离,将DRL任务从基于规则的广泛搜索转变为基于知识的优化,以提高学习效率和可信度。首先,一个图卷积网络(GCN)在历史数据上训练,作为外部知识提取器。它通过直接预测每个加工特征最可能的操作序列来绕过基于规则的候选生成过程,从而将搜索空间缩小到可行的范围内。其次,在这个可信的基础上,我们的DRL智能体学习如何全局排序所有特征的加工过程,以最小化辅助加工时间(例如换刀时间),同时遵守制造约束。核心创新在于DRL智能体动态构建的状态表示。在训练过程中,它将每个加工特征的历史操作与其实时执行状态结合起来,使策略学习与制造要求保持一致。对于新零件的推理,它允许直接用GCN的预测替换历史数据。这种双模式状态表示是实现既稳健又实际可行的策略的关键,使其能够在不重新训练的情况下为未见过的零件生成可信的路径。实验结果验证了我们框架的有效性,提供了一种有效限制搜索空间并促进AI在复杂制造规划中应用的解决方案。

引言

机械加工路径的优化是一个关键且复杂的任务,对产品质量、生产效率和整个智能制造生命周期的制造成本有着深远的影响[1]、[2]、[3]、[4]。这一复杂的规划阶段决定了将原材料转化为成品的操作顺序,不仅需要深厚的领域专业知识,还需要大量的计算资源[5]、[6]。尽管其重要性不言而喻,但实现真正智能和自动化的规划仍然是一个重大挑战。一个主要障碍在于有效利用大量历史加工数据中嵌入的丰富知识——这些知识与特定的加工情境密切相关,这对于生成实用且高效的路径至关重要[7]、[8]。此外,为复杂零件选择和排序最佳操作的固有复杂性往往导致决策空间变得非常广泛,给开发真正智能和稳健的规划解决方案带来了相当大的挑战。
传统的处理这一复杂任务的方法主要依赖于基于规则的优化排序方法[9]、[10]或过程重用方法[11]、[12]。虽然这些方法是基础性的,但它们往往难以适应现代制造的动态性,在可扩展性和适应性方面存在挑战。这促使人们转向数据驱动的解决方案[13]、[14]、[15]。最初使用深度学习(DL)的努力,如监督模型[13]、[14],可以从数据中学习复杂模式,但往往难以直接编码和优化难以处理的制造约束。作为回应,深度强化学习(DRL)[15]、[16]作为一个更有前景的方向出现,因为它可以直接将这些约束和优化目标整合到智能体的学习环境中。然而,现有的基于DRL的方法尽管有潜力,但受到一个基础范式的限制,这限制了它们的效率和可信度。这些方法,包括那些将GCN直接嵌入到策略网络中的方法[16],通常依赖于两步过程:首先,使用预定义的知识库或规则生成大量候选操作;其次,让DRL智能体在这个生成的范围内学习策略。这种范式存在一个关键的自伤缺陷:最初的基于规则的选择往往过于通用,无法完全捕捉到经过验证的车间实践中的细微、依赖于上下文的知识。这迫使必须包含大量候选操作以确保最优解位于搜索空间内,从而导致搜索空间变得难以处理地庞大,严重阻碍了DRL智能体的学习效率。更重要的是,这个庞大的空间不仅效率低下,而且不可靠;智能体的探索很容易进入理论上可能但在实践中未经验证或次优的操作区域。这种缺乏实证依据的情况降低了最终路径的可信度和实际可行性,尤其是在现实世界的制造场景中[17]、[18]、[19],在那里无指导的探索是一个昂贵的风险。
为了解决这个庞大且不可靠的搜索空间问题,我们提出了一个基于知识的框架。其基本原则是将知识提取与序列优化战略性地分离。这种方法重新定义了DRL智能体的学习挑战,将其任务从广泛的基于规则的搜索转变为在知识引导下的路径查找,从而实现高学习效率和解决方案的可信度。我们使用GCN不是作为DRL智能体的内部策略网络,而是作为外部知识提取器,负责从历史数据中提取经过验证的实际过程知识。这为我们的基于DRL的序列优化器提供了可靠的基础。优化器本身有一个关键创新:一种独特的双模式状态表示,它在训练期间从实际历史过程中学习,并在推理期间无缝利用GCN的预测。这种设计使DRL智能体能够找到一个既稳健又实际可行的全局竞争序列。我们的框架的有效性和优越性已经在一系列复杂的工业铝合金零件数据集上得到了验证。
本文提出的核心创新包括:
  • (1)
    一种新的基于知识的框架,将知识提取与序列优化分离,旨在限制庞大的搜索空间并提高DRL在制造中的可信度。
  • (2)
    一个专门的GCN作为外部知识提取器,为每个特征预测一个经过验证的单一过程序列,为DRL智能体创建一个经过预先审查且大幅缩减的动作空间。
  • (3)
    一种新型的DRL智能体,具有双模式状态表示,其中训练状态将实际历史数据与实时状态结合起来,以实现高效、基于现实的策略学习,而推理状态则利用GCN的预测来实现对未见过的零件的实际泛化。
本文的其余部分将系统地开发和验证我们提出的框架。第2节通过回顾相关过程规划方法文献来介绍我们的工作。第3节详细介绍了我们新型基于知识的DRL框架的架构细节,包括GCN和DRL组件。第4节致力于全面的实验评估,我们展示了该框架的有效性,并将其性能与既定基准进行了比较。最后,第5节总结了我们将历史知识有效整合到DRL框架中以生成实际过程路径的贡献,并讨论了未来研究的有希望的方向。

相关工作

自动化机械加工路径的探索是一个持续的研究挑战。该领域的方法论已经逐步从传统的基于知识的框架转向当代的数据驱动和学习为中心的范式。然而,每种方法都有其独特的好处和固有的缺点。

方法论

为了为我们提出的框架奠定基础,我们首先建立了构建过程规划问题的核心概念。我们模型中的基本单元是加工特征(MF)。根据既定的惯例[34],我们将MF定义为工件上的一种独特且可识别的几何元素——例如口袋、孔或凸起——它是由一系列加工步骤创建的。形式上,MF可以被视为其组成表面的集合,表示为MF={f1,f2,..,fn}

实验设置和配置

我们提出的框架的有效性和实际适用性是使用一个专有的工业数据集进行评估的。该数据集包含559个铝合金槽腔零件,每个零件都有在真实制造环境中经过验证的相应工艺计划。图9中展示了一些这些零件的示例。这个数据集非常庞大,总共包含了10,680个独特的加工特征。

结论

本文解决了将深度强化学习(DRL)应用于智能机械加工路径规划中的一个关键挑战:在追求优化效率的同时,满足实际可信性的要求。虽然DRL为序列决策提供了一个强大的范式,但传统方法通常受到难以处理的庞大搜索空间的限制,以及无法将其策略基于经过验证的现实世界制造知识。这种“现实差距”限制了……

CRediT作者贡献声明

王振:写作 – 审稿与编辑,撰写原始草稿,验证,软件,方法论。 张书生:项目管理,资金获取。 张航:软件,形式分析。 王月:资源,形式分析。 张亚军:调查,数据管理。 梁家晨:写作 – 审稿与编辑,验证。 蒋腾远:项目管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争财务利益或个人关系。

致谢

本工作得到了国家自然科学基金(资助编号:51875474)的支持。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号