用于工业模型库的元路径语义增强异构图聚类

《Expert Systems with Applications》:Meta-path semantic enhanced heterogeneous graph clustering for industrial model repository

【字体: 时间:2026年02月28日 来源:Expert Systems with Applications 7.5

编辑推荐:

  语义增强异构图聚类方法在工业模型库中的应用研究,提出SE-HGC方法整合元路径引导的结构语义与深度属性表示,解决高异质性模型聚类难题。

  
胡丹|何建军
中南大学自动化学院,中国长沙,410083

摘要

工业模型聚类在组织和管理大规模工业模型库中发挥着关键作用,但由于模型的高度异质性和复杂的相互关系,它面临着重大挑战。现有方法通常依赖于孤立的基于属性的分析或拓扑分析,往往忽略了模型之间的丰富语义联系,这限制了它们在工业场景中的有效性。为了解决这些挑战,本文提出了一种语义增强异构图聚类(SE-HGC)方法,该方法将元路径引导的结构语义与深度属性表示相结合。具体来说,我们设计了一个工业元路径框架来捕捉领域特定的关系语义,并引入了一种具有可调权重的结构-属性融合机制,以实现自适应的信息平衡。在真实世界数据集上的广泛实验表明,所提出的SE-HGC方法比基线方法具有更好的性能。一个案例研究进一步验证了该方法在支持模型检索和知识管理方面的工业适用性。最后,讨论了向动态模型库演进的潜在扩展方向,指出了未来的研究机会。

引言

工业模型库(也称为工业模型库)是系统收集、存储和管理各种计算模型的数字平台,包括仿真模型、优化模块、数据分析算法和决策支持工具,涵盖工业生产的各个领域(Zhang, Chen, Chen, Chong, 2024; Zhu, Huang, Liu, Zhou, Zhang, Chen, Cai, 2023)。这些库已成为现代工业企业的基本基础设施,在知识复用、协同创新和智能制造过程的加速中发挥着核心作用(Peter, Pradhan, Mbohwa, 2023; Zhao, Liu, Jiang, Zhao, Lv, Zhang, Wang, Zhong, 2025)。通过实现模型资源在部门、项目甚至组织边界之间的共享和集成,工业模型库显著提高了产品开发、流程优化和运营决策的效率。随着工业应用范围和复杂性的扩大,智能模型库管理的战略重要性日益明显(Ren et al., 2025),成为数字化转型和可持续工业进步的关键推动者。
有效管理工业模型库对于确保充分利用不断增长的模型资源量及其多样性以满足工业实践的动态需求至关重要。工业模型库的管理涉及多个具体任务,如模型聚类、模型推荐、订阅预测和资源分配。这些任务在工业模型管理中各自发挥着不同的作用;例如,聚类有助于模型的组织和检索,推荐系统提高了模型利用率,订阅预测实现了主动的服务提供,而资源分配确保了计算和存储资源的有效使用。工业模型库的组织结构如图1所示。在各种管理任务中(Anjaria, 2022; De Luca, Fasolino, Ferraro, Moscato, Sperlí, Tramontana, 2023),模型聚类——即智能地将具有相似结构、功能或应用场景的模型分组——成为一项核心技术。聚类(Liu, Zhao, Bao, Ye, & Shan, 2025)不仅有助于模型的高效组织、检索和维护,还支持个性化推荐、知识发现和自动化资源分配等高级服务。然而,工业模型库中的聚类任务面临几个关键挑战:首先,库中通常包含类型、结构和描述属性高度异构的模型,这使得定义相似性和聚类标准变得复杂(Wang et al., 2025)。其次,模型之间的复杂多关系依赖性(如协作、共享功能和层次关系)难以使用传统的基于属性的方法或简单的网络聚类方法完全捕捉。这些挑战凸显了需要先进的、整体的聚类方法来有效建模和表示工业模型的异构信息。
针对上述挑战,异构图聚类成为一个有吸引力的方向,因为它可以编码跨类型关系和高阶语义(通过元路径等元结构),同时利用拓扑和属性信号——这比仅使用属性的公式在库场景中具有优势。最近的研究涵盖了三个方向。以结构为中心的方法,包括谱聚类和异构图变换器,增强了关系表达能力和可扩展性,但仍有可能未能明确指定实践中重要的路径语义(例如,模型-功能-模型链)(Hu, Hooi, He, 2024; Lu, Fang, Yang, Shi, 2024; Zhu, Zhang, Xu, Liu, Long, Wang, 2025)。以属性为中心/深度聚类改进了高维描述符的表示学习,但对噪声/缺失数据敏感,并且难以反映真实库中的多关系组织(Raj & Hema, 2025)。结合这两种方法的结构-属性融合方法有效地整合了多维信息,从而在一定程度上提高了聚类性能(Khoshraftar, An, 2024; Yu, Xie, Cai, Duan, Tang, 2024)。然而,当应用于工业模型库时,这些方法存在局限性。它们主要依赖于拓扑图的结构信息,忽略了库中的结构也包含对应于实际业务逻辑的语义信息这一事实。此外,这些方法没有构建可解释的元路径来有效表示结构信息(Xiao, Zhao, Zheng, Song, 2025; Yang, Ou, Fu, Chen, Wu, 2025)。
受这些差距的启发,本文提出了一种针对工业模型库的语义增强异构图聚类(SE-HGC)方法。与依赖隐式注意力机制来聚合邻域信息的一般异构图学习框架(例如,HAN Wang et al., 2019)不同,SE-HGC明确将领域知识整合到聚类过程中。通用方法通常产生“黑箱”嵌入,可能会忽略特定的工程语义(如协同开发模式)。相比之下,SE-HGC使用预定义的元路径框架来明确捕获这些高阶的、特定于领域的语义相关性。通过将这种结构指导与加权结构-属性融合机制相结合,SE-HGC确保聚类结果不仅准确,而且在语义上也与工业管理逻辑一致。通过利用异构图的统一表示和多关系能力,所提出的方法系统地整合了结构关系和多维属性信息,构建了用于工业模型聚类的综合相似性度量。具体来说,该方法采用基于元路径的相似性度量来捕获高阶结构关联,并结合结构相似性和属性相似性以提高聚类性能。本工作的主要贡献如下:
我们提出了一个针对工业模型库的全面异构图建模框架,实现了多类型节点的统一表示和丰富的语义关系。
  • 我们设计了一种基于元路径约束的结构-属性融合相似性度量,有效捕获了模型之间的高阶关系和多维属性。
  • 我们开发了一种针对大规模工业模型数据的高效谱聚类算法,促进了智能和自适应的模型分组。
  • 在真实世界的工业数据集上的广泛实验验证了所提出方法在聚类准确性、语义一致性和实际适用性方面的优越性,从而为工业模型资源的智能管理和利用提供了重要支持。
  • 本文的其余部分组织如下。第2节回顾了工业模型管理和异构图聚类的相关工作。第3节介绍了初步内容和问题表述。第4节详细讨论了所提出的方法,包括整体框架和技术细节。第5节展示了实验研究,包括结果分析、消融实验和参数敏感性研究。第6节总结了这项工作并概述了未来的研究方向。

    相关工作

    相关工作

    本节从三个与本工作相关的角度回顾了相关研究。首先,我们讨论了工业模型库管理,重点关注数字工业模型的组织和集成。接下来,我们介绍了异构图建模,强调了将复杂工业系统表示为异构网络的方法。最后,我们总结了图聚类的研究,它使得在大规模图数据中进行知识发现和分析成为可能。

    初步介绍

    本节介绍了本文中使用的基本符号和定义,并正式阐述了基于异构图建模的工业模型聚类问题。

    方法论

    本节介绍了所提出的SE-HGC方法论。SE-HGC的核心思想是系统地利用异构图中存在的结构和属性信息,以实现更准确和语义上有意义的工业模型聚类。通过构建一个包含多类型实体和多关系的异构图,SE-HGC利用基于元路径的相似性来捕获高阶关系模式

    实验

    为了全面评估所提出的SE-HGC方法在工业模型聚类中的有效性,我们在真实世界数据集上进行了一系列实验。

    结论与未来工作

    在本文中,我们提出了一种用于工业模型库的语义增强异构图聚类(SE-HGC)方法,该方法利用元路径结合结构和属性相似性来捕获模型之间的复杂关系。实验结果表明,我们的方法优于传统的聚类方法,在真实世界的工业模型数据集中实现了更高的聚类准确性和更好的语义一致性。尽管结果很有前景,但仍然存在一些问题

    CRediT作者贡献声明

    胡丹:概念化、方法论、软件、调查、撰写——原始草稿、验证、形式分析、数据整理、可视化、撰写——审阅与编辑。何建军:监督。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号