工业模型库(也称为工业模型库)是系统收集、存储和管理各种计算模型的数字平台,包括仿真模型、优化模块、数据分析算法和决策支持工具,涵盖工业生产的各个领域(Zhang, Chen, Chen, Chong, 2024; Zhu, Huang, Liu, Zhou, Zhang, Chen, Cai, 2023)。这些库已成为现代工业企业的基本基础设施,在知识复用、协同创新和智能制造过程的加速中发挥着核心作用(Peter, Pradhan, Mbohwa, 2023; Zhao, Liu, Jiang, Zhao, Lv, Zhang, Wang, Zhong, 2025)。通过实现模型资源在部门、项目甚至组织边界之间的共享和集成,工业模型库显著提高了产品开发、流程优化和运营决策的效率。随着工业应用范围和复杂性的扩大,智能模型库管理的战略重要性日益明显(Ren et al., 2025),成为数字化转型和可持续工业进步的关键推动者。
有效管理工业模型库对于确保充分利用不断增长的模型资源量及其多样性以满足工业实践的动态需求至关重要。工业模型库的管理涉及多个具体任务,如模型聚类、模型推荐、订阅预测和资源分配。这些任务在工业模型管理中各自发挥着不同的作用;例如,聚类有助于模型的组织和检索,推荐系统提高了模型利用率,订阅预测实现了主动的服务提供,而资源分配确保了计算和存储资源的有效使用。工业模型库的组织结构如图1所示。在各种管理任务中(Anjaria, 2022; De Luca, Fasolino, Ferraro, Moscato, Sperlí, Tramontana, 2023),模型聚类——即智能地将具有相似结构、功能或应用场景的模型分组——成为一项核心技术。聚类(Liu, Zhao, Bao, Ye, & Shan, 2025)不仅有助于模型的高效组织、检索和维护,还支持个性化推荐、知识发现和自动化资源分配等高级服务。然而,工业模型库中的聚类任务面临几个关键挑战:首先,库中通常包含类型、结构和描述属性高度异构的模型,这使得定义相似性和聚类标准变得复杂(Wang et al., 2025)。其次,模型之间的复杂多关系依赖性(如协作、共享功能和层次关系)难以使用传统的基于属性的方法或简单的网络聚类方法完全捕捉。这些挑战凸显了需要先进的、整体的聚类方法来有效建模和表示工业模型的异构信息。
针对上述挑战,异构图聚类成为一个有吸引力的方向,因为它可以编码跨类型关系和高阶语义(通过元路径等元结构),同时利用拓扑和属性信号——这比仅使用属性的公式在库场景中具有优势。最近的研究涵盖了三个方向。以结构为中心的方法,包括谱聚类和异构图变换器,增强了关系表达能力和可扩展性,但仍有可能未能明确指定实践中重要的路径语义(例如,模型-功能-模型链)(Hu, Hooi, He, 2024; Lu, Fang, Yang, Shi, 2024; Zhu, Zhang, Xu, Liu, Long, Wang, 2025)。以属性为中心/深度聚类改进了高维描述符的表示学习,但对噪声/缺失数据敏感,并且难以反映真实库中的多关系组织(Raj & Hema, 2025)。结合这两种方法的结构-属性融合方法有效地整合了多维信息,从而在一定程度上提高了聚类性能(Khoshraftar, An, 2024; Yu, Xie, Cai, Duan, Tang, 2024)。然而,当应用于工业模型库时,这些方法存在局限性。它们主要依赖于拓扑图的结构信息,忽略了库中的结构也包含对应于实际业务逻辑的语义信息这一事实。此外,这些方法没有构建可解释的元路径来有效表示结构信息(Xiao, Zhao, Zheng, Song, 2025; Yang, Ou, Fu, Chen, Wu, 2025)。
受这些差距的启发,本文提出了一种针对工业模型库的语义增强异构图聚类(SE-HGC)方法。与依赖隐式注意力机制来聚合邻域信息的一般异构图学习框架(例如,HAN Wang et al., 2019)不同,SE-HGC明确将领域知识整合到聚类过程中。通用方法通常产生“黑箱”嵌入,可能会忽略特定的工程语义(如协同开发模式)。相比之下,SE-HGC使用预定义的元路径框架来明确捕获这些高阶的、特定于领域的语义相关性。通过将这种结构指导与加权结构-属性融合机制相结合,SE-HGC确保聚类结果不仅准确,而且在语义上也与工业管理逻辑一致。通过利用异构图的统一表示和多关系能力,所提出的方法系统地整合了结构关系和多维属性信息,构建了用于工业模型聚类的综合相似性度量。具体来说,该方法采用基于元路径的相似性度量来捕获高阶结构关联,并结合结构相似性和属性相似性以提高聚类性能。本工作的主要贡献如下:
•我们提出了一个针对工业模型库的全面异构图建模框架,实现了多类型节点的统一表示和丰富的语义关系。
•我们设计了一种基于元路径约束的结构-属性融合相似性度量,有效捕获了模型之间的高阶关系和多维属性。
•我们开发了一种针对大规模工业模型数据的高效谱聚类算法,促进了智能和自适应的模型分组。
•在真实世界的工业数据集上的广泛实验验证了所提出方法在聚类准确性、语义一致性和实际适用性方面的优越性,从而为工业模型资源的智能管理和利用提供了重要支持。
本文的其余部分组织如下。第2节回顾了工业模型管理和异构图聚类的相关工作。第3节介绍了初步内容和问题表述。第4节详细讨论了所提出的方法,包括整体框架和技术细节。第5节展示了实验研究,包括结果分析、消融实验和参数敏感性研究。第6节总结了这项工作并概述了未来的研究方向。