《Digital Applications in Archaeology and Cultural Heritage》:Knowledge extraction and multi-label classification of Algerian cultural heritage monuments using faceted taxonomy
编辑推荐:
Toufik Djelliout | Kamal Amroun
利梅德实验室(LIMED Laboratory),贝贾亚大学精确科学学院,阿尔及利亚贝贾亚,邮编06000
摘要
近年来,深度学习方法,特别是卷积神经网络(CNN),在保护文化遗产资产方面受到了广泛关注。对文化遗
Toufik Djelliout | Kamal Amroun
利梅德实验室(LIMED Laboratory),贝贾亚大学精确科学学院,阿尔及利亚贝贾亚,邮编06000
摘要
近年来,深度学习方法,特别是卷积神经网络(CNN),在保护文化遗产资产方面受到了广泛关注。对文化遗产遗迹图像进行分类已成为保护和推广这些无价资源的重要策略。虽然已经开发出多种基于层次结构和本体的技术来提高图像分类的准确性,但这些分类体系对于非层次化领域(如文化遗产遗迹)来说并不适用。本研究提出了一种基于CNN的方法,用于对阿尔及利亚的文化遗产遗迹进行分类并从中提取知识,该方法结合了多方面的本体。我们的方法考虑了多种信息因素,包括历史时期、建筑类型和文化特征。利用包含20,000张阿尔及利亚文化遗产遗址照片的AlgHeritage数据集,我们创建了一个多面体本体,根据建筑类型和历史时期对遗迹进行分类。我们使用集成模型以及三种知名的CNN模型(MobileNetV3、DenseNet121和EfficientNetV2)对方法进行了评估。我们的方法实现了语义分类,通过利用图像类别之间的多方面关联,使得对文化遗产信息的理解更加深入。根据实验数据,我们的本体增强模型的准确率分别为:MobileNetV3为91.42%、EfficientNetV2为92.14%、DenseNet121为93.08%、集成模型为94.20%。这些准确率优于未使用本体的基线分类器。研究表明,使用多面体分类体系对于从简单标记提升到实际知识提取至关重要。这种方法为精确的数字保存、改进的学术分析以及智能文化旅游平台的发展提供了强大的新工具。
引言
文化遗产遗迹是具有历史、文化或艺术价值的实物结构,体现了过去文明的身份和创造力。它们为我们提供了关于这些文明的建造方法、社会和艺术风格的宝贵见解。保护这些遗迹对于维护我们的共同历史至关重要,然而它们不断受到人类活动、忽视和自然灾害的威胁。这凸显了数字文档化和自动化分析工具的必要性。在这种背景下,多标签分类至关重要,因为它可以同时识别遗迹的多个属性,如建筑类型、历史时期和文化意义。这通过高效提取知识来增强保护、文档化和学术理解。
使用诸如CNN之类的复杂方法进行识别和分类的重要性日益增加(Mnasri和D’Andrea,2025;Shi等人,2023)。CNN是专为图像处理任务设计的深度学习算法。然而,在多标签分类中必须考虑文化遗产遗迹的语义特征和知识。图模型构成了大多数语义多标签分类问题的解决方案基础(Kuang和Li,2023)。这些技术通常优先考虑层次化分类,即下位词和上位词类别之间的关联(Wang等人,2019)。然而,应该注意的是,除了层次化分类体系之外,还有其他组织信息的方法。层次结构可能并不适合或在所有领域和情境中都不可行。
在这项工作中,关于文化遗产遗迹的知识可以被分类到多个领域,并构建成一个多面体分类体系。多面体分类体系是一系列分类体系的集合,每个分类体系都对其相应领域提供了独特的描述(Das等人,2022;Sacco,2021)。这些特征可能包括遗迹的名称、建筑类型和历史时期。
本研究的主要目标是使用CNN分类器,提出一种基于多面体分类体系的阿尔及利亚文化遗产遗迹的知识提取和多标签分类方法。我们的主要贡献之一是创建了一个全面的多面体本体,涵盖了文化遗产遗迹的多个方面及其对应的图片类别。此外,我们的技术利用多面体分类体系和数据集类别自动为数据分配标签,从而提高了数据注释的准确性。为了克服分类模糊的问题并提高多标签图像分类的准确性,我们通过引入多面体本体对CNN分类进行了改进。
创建多面体本体的主要目的是建立一个语义层次结构,准确描述各种图片类别和其他文化遗产遗迹的方面。该技术利用图片类别之间的分类关联来改进图像分类和注释。
本文分为五个部分。第2部分回顾了相关文献,包括之前在文化遗产分析和基于本体的多标签分类方面的工作。第3部分介绍了所提出模型的组成部分和架构。第4部分展示了实验设计、结果和详细的数据分析。第5部分总结了本文的主要贡献,并指出了进一步研究的方向。
章节摘录
相关工作
使用机器学习技术对文化遗产遗迹进行分类是一个有趣且活跃的研究领域。Llamas等人(2017)使用CNN技术对历史建筑中的十种建筑元素(包括柱子、拱门和圆顶)进行了分类。此外,Obeso等人(2021)将CNN训练与人类视觉注意力结合用于图像分类任务。通过这种方法,图像被分为三类,描述了不同的建筑类型
材料与方法
本节描述了我们提出的图像分类系统的架构,如图1所示。为了实现语义感知的多标签分类,该模型包含了五个关键要素。
- (1)
图像数据集:这是核心部分,包含文化遗产的训练和评估照片。
- (2)
多面体本体:一种结构化的知识表示方法,通过定义领域概念(例如建筑类型等)来建立分类的逻辑框架
结果与讨论
实验使用运行在2.10 GHz频率的Intel? Xeon? Gold 5218R CPU和NVIDIA? GeForce? RTX 2080 Ti进行。优化器使用Adam,学习率为0.0001。集成模型的批量大小为16,而单个CNN模型的批量大小为32。此外,丢弃率为0.2。图像分类使用了三种深度学习模型:MobileNetV3、DenseNet121和EfficientNetV2。
结论
本研究提出了一种新的多面体本体模型,用于阿尔及利亚文化遗产遗迹的多标签分类。所提出的框架结合了CNN和结构化的领域知识,从遗产照片中提取和分类多维特征。该方法构建了一个语义网络,利用类别之间的分类关联来促进对图像的深入理解。经过本体增强的模型准确率分别为:MobileNetV3为91.42%、EfficientNetV2为92.14%、DenseNet121为93.08%
CRediT作者贡献声明
Toufik Djelliout:撰写——原始草稿、验证、软件、方法论、概念化。Kamal Amroun:撰写——审阅与编辑、监督、方法论。
资金声明
本研究未获得公共部门、商业部门或非营利部门的任何特定资助。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。