《Journal of Non-Crystalline Solids》:Interpretable glass type classification using genetic programming symbolic expressions based on chemical composition and refractive index
编辑推荐:
本研究利用遗传编程符号分类器(GPSC)结合数据预处理(缩放、过采样)和集成方法(阈值投票 ensemble, TBVE),在UCI玻璃数据集和独立工业数据集上实现了高分类性能(F1-score>0.93,AUC>0.96),验证了可解释性规则与物理化学知识的关联。
Nikola An?eli?|Sandi Baressi ?egota|Vedran Mrzljak
里耶卡大学计算机工程系,工程学院,Vukovarska 58,51000 里耶卡,克罗地亚
摘要
根据化学成分和折射率对玻璃类型进行分类对于确保材料质量、性能以及在建筑、光学和消费品等工业应用中的适用性至关重要。在这项研究中,我们采用了遗传编程符号分类器(GPSC)来推导出可解释的符号表达式(SEs),利用UCI玻璃识别数据集区分六种类型的玻璃。在模型训练之前,对数据进行了预处理,以解决特征尺度不同、样本量有限以及类别不平衡的问题。结合了多种缩放/标准化方法和过采样技术来生成平衡的数据集变体,并使用随机超参数值搜索(RHVS)对每个变体上的GPSC进行调优。为了减轻过拟合并提高鲁棒性,GPSC采用5折交叉验证进行训练,然后使用标准指标(ACC、AUC、精确度、召回率和F1分数)评估得到的SEs。最后,将每个类别的最佳SEs融合成一个基于阈值的投票集成(TBVE),通过特定类别的阈值来汇总它们的决策。
在原始不平衡的基准设置中,得到的TBVEs在类别准确性上达到了0.97到1.00之间,AUC值超过0.96,明显优于之前报道的模型。当在基于实际生产成分的独立工业数据集上进行评估时,所有TBVEs都保持了高性能,大多数类别的F1分数超过0.93,有两个类别实现了完美的区分。对学习到的SEs的详细检查和特征重要性分析表明,主导术语和变量与已建立的玻璃化学知识一致,表明GPSC捕捉到了物理意义上的成分-属性关系,而不是虚假的相关性。总体而言,结果表明,符号分类提供了一个透明且灵活的框架,用于玻璃类型识别,并具有很强的泛化能力,适用于工业环境。
引言
基于物理属性的玻璃识别对于多个方面都至关重要。首先,在使用玻璃的行业中(如建筑和汽车行业),不同类型的玻璃具有不同的强度和脆弱性,准确的识别有助于工程师和建筑师为特定应用选择合适的玻璃,从而防止潜在的危险。在法医调查中,识别犯罪现场发现的玻璃碎片可以提供重要线索,将嫌疑人或地点与犯罪活动联系起来。像折射率、密度和化学成分这样的物理属性有助于法医专家建立联系并解决案件。此外,玻璃回收依赖于正确的识别,以便有效分离和回收不同类型的玻璃,减少环境影响并节约资源。总体而言,了解玻璃的物理属性对于安全、破案和可持续性至关重要,这凸显了其在现代社会多个方面的重要性。
人工智能在玻璃识别中的应用至关重要,因为它能够快速分析大量的玻璃属性数据集,从而提高准确性和效率。AI算法可以识别物理特性的细微差异,帮助工业界、法医界和回收计划做出精确和明智的决策,最终节省时间和资源。
在[1]中,对八个公开可用的数据集应用了提升神经网络(BNN)和朴素K最近邻(KNN),其中玻璃识别的最高准确率为75.6%。在[2]中,使用自适应度量神经网络(AMNN)、判别自适应神经网络(DANN)和决策树(DT)对9个不同的公开可用数据集进行了测试,包括玻璃识别数据集,这些算法在玻璃识别数据集上的分类准确率分别为75.2%、72.9%和68.2%。在[3]中,对14个不同的公开可用数据集使用了Wilson编辑、多编辑、引用编辑和监督聚类方法,这些算法在玻璃识别数据集上的分类准确率分别为67.4%、60.1%、70.0%和71.5%。在[4]中,使用了K最近邻(KNN)、隐藏朴素贝叶斯(HNB)和投票分类器进行玻璃识别。通过使用投票分类器(KNN+HNB),获得了80.373%的最高分类准确率。在[5]中,作者开发了一种新的方法,通过受重力启发的聚类算法(即模糊颗粒重力聚类算法FGGCA)从多变量数据中找到模糊信息颗粒。该算法在几个公开可用的数据集上进行了性能测试,并与其他聚类算法进行了比较,取得了93.645%的分类准确率。在[6]中,作者将极端梯度提升算法应用于玻璃识别数据集,获得了90.9%的最高准确率。
表1展示了之前描述的研究结果以及使用的人工智能方法。
从表1可以看出,研究论文的作者使用了各种类型的机器学习(ML)算法来识别玻璃类型。所有这些研究都是在公开可用的玻璃识别数据集上进行的,本文也使用了该数据集。这个数据集最大的问题之一是类别样本之间的差异很大,即数据集不平衡,这对训练出的ML算法的分类准确性有很大影响。另一个问题是各种算法的分类性能较低,且无法将这些训练模型转换为简单易懂的数学公式。
因此,本文的想法是使用遗传编程符号分类器(GPSC)来获得具有高分类准确性的符号表达式(SEs)。遗传编程是一种方法,它最初生成的解决方案(SEs)在特定任务上的分类性能并不出色。然而,通过连续几代的遗传操作符(交叉和变异)的应用,最终可以获得具有更高分类性能的SEs。GPSC将应用于之前研究中使用的公开可用玻璃识别数据集(表1)。数据集将使用不同的缩放/标准化技术进行预处理,由于类别样本之间的不平衡,数据集还将接受不同的过采样技术。GPSC将使用5折交叉验证(5FCV)进行训练,并使用从零开始开发的随机超参数值(RHVS)方法搜索最佳GPSC超参数。在每个平衡的数据集变体上获得具有高分类性能的最佳SEs后,这些SEs将被组合成一个基于阈值的投票集成(TBVE),以查看是否可以提高分类性能。
由于GPSC在多个平衡数据集变体上的广泛应用,RHVS方法生成了大量GPSC超参数值的最佳组合。将对这些最佳超参数值组合进行特征重要性分析,以确定哪些GPSC超参数最具影响力。特征重要性分析还将应用于输入变量,以确定每个TBVE中哪些输入变量对每个类别最重要。
基于之前的文献综述,以下问题浮现:
- •
是否可以使用GPSC获得可用于玻璃分类的高性能SEs?
- •
缩放/标准化技术是否有助于开发高精度的SEs集合?
- •
应用过采样技术是否可以实现数据集的平衡,并且使用这个数据集,GPSC能否生成具有高分类性能的SEs?
- •
是否可以使用RHVS方法找到GPSC超参数值的最佳组合?
- •
是否可以使用5FCV过程训练的GPSC在每个平衡的数据集变体上获得一组鲁棒的SEs?
- •
特征重要性分析能否揭示哪些超参数最具影响力?
- •
从每个类别的最佳SEs集合开发TBVE能否提高分类性能?
- •
输入变量的特征重要性分析能否揭示每个类别中哪些输入变量最重要?
- •
在UCI玻璃数据集上学习的SEs构建的TBVE模型在独立工业玻璃数据集上验证时能否保持高分类性能?
本文的结构包括以下部分:材料与方法、结果、讨论和结论。材料与方法部分包含了关于提出的方法论、数据集统计分析、缩放/标准化技术、过采样技术、GPSC、RHVS、5FCV、评估指标、训练/测试程序、特征重要性分析和TBVE的信息。结果部分包含了使用GPSC在平衡数据集变体上获得的结果,使用TBVE在不平衡数据集变体上为每个类别获得的结果,以及每个TBVE中使用的输入变量的特征重要性分析。讨论部分提供了对研究结果的讨论,结论部分包含了引言中定义的假设的答案,以及所提出研究方法的优点和缺点以及未来工作的方向。此外,附录提供了有关选定的GPSC数学函数的更多细节,包括下载和使用本研究中获得的符号表达式(SEs)的逐步说明,对类似工业数据集的补充统计分析,所有一对余类样本的过采样结果,GPSC在平衡数据集变体上的补充结果,TBVE的额外性能,TBVE的特征重要性分析,工业TBVE的阈值扫描和混淆矩阵。
部分片段
材料与方法
本节包括以下小节:研究方法论、数据集描述和统计分析、数据集预处理和过采样技术描述、带RHVS的GPSC、使用5FCV的训练/测试过程、评估指标方法、统计分析和TBVE程序。
结果
本节报告了所提出框架的实证结果。首先,我们展示了在结合预处理流程和过采样方法生成的平衡数据集变体上训练的GPSC模型的性能,其中GPSC超参数是通过RHVS在5FCV下选择的。接下来,我们确定了每个一对余类中表现最好的符号表达式(SEs),并通过在相应的原始不平衡数据集变体上评估它们来评估其泛化能力。
讨论
本研究调查了遗传编程符号分类器(GPSC)结合系统预处理、过采样和集成决策融合(GPSC + RHVS + 5FCV + TBVE)是否能够生成既准确又可解释的符号表达式(SEs),用于玻璃类型区分。总体而言,结果表明,所提出的框架是学习UCI玻璃数据集(已知数据集较小且不平衡)上紧凑的非线性决策规则的有前景途径。
结论
在本文中,使用了公开可用的数据集,并应用了GPSC + RHVS + 5FCV方法来生成具有高分类性能的SEs。最初需要进行一些数据预处理,包括应用缩放/标准化技术和过采样技术。这一步骤为每个类别生成了大量具有高分类性能的SEs。为了提高分类性能,基于这些SEs为每个类别开发了TBVE。
CRediT作者贡献声明
Nikola An?eli?:撰写——原始草稿、可视化、验证、监督、软件、方法论、调查、形式分析、数据管理、概念化。Sandi Baressi ?egota:撰写——审阅与编辑、撰写——原始草稿、可视化、方法论、调查、数据管理。Vedran Mrzljak:撰写——审阅与编辑、监督、项目管理、资金获取。
致谢
本工作得到了里耶卡大学科学的资助(由欧盟——NextGenerationEU资助)。
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。