一种Stack-Best机器学习模型,用于提升氧化物玻璃热膨胀系数预测的准确性

《Journal of Alloys and Compounds》:A Stack-Best Machine Learning Model for Enhanced Predicting Power of the Thermal Expansion Coefficient of Oxide Glass

【字体: 时间:2026年02月23日 来源:Journal of Alloys and Compounds 6.3

编辑推荐:

  提出Stack-Best集成模型预测光学玻璃热膨胀系数,较单模型提升10.9% R2和8.1% MAE,优于GlassNet 13.3%-15.5% R2,SHAP分析揭示SiO?、Na?O等关键氧化物调控机制。

  
Jingru You|Zonghui Yang|Xiaoxin Zheng|Jiaxuan Ye|Lu Wang|Yinsheng Xu|Haizheng Tao|Yushi Chu|Yong Liu|Jing Ren
哈尔滨工程大学烟台研究院与研究生院光纤传感卓越中心,中国烟台264000

摘要

热膨胀系数(CTE)对于需要在精确热管理下的各种应用中的玻璃来说尤为重要。然而,利用机器学习(ML)精确预测玻璃的CTE仍然是一项具有挑战性的任务。本文提出了一种改进的集成ML技术(Stack-Best模型),用于高精度预测光学氧化物玻璃的CTE。该模型以玻璃成分作为输入,其性能优于九种传统的单一模型算法,在R2值上提高了10.9%,在RMSE上提高了2.9%,在MAE上提高了8.1%。此外,其在R2值上的表现还超过了多任务深度神经网络GlassNet,提高了13.3%–15.5%,显示出更强的预测准确性和泛化能力。通过SHAP分析模型可解释性,揭示了SiO2、Na2O、Al2O3、B2O3和K2O等氧化物在调节CTE中的关键作用和潜在机制,为玻璃成分设计和优化提供了数据驱动的见解。本研究提出了一个优化的轻量级集成ML框架,在处理高维多组分氧化物玻璃数据集时表现出色,克服了传统深度神经网络模型在处理非线性属性时面临的计算资源限制。

引言

光学玻璃是最通用的材料之一,广泛应用于能源、环境、医疗保健、光纤、智能手机屏幕以及危险和核废料管理等领域[1]、[2]、[3]、[4]、[5]、[6]。开发具有增强功能和性能的新玻璃材料对于应对当代社会面临的一些最紧迫的挑战至关重要[3]。历史上,玻璃的开发主要依赖于经验性的试错方法——通常被称为“爱迪生式”方法——这些方法需要大量的时间、资金和物质资源。尽管可以通过计算技术(如密度泛函理论(DFT)、分子动力学[7]和有限元分析[8]对材料结构和性能进行理论评估,但这些方法仍受到高计算强度、资源消耗和效率低下的限制[9]、[10]。硅酸盐玻璃是最广泛且工业上最重要的非晶材料类别,占商业玻璃生产的绝大部分。由于它们具有优异的化学耐久性、光学透明度和机械强度,因此在建筑玻璃和汽车挡风玻璃到显示技术基板玻璃和光纤等各种应用中无处不在[1]。
机器学习(ML)的出现促进了玻璃科学和技术的范式转变。通过训练算法来识别多维非线性数据集中的复杂模式,ML有助于分析那些使用传统数学框架难以准确建模的问题。ML的应用主要集中在构建成分-性能回归模型上,通过利用现有的材料数据库来发现具有优化性能的新材料[11]。继Brauer等人的开创性工作[12]之后,许多研究致力于采用人工神经网络方法来预测玻璃性能与其成分之间的关系。Krishnan等人[13]最近通过分析不同机器学习方法的结果表明,人工神经网络(ANN)方法可以准确预测硅酸盐玻璃的溶解动力学。Casser等人[14]使用包含超过55000种无机玻璃成分及其相应实验Tg值的数据集构建并训练了一个ANN模型。
在玻璃的各种性能中,热膨胀系数(CTE)尤为重要,因为许多应用(如电子芯片和手机屏幕)需要精确的热管理,它是材料抗热震性的关键指标,对航空航天、建筑和电子行业至关重要。对于许多这些高科技应用来说,精确控制热膨胀系数(CTE)对于确保尺寸稳定性和抗热震性至关重要,这使得在硅酸盐系统中准确预测CTE成为材料设计的优先事项[15]、[16]。最近,有一些基于ML的预测模型方法被报道。Tripathi等人[17]开发了一个随机森林(RF)回归模型来预测硅酸盐玻璃的CTE,考虑了七种不同的氧化物。Tao等人[18]提出了一个基于RF的多目标框架,可以预测CTE、折射率和软化温度,并将涉及的氧化物数量增加到18种。
在这里,我们建立了一个基于堆叠技术[19]的轻量级融合模型来预测氧化物玻璃的CTE。堆叠方法是一种强大的集成学习技术,它通过结合来自基础模型的多个预测作为输入特征,供二次元学习器生成最终预测,从而实现更好的泛化能力和更低的过拟合风险,优于每个基础模型。然而,传统算法通常在提高模型准确性方面的能力有限。为了克服这些缺点,在元学习器中采用了加权平均策略,为每个在验证集上表现更好的基础模型分配不同的权重(例如,准确性更高、误差更小等),从而使最终预测结果更接近高性能模型的预测,从而提高了整体预测性能。
所提出的Stack-Best模型在包括53种氧化物的高维成分空间中表现出出色的预测能力,能够提取非线性的成分-性能关系。此外,SHAP分析提供了关于特定化合物控制CTE作用的可解释性见解,为实验研究提供了有价值的方向,并有助于未来的玻璃成分设计。

数据提取和预处理

本研究的初始数据来自INTERGLAD? Ver.8 [20]数据库。为了开发一个用于预测玻璃热膨胀系数(CTE)的机器学习模型,从数据库中提取了相关数据,特别关注热膨胀系数及其对应的氧化物成分。数据预处理遵循以下原则:
  • 1.
    确保各成分之和等于100%;
  • 2.
    识别重复成分并使用平均值

融合模型选择和结果分析

超参数优化后的最佳10-CV结果如表2所示(最后一行数据除外)。由于较高的R2分数更好,而较低的RMSE和MAE分数更受青睐,我们引入了负R2、RMSE和MAE的算术平均值作为平均分数指标,以更全面直观地反映模型的性能。
模型的排名从高精度到低精度依次为:RF、DNN、XGB、KNN、CNN、SVM、MLP、PR和

结论

提出了一种基于融合的ML模型来预测氧化物玻璃的CTE,并将其性能与九种单一模型(ENR、PR、SVM、KNN、RF、XGB、MLP、DNN和CNN)进行了比较。加权平均堆叠融合算法(Stack-Best)结合了模型性能和多样性,选出了三个表现最好的单一模型,显著提高了预测准确性。最终的Stack-Best模型使用KNN、RF和DNN作为基础模型,LRR作为元回归器。

CRediT作者贡献声明

Jiaxuan Ye:验证、方法论、数据管理。Xiaoxin Zheng:验证、方法论、数据管理。Jing Ren:写作——审稿与编辑、监督。Zonghui Yang:验证、方法论、数据管理。Jingru You:写作——初稿撰写、验证、方法论、数据管理。Haizheng Tao:验证、方法论。Yinsheng Xu:验证、方法论。Yong Liu:写作——审稿与编辑、监督。Yushi Chu:验证、方法论。Lu Wang:验证、方法论、数据

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

我们感谢中国国家重点研发计划(2023YFF0721700)、玻璃基功能材料技术创新中心(GFMTIC2025C06)开放项目、中国国家自然科学基金(项目编号52372003、52572015)、黑龙江省自然科学基金(ZD2023E004)以及中央高校基本科研业务费的财政支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号