《PLOS One》:Predicting grain growth kinetic in steels using machine learning and XAI for mechanical properties
编辑推荐:
本研究开创性地将机器学习(ML)与可解释人工智能(XAI)相结合,构建了能够直接从化学成分和工艺条件预测钢中奥氏体晶粒生长动力学的强大框架。通过对1039个实验样本的分析,XGBoost模型展现出卓越的预测能力(R2= 0.9728)。特征选择与SHAP分析揭示了温度、初始晶粒尺寸和保温时间是主导因素。316L不锈钢的实验验证证实了预测的准确性,且硬度变化符合Hall-Petch关系。该研究为合金设计和工艺优化提供了革命性工具。
引言
钢因其优异的力学性能、可负担性和多功能性,长期以来一直是工程和工业应用中的基础材料。钢的力学行为因其成分和加工条件而异,使其在汽车、航空航天、建筑和能源等行业中不可或缺。通过固溶强化和热机械工艺(如热处理、冷加工和退火)等强化机制,可以优化钢的力学性能。其中,晶粒尺寸在决定钢的力学强度方面起着关键作用。Hall-Petch关系表明,较小的晶粒尺寸由于晶界数量增加,阻碍位错运动,从而提高了强度。然而,晶粒生长是金属中不可避免的过程,因为多晶材料会通过粗化来降低其总晶界能。在钢中,这种现象通常与奥氏体(γ)相晶粒的生长有关,这会显著影响最终的微观结构和力学性能。如果不加以控制,过度的晶粒生长会导致力学强度和整体性能的下降。因此,深入了解奥氏体相的晶粒生长动力学对于优化钢的微观结构和保持其所需的力学性能至关重要。奥氏体晶粒生长的速率取决于温度、时间、初始晶粒尺寸以及抑制晶界运动的溶质元素和第二相颗粒的存在。尽管有广泛的研究,但由于成分、工艺参数和微观结构相互作用之间的复杂关系,预测奥氏体晶粒生长行为仍然具有挑战性。传统的经验模型通常无法捕捉这些复杂的依赖性,需要对每个钢种进行大量的实验校准。在这种情况下,机器学习(ML)提供了一个强大的工具,可以从大型实验数据集中发现隐藏的模式,并以高精度预测微观结构演变。
方法与材料
本研究旨在揭示钢的化学成分和热机械加工条件与 governing 晶粒生长动力学和最终晶粒尺寸之间的关系。为此,开发了一个基于机器学习的框架,包含四个连续阶段:全面数据采集、数据预处理、模型训练和严格的性能验证。数据集通过对现有实验文献的全面调查获得,包括1039个样本。输入变量分为两大类:钢的化学成分(如Fe、C、Cr、Mn、Si等)和热机械参数(如温度(°C)、保温时间(h)、初始晶粒尺寸(D0, μm)等)。最终晶粒尺寸(μm)被定义为输出变量。数据预处理包括数据清理、归一化和单位一致性检查,应用Min-Max归一化将所有特征重新缩放到0和1之间。之后,数据集被分为80%的训练集和20%的测试集。本研究应用了多种监督ML算法,包括Adaboost、决策树(DT)、高斯过程回归(GPR)、K近邻(KNN)、线性回归(LR)、多层感知器(MLP)、随机森林(RF)、支持向量回归(SVR)和XGBoost。使用GridSearchCV方法对每种算法进行了系统的超参数搜索。为了增强模型性能、降低计算成本并提高可解释性,采用了三种特征选择方法:Pearson相关系数、CfsSubset和ReliefF。模型使用平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)进行评估。实验验证使用316L奥氏体不锈钢进行,样品在1100°C下热处理30、45和60分钟,然后空冷。通过光学显微镜观察微观结构,并使用ImageJ软件测定平均晶粒尺寸。使用显微硬度计测量每个样品的硬度。
结果与讨论
机器学习算法的性能
在使用默认超参数设置进行建模后,不同ML算法在测试数据上的预测性能存在显著差异。XGBoost算法实现了最高性能,R2为0.9605,RMSE为26.39,MAE为12.77。随机森林(RF)算法也提供了较高的预测性能。通过GridSearchCV方法进行超参数优化后,ML模型的性能普遍提高。特别是XGBoost算法在超参数调整后表现出显著的性能提升,达到R2为0.9728,RMSE为21.89,MAE为10.97。箱线图显示XGBoost算法具有较低的中位误差值和狭窄的四分位距,表明该模型预测精度高且误差分布稳定。回归图直观地比较了四种最成功算法(XGBoost、RF、DT、KNN)的预测值与实际值,XGBoost模型的预测点分布非常接近实际值。
特征选择对机器学习性能的影响
应用三种特征方法来确定哪些输入对回归问题更重要。Pearson相关性分析显示,初始晶粒尺寸(D0)与最终晶粒尺寸(D)具有最强的正相关性(r = 0.76)。保温时间(h)(r = 0.18)和温度(T)(r = 0.47)与D仅显示出弱到中等程度的相关性。合金元素对D的影响普遍较弱。ReliefF算法和CfsSubset技术也分别选出了重要的特征子集。使用特征选择方法后获得的性能结果表明,包含某些变量可以显著提高预测精度。特别是使用CfsSubset方法选择的7个输入进行建模,获得了R2为0.975,RMSE为21.00,MAE为10.59,表明即使是少量精心选择的输入也能提供高精度。
利用可解释人工智能(XAI)解释结果
对XGBoost算法进行了SHAP分析。根据平均SHAP值,三个最有效的输入是温度(T)、初始晶粒尺寸(μm)和保温时间(h)。SHAP蜂群图反映了每个样本的输入值对预测影响的方向和强度。高值的T和μm通常对预测有正向影响。结果表明,特征选择方法的结果与SHAP分析的发现高度一致,既提高了模型可靠性,也支持了特征选择策略的准确性。
实验验证
316钢在1100°C热处理后不同保温时间下的光学显微结构表明,随着退火时间的增加,晶粒变大,晶界变得更加明显。316不锈钢奥氏体相的平均晶粒尺寸估计分别为20μm、32μm和44μm。获得的晶粒尺寸与文献吻合良好。使用性能最佳的XGBoost算法预测的晶粒尺寸与测量值高度一致。在1100°C加热的样品硬度结果分别为162 HV、160 HV和151 HV。这种行为归因于具有更细晶粒尺寸的钢拥有更多的晶界,这些晶界阻碍了位错运动。观察到的趋势遵循Hall-Petch关系,退火钢的硬度随着晶粒尺寸变大而降低。
使用分位数XGBoost进行95%置信区间估计
为了估计XGBoost模型的预测不确定性,使用了带有"reg:quantileerror"目标的分位数回归。除了给出点预测的标准模型外,还训练了两个额外模型来估计95%预测区间的下限(τ = 0.025)和上限(τ = 0.975)。在测试集上,分位数模型的pinball损失值表明该模型在整个目标值范围内提供了合理的拟合。分位数回归结果显示了中位预测以及95%预测区间和相应的实验测量值。该区间成功覆盖了大部分实验值,并在数据变异性更大的区域变得更宽。对于实验验证样本,分位数回归结果显示出不同的模式。虽然中位预测精度较低,但95%预测区间仍然有意义,并且大多数实验值都落在这些区间内。这表明分位数回归是量化不确定性和评估新实验条件下预测可靠性的有用工具。
结论
本研究开发了一个全面的ML框架,用于基于合金成分和热机械工艺参数预测钢中的奥氏体晶粒生长动力学。使用了包含1039个实验收集样本的数据集,涵盖了广泛的化学元素和加工条件。在评估的各种ML算法中,XGBoost模型表现出最佳的预测性能,超参数优化后达到R2值为0.9728。特征选择技术确定了温度、初始晶粒尺寸和保温时间是对晶粒生长行为最有影响的参数。可解释人工智能(SHAP分析)进一步增强了模型输出的可解释性。在316L不锈钢样品上进行了实验验证,预测的晶粒尺寸与测量值高度一致,证实了模型的可靠性。此外,显微硬度测量显示硬度随着晶粒尺寸的增加而一致下降,符合Hall-Petch关系。晶粒尺寸与硬度之间的这种相关性不仅验证了晶粒生长预测,而且强调了微观结构控制在力学性能优化中的关键作用。总体而言,这项研究代表了机器学习、特征工程和实验验证在预测钢中晶粒生长动力学方面的新颖整合。所提出的框架显著减少了对大量实验工作的需求,并为加速合金设计和工艺优化提供了强大的工具。