用微纤纤维素和微纤纤维素衍生的生物炭增强的再生聚丙烯复合材料：热性能、流变性能和力学性能维克托·维德凯维奇（Wiktor Wyderkiewicz）、尤斯蒂娜·梅焦尼亚诺夫斯卡-马斯瓦夫斯卡（Justyna Miedzianowska-Mas?owska）、安娜·索文斯卡-巴拉诺夫斯卡（Anna Sowińska-Baranowska）以及马尔钦·马斯瓦夫斯基（Marcin Mas?owski）

《Materials》：Recycled Polypropylene Composites Reinforced with Microcellulose Fibres and Microcellulose-Derived Biochar: Thermal, Rheological and Mechanical Performance Wiktor Wyderkiewicz, Justyna Miedzianowska-Mas?owska, Anna Sowińska-Baranowska and Marcin Mas?owski

【字体：大中小】 时间：2026年05月10日 来源：Materials 3.2

编辑推荐：

　　**摘要** 准确预测堆垛故障能（SFE）对于控制高锰（high-Mn）奥氏体钢的变形机制至关重要，特别是转变诱导塑性（TRIP）和孪晶诱导塑性（TWIP）。这类钢材在汽车和结构应用中日益重要，因为它们需要出色的强度-延展性组合。本研究系统地比较了六种监督机器学习（ML）模型

　　**摘要**
准确预测堆垛故障能（SFE）对于控制高锰（high-Mn）奥氏体钢的变形机制至关重要，特别是转变诱导塑性（TRIP）和孪晶诱导塑性（TWIP）。这类钢材在汽车和结构应用中日益重要，因为它们需要出色的强度-延展性组合。本研究系统地比较了六种监督机器学习（ML）模型——多元线性回归（MLR）、随机森林（RF）、额外树（ETs）、梯度提升（GB）、支持向量回归（SVR）以及一个堆叠集成模型——这些模型都是基于一个精心策划的、去除了异常值的实验数据库进行训练的，该数据库涵盖了5.0至63.0 mJ/m2（平均23.7 ± 11.2 mJ/m2）范围内的SFE值。在进行了Z分数异常值去除（|Z| > 3）和80/20训练-测试分割后，使用GridSearchCV进行嵌套5折交叉验证超参数优化，ET和GB的训练R2值分别为0.988和0.990，这表明仅通过合金成分即可高度预测SFE。堆叠集成模型在独立的测试集上展现出最佳的泛化能力（测试R2 = 0.603，RMSE = 5.60 mJ/m2，MAE = 4.86 mJ/m2），优于所有单个学习器。随机森林的特征重要性分析确定了Al（22.3%）、Fe（20.5%）和Mn（17.7%）是三个最具影响力的成分变量，它们共同解释了60.6%的预测方差。皮尔逊相关性分析证实Al是最强的单个线性预测因子（r = +0.421，p < 0.001），而Fe则显示出显著的负相关性（r = ?0.327，p < 0.001）。Mn、C和其他元素与SFE之间没有统计学上的显著线性相关性，这突显了非线性成分相互作用的主导作用。基于GB模型得到的成分-SFE设计图描绘了Mn–C和Mn–Al成分空间中的TRIP/TWIP临界边界，为高锰钢合金的设计提供了一种经过验证的计算工具。

**1. 引言**
高锰（high-Mn）奥氏体钢是由于其在抗拉强度（高达1500 MPa）、延展性（>50%）和能量吸收能力方面的卓越特性而成为最活跃研究的先进高强度钢（AHSSs）之一[1,2,3]。这些性能主要是通过精确控制堆垛故障能（SFE）来实现的，SFE支配着微观尺度上的不同变形机制。当SFE通常低于约20 mJ/m2时，通过转变诱导塑性（TRIP）形成ε-马氏体；在约20–40 mJ/m2的中间范围内，变形孪晶被激活以产生孪晶诱导塑性（TWIP）；而当SFE高于约40 mJ/m2时，传统的位错滑移和动态恢复占主导[1,2,3,4]。这些阈值是指示性的，并且取决于成分：Pierce等人[4]证明，在Fe-Mn-Al-Si合金中，TRIP/TWIP边界取决于Mn和Al的含量，大约在15–21 mJ/m2范围内；De Cooman等人[2]全面回顾了温度和成分如何改变这些边界。选择高锰钢作为研究重点有三个具体原因。首先，它们展示了任何单一合金家族中最广泛的SFE控制的变形模式窗口（TRIP、TWIP和位错滑移），这使得SFE预测在合金设计中具有独特的重要性。其次，它们的SFE对8–31 wt.%范围内的成分极为敏感，为ML模型评估提供了一个苛刻的基准。第三，所得到的成分-SFE模型和设计图可能适用于相关的高锰奥氏体系统，包括中锰钢和含锰奥氏体不锈钢，从而扩展了其应用范围，超出了特定的训练领域。

实验中的SFE测定方法包括使用X射线衍射（XRD）分析漫射[4]、弱束透射电子显微镜（TEM）分析部分位错分离[5]，以及基于Olson–Cohen模型的CALPHAD热力学计算[6]。每种方法都有±3–5 mJ/m2的固有不确定性[4,5]。基于CALPHAD的SFE预测受到热力学数据库准确性以及磁能和表面能项处理方法的限制[7,8,9]。机器学习（ML）已成为材料性能预测的热力学方法的有力补充[10,11,12,13,14,15]。对于SFE，Chaudhary等人[8]率先采用了一种基于数据的ML方法来研究奥氏体钢，证明了仅基于成分的特征就能提供有用的SFE预测，并指出了元素贡献的非线性依赖性。Wang和Xiong[9]在奥氏体钢数据库上对19种ML算法进行了基准测试，发现集成ML特别是GB模型的表现优于CALPHAD预测，并且大多数元素显示出复杂的非单调SFE依赖性。Liu等人[16]进一步将Extra Trees与SHAP可解释ML应用于奥氏体合金，Song等人[17]结合了物理冶金特征来改进不锈钢的SFE预测。尽管取得了这些进展，但仍然缺乏对多种ML架构（包括专门应用于8–31 wt.% Mn范围内高锰钢SFE预测的堆叠集成模型）的系统比较研究，以及严格的训练/测试评估和透明的模型局限性报告。本研究通过以下方式弥补了这一空白：（i）整理并策划了一个包含119种高锰钢成分的实验SFE数据库；（ii）训练并优化了六种ML模型；（iii）对RF、ET和GB进行了严格的特征重要性分析；（iv）进行了残差诊断；（v）构建了成分-SFE设计图。

**2. 数据库、数据预处理和方法论**
**2.1. 数据收集和预处理**
实验SFE数据集来源于同行评审的文献，这些文献报告了高锰奥氏体钢的SFE测量结果（补充数据）[18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43]。根据材料ML数据库构建的标准实践[8,9]，包括了使用XRD的Warren–Averbach分析、TEM部分位错分离和CALPHAD热力学计算得到的SFE值。纳入的数据来源需满足以下条件：（i）报告了室温（298 K）或接近室温下的SFE；（ii）提供了完整的重量百分比（wt.%）合金成分；（iii）包含8–35 wt.%范围内的Mn。仅报告了高温下的SFE或缺少完整成分数据的来源被排除。共识别并移除了三个完全重复的记录（成分和SFE值分别为7.1、5.7和8.8 mJ/m2），最终得到132个独特记录。数据库包括三种方法的SFE值：（i）实验性XRD Warren–Averbach分析；（ii）实验性弱束TEM部分位错分离；（iii）使用Olson–Cohen模型的CALPHAD热力学计算[6]。这种混合方法数据库遵循了既定的材料信息学实践[8,9]，在保证成分覆盖度的同时，不可避免地存在±3–5 mJ/m2的实验室间分散[4,5]，这从根本上限制了任何仅基于成分的预测器的最大可实现测试R2。共收集了132条数据记录，每条记录都包含了八个元素成分特征：Fe、C、Si、Mn、Cr、Ni、N和Al（均为重量百分比），其中Fe作为平衡元素。排除了缺少元素成分或SFE值的记录，并且没有进行任何插补。成分不一致的记录（元素总和与100 wt.%偏离超过2 wt.%，表明存在未报告的平衡元素）也被排除。为了确保内部一致性，总是重新计算Fe的平衡含量（Fe = 100 ? Σ其他元素）。使用Z分数方法（阈值|Z| > 3）同时针对所有九个变量（八个成分特征加上SFE）进行了统计异常值去除，识别出13条SFE值与其报告成分不符、未报告平衡元素或有疑似转录错误的异常记录，从而将干净的数据集数量减少到119个样本。表1展示了本研究中使用的干净数据集的描述性统计信息。SFE分布范围为5.0–63.0 mJ/m2，平均值为23.7 mJ/m2，中值为21.0 mJ/m2，标准差为11.2 mJ/m2，偏度为0.86，表明分布呈中等程度的右偏。具体来说，42.0%的样本表现出SFE < 20 mJ/m2（TRIP区域），49.6%的样本位于20–40 mJ/m2之间（TWIP区域），8.4%的样本超过了40 mJ/m2（位错滑移区域）。干净数据集中的Mn含量范围为8.43至31.0 wt.%。

**2.2. 方法论**
所有八个元素成分（Fe、C、Si、Mn、Cr、Ni、N和Al，均为重量百分比）直接作为输入特征使用，无需额外的衍生描述符，以保持一个透明且仅基于成分的预测框架，直接适用于工业合金设计。选择这八个元素基于：（i）冶金学相关性，每个元素都影响fcc γ和hcp ε之间的吉布斯自由能差、对SFE的磁贡献或在Olson–Cohen模型中的表面能项[6,7]；（ii）数据可用性，某些元素如Mo、Cu或Co在收集的高锰钢文献中并未系统报道[18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43]，因此未包含在数据库中；（iii）成分完整性，它们共同构成了完整的合金平衡。119个干净样本通过随机抽样（random_state = 42）分为训练集（n = 95，80%）和测试集（n = 24，20%），以确保完全的可重复性。没有单独的验证集被保留；超参数选择仅在训练集内部使用5折交叉验证（inner loop），确保在任何模型选择或训练步骤中都不会看到外部测试集。特征标准化（零均值，单位方差）是使用仅在训练集上拟合的StandardScaler进行的，并一致应用于两个分组，以防止数据泄露。StandardScaler统一应用于所有六个模型，以确保相同的预处理条件。基于树的模型（RF、ET、GB）是尺度不变的（决策边界与特征尺度无关），但为了保持一致性进行了标准化；带有RBF核的SVR对尺度敏感，需要标准化才能正确运行。

评估了六种回归模型：（1）多元线性回归（MLR）作为线性基线；（2）随机森林（RF）[44]，一种带有随机特征采样的决策树装袋集成；（3）额外树（ET）[45]，通过随机化分割阈值来进一步减少方差；（4）梯度提升（GB）[46]，一种使用浅层树的顺序提升集成；（5）带有RBF核的支持向量回归（SVR）；（6）使用RF、GB和SVR作为基础学习器的堆叠集成，以Ridge回归作为元学习器，通过在5折内部交叉验证上的外层预测进行训练。所有模型都是使用scikit-learn 1.x实现的[47]。RF、ET和GB的特征重要性值是杂质减少的平均值（MDI）归一化到单位之和。模型组合涵盖了代表性的ML复杂性和归纳偏差范围：MLR作为线性基线用于量化非线性；RF [44]和ET [45]作为在小表格材料数据集上表现良好的装袋集成；GB [46]，Wang和Xiong [9]指出它是19种ML方法中针对SFE预测表现最佳的单一算法；带有RBF核的SVR适用于小高维数据集[9]；以及在此特别应用于SFE预测的堆叠集成。

GridSearchCV在单独的训练集上使用5折交叉验证来选择最佳超参数。搜索范围包括：RF和ET（n_estimators ∈ {200, 500}, max_depth ∈ {None, 8, 12}）；GB（n_estimators ∈ {200, 500}, max_depth ∈ {3, 4, 5}, learning_rate ∈ {0.01, 0.05, 0.1}, subsample ∈ {0.7, 0.8, 1.0}；SVR（C ∈ {1, 10, 100}, kernel ∈ {rbf, poly}）。性能通过R2（训练和测试）、RMSE（mJ/m2）、MAE（mJ/m2）和5折交叉验证的R2（CV R2）在使用完整干净数据集的cross_val_predict上进行量化。GridSearchCV的优化标准是平均交叉验证R2（cv = 5，评分 = ‘r2’）。每个模型的最佳超参数组合都用于在完整训练集（n = 95）上重新拟合模型，然后在严格保留的测试集（n = 24）上进行最终评估。对于可用的训练集大小（n = 95），选择了5折CV：每折使用76个样本进行训练，19个样本进行验证，这与该规模的数据集推荐实践一致。为了确保无偏比较，所有六个模型都在相同的输入数据上进行了训练（相同的80/20分割，random_state = 42），使用了相同的StandardScaler进行训练，并在相同的保留测试集上使用相同的指标（R2、RMSE、MAE、CV R2）进行评估。超参数优化是独立地为每个模型使用的，同样使用仅针对训练集的5折CV协议进行。计算效率如下：MLR（<0.01秒），SVR（<0.01秒），GB（约0.35秒），ET（约0.9秒），RF（约1.4秒），堆叠（约4.6秒，包括5折外层生成）。推理时间从<0.1毫秒（MLR、SVR、GB）到大约10–25毫秒（RF、ET、堆叠），所有这些都在实际的合金设计筛选要求范围内。

**3. 结果**
**3.1. 数据集特征**
图1提供了本研究中使用的干净数据集的全面概述。SFE直方图（图1a）显示出一个单峰的、中等偏右的分布（偏度=0.86），大多数样本集中在10至35 mJ/m2之间。根据验证的SFE分布，42.0%的样本显示SFE < 20 mJ/m2（TRIP机制），49.6%落在20–40 mJ/m2范围内（TWIP机制），8.4%超过了40 mJ/m2（位错滑移机制）。数据集存在一定不平衡；TRIP（42.0%）和TWIP（49.6%）机制的代表情况较好，而滑移机制（8.4%）则代表性不足，这反映了已发表的高锰研究主要集中在TWIP窗口上。这种不平衡可能会影响高SFE合金的预测准确性。图1. 数据集特征：(a) SFE分布及其TRIP/TWIP/滑移机制边界和百分比，(b) SFE与Mn的关系，(c) SFE与Al的关系，(d) SFE与C的关系，(e) SFE与Fe的关系，以及(f) 按Mn含量分组后的SFE。散点图（图1b–e）显示了SFE作为Mn、Al、C和Fe含量的函数，并通过次要成分变量进行着色以可视化交互效应。按Mn含量分组的SFE（图1f）显示，从低Mn组到高Mn组，SFE的中位数逐渐增加（n分别为30、72和17，对应Mn < 15、15–25和≥25 wt.%），组内存在较大的散布，反映了多元成分的相互作用。

3.2. 相关性分析
图2展示了完整的皮尔逊相关矩阵（图2a）以及按强度排序的各个元素与SFE的相关性（图2b）。Al与SFE的正相关性最强（r = +0.421，p < 0.001），而Fe与SFE的负相关性最强（r = ?0.327，p < 0.001）。Ni也显示出适度但具有统计学意义的正相关性（r = +0.216，p = 0.018）。然而，Mn（r = +0.132，p = 0.153）、C（r = +0.022，p = 0.813）、Si（r = ?0.058，p = 0.528）、Cr（r = +0.073，p = 0.429）和N（r = +0.067，p = 0.466）与SFE之间在p < 0.05的阈值下没有显示出统计学上的线性相关性。这与过去的研究[9]一致，这些研究表明大多数元素在奥氏体钢中的SFE依赖性是非单调的。尽管Mn是决定性合金元素，但其与SFE之间缺乏显著线性相关性的原因是众所周知的非单调SFE-Mn关系[2,48]：在较低含量下，增加Mn会降低SFE，而在较高含量下则会因为化学和磁性的相互作用而提高SFE，这种非线性是线性相关无法捕捉的。图2d–f显示了Fe、Mn和Al的成分分布，证实了数据集在目标高锰成分空间的多样性。

3.3. 模型性能
表2以及图3和图4总结了所有六种模型的性能。ET（训练R2 = 0.988，RMSE_train = 1.24 mJ/m2）、GB（训练R2 = 0.990，RMSE_train = 1.17 mJ/m2）和RF（训练R2 = 0.900，RMSE_train = 3.65 mJ/m2）实现了目标训练R2 ≥ 0.90，表明仅成分特征就解释了训练数据中超过98%的SFE变异。在独立的20%测试集上，堆叠集成模型取得了最佳的泛化性能（测试R2 = 0.603，RMSE = 5.60 mJ/m2，MAE = 4.86 mJ/m2），其次是ET（测试R2 = 0.589，RMSE = 5.69 mJ/m2）和SVR（测试R2 = 0.503）。基线MLR的测试R2为0.377，证实了成分-SFE关系中的显著非线性。堆叠集成模型的表现优于MLR（R2高出226个百分点，分别为0.603 vs 0.377），并将测试RMSE降低了1.41 mJ/m2（5.60 vs 7.01），这表明模型的非线性成分相互作用发挥了作用。ANN/MLP模型的性能低于所有基于树的模型（测试R2 = 0.213），这可能是由于数据集规模较小（n = 95个训练样本）相对于网络参数数量而言。

3.4. 特征重要性分析
图5展示了RF（图5a）、ET（图5b）和GB（图5c）的特征重要性排名，以及这些排名的直接比较（图5d）和成分敏感性图表（图5e,f）。在所有三个模型中，Al的特征重要性始终排在首位：RF为22.3%，ET为26.7%，GB为25.9%。Fe在RF中排名第二（20.5%）和GB中排名第二（21.5%），在ET中排名第三（14.2%）。Mn在RF中排名第三（17.7%），在ET中排名第三（17.3%），在GB中排名第三（20.4%）。Ni在RF中排名最后（4.2%）和GB中排名最后（2.2%），但在ET中排名第五（9.1%），这反映了ET模型不同的随机化策略。图5. 特征重要性分析：(a) RF、(b) ET和(c) GB的特征重要性排名以及验证的百分比；(d) 三个模型的比较条形图；(e) 按Mn组分层的SFE与Al含量；(f) SFE与Ni含量的关系（r = +0.216，p = 0.018），Ni是除Al和Fe之外唯一与SFE具有显著线性相关的元素。这些排名在物理上是有依据的。铝是最强的单一线性预测因子（r = +0.421，p < 0.001），并且在所有三个模型中始终是重要性最高的特征。从头算密度泛函理论（ab initio DFT）计算和其他研究[41,49]表明，铝优先稳定FCC奥氏体相而非HCPε马氏体相，从而提高了SFE。Kim和De Cooman[42]通过实验验证，铝的添加系统性地提高了Fe-Mn-0.6C-yAl合金的SFE，使变形机制从TRIP转变为TWIP和平面滑移。热力学建模[7,9]表明，铝增加了ε相相对于γ相的吉布斯自由能，直接提高了SFE。Fe作为平衡元素（Fe = 100 ? Σ合金元素）加入，而不是作为独立添加的合金元素。其在RF中的高MDI重要性（20.5%）反映了总合金添加的综合效应，而非Fe对SFE的直接化学效应。因此，Fe的重要性不能与Al或Mn等有意添加的合金元素相提并论。Fe作为平衡元素，其更高的含量意味着Mn + Al + C的总添加量减少，从而导致SFE降低，这解释了其负相关（r = ?0.327）。尽管Mn与SFE之间没有显著的线性相关性（r = +0.132，p = 0.153），但Mn对SFE的贡献为17.7%（RF）到20.4%（GB），这证实了强烈的非线性、成分依赖性效应[2,48]。碳也与SFE具有接近零的线性相关性（r = +0.022），但在RF中的重要性很高（13.8%），这与它在修改磁性吉布斯自由能中的复杂作用一致[2,7]。按Mn组分层的SFE与Al的关系（图5e）证实了铝在所有Mn含量范围内的主导正面效应。从定性上讲：(i) 铝强烈且一致地提高了SFE，作为从TRIP转变为TWIP再到位错滑移的主要驱动力；(ii) Fe作为平衡元素；(iii) Mn和C具有复杂的非单调效应，这对集成模型至关重要，但在线性相关性中不可见；(iv) Ni显示出适度但具有统计学意义的正向效应（r = +0.216，p = 0.018）；(v) Si、Cr和N在这个数据集中没有显示出统计学上的线性相关性，尽管它们的ML重要性表明需要进一步的目标研究。

3.5. 剩差分析和SFE成分设计图
图6展示了ET（图6a）、GB（图6b）和堆叠（图6c）的残差诊断，残差误差分布（图6d）以及SFE成分设计图（图6e,f）。残差图显示在SFE预测范围内没有系统性的曲率、异方差或偏差，表明模型拟合良好。残差误差分布（图6d）大致呈高斯分布且中心接近零。定量上，64%的ET残差和60%的GB和堆叠残差落在±5 mJ/m2范围内，84%的ET残差和92%的GB和堆叠残差落在±10 mJ/m2范围内。这些值与聚合数据库中预期的±3–5 mJ/m2的实验室间测量散布一致[4,5]。图6a–d展示了三种表现最佳的模型的全面残差诊断。这些残差界限构成了实际的预测不确定性：用户将堆叠模型应用于训练范围内的新成分时，可以预期60%的预测值在±5 mJ/m2范围内，92%在±10 mJ/m2范围内。这种不确定性在很大程度上是不可减少的，因为聚合数据库中固有的±3–5 mJ/m2的实验室间散布。成分-SFE等高线图（图6e,f）构成了系统的二维敏感性分析：每个图表量化了SFE对两种关键元素（Mn–C或Mn–Al）同时变化的预测敏感性，同时保持其他元素在数据集均值不变。物理验证检查：(i) 铝的添加一致提高了预测的SFE，这与热力学预测[7]和实验数据[42]一致；(ii) 在平均Al = 0.87 wt.%时，高Mn和C单独添加无法使SFE超过40 mJ/m2（模型最大值为37.6 mJ/m2），这与Al添加需要达到位错滑移机制的要求一致[7,42,48]；(iii) 预测的TRIP/TWIP边界（约20 mJ/m2）与Pierce等人的实验数据[4,48]一致。所有三种趋势都证实了GB模型预测的物理有效性。残差诊断和SFE设计图：(a–c) 对于ET、GB和堆叠结构，残差与预测值的关系，并附有经验证的±5/±10 mJ/m2百分比注释；(d) 带有高斯拟合的残差分布；(e) 在Mn–C空间中，GB预测的SFE等高线（Al固定为平均值0.87 wt.%）——仅显示20 mJ/m2的TRIP/TWIP分界线；(f) 在Mn–Al空间中，GB预测的SFE等高线（C固定为平均值0.41 wt.%），同时显示20和40 mJ/m2的分界线。在Mn–C成分空间中的GB预测SFE等高线图（图6e，所有其他元素均固定在数据集平均值）覆盖了14.4–39.4 mJ/m2的范围。因此，仅能看到TRIP/TWIP边界（约20 mJ/m2）的分界线；由于在该Al含量（0.87 wt.%）下，即使在最大Mn（31 wt.%）和C（1.21 wt.%）的情况下，预测的SFE也低于40 mJ/m2，所以TWIP/滑移边界（约40 mJ/m2）在该成分空间中不可见。这与已发表的热力学数据一致：在低Al添加量下，高Mn和C含量单独存在不足以使SFE进入位错滑移区域[7,42,48]。在Mn–Al等高线图（图6f中，C固定为数据集平均值0.41 wt.%）中，范围覆盖了11.6–51.4 mJ/m2，并正确显示了20 mJ/m2和40 mJ/m2的分界线，证实了Al添加是使这种合金系统进入位错滑移区域的主要成分因素。这些图为合金设计师提供了即时的成分目标指导，无需进行CALPHAD计算。

3.6. 限制与未来方向
本研究有几个需要明确讨论的局限性。首先，数据集（n = 119）规模较小；通过在极端成分（Mn > 30 wt.%, Al > 3 wt.%）下增加更多测量数据，可以提高模型的泛化能力。其次，尽管已知SFE具有温度依赖性[3]，但模型中并未包含温度作为输入参数；未来的版本应该引入温度这一变量。第三，MDI特征的重要性对特征的共线性和基数敏感；SHAP（Shapley Additive Explanations）值[50]可以提供更严格的模型无关的解释，建议在未来工作中使用。第四，所展示的GB设计图是伪二元截面图，所有其他元素均固定在数据集平均值；因此，它们是成分指导工具，而不是通用图谱，应按此使用。第五，对于超出训练成分范围的模型预测（例如Al > 4.8 wt.%, Mn < 8.4 wt.%），应谨慎对待。未来的工作应探索基于物理信息的输入特征，如CALPHAD计算的吉布斯自由能差异[9,17]，并应用主动学习方法有效地扩展数据库。第六，当前模型使用的是文献中报告的名义合金成分，没有考虑由于次级相沉淀（包括σ相、M23C6铬碳化物、MnS非金属夹杂物或δ-铁素体）导致的合金元素重新分布，这可能会显著降低奥氏体基体中的Cr、C或Mn含量，从而改变有效的SFE。未来的工作应包含基于微观结构的信息的有效成分，并将数据库限定为完全固溶处理的合金，以提高对这类沉淀敏感的合金的预测准确性。第七，该模型未在独立于保留测试集（n = 24）的外部数据集上进行验证。针对新的实验测量SFE值（特别是在成分极端值时）进行验证是未来工作的高优先级方向，也是本研究的主要扩展方向。第八，由于单个保留的测试集（n = 24）提供的自由度不足以进行可靠的假设检验，因此未进行正式的统计显著性测试。建议通过多次随机种子的k折交叉验证来进行严格的统计比较，作为本研究的未来扩展。在没有独立实验验证的情况下，堆叠模型不应用于Mn < 8.4 wt.%, Al > 4.8 wt.%或Cr > 21 wt.%的实际训练范围之外的合金（表1）。

4. 结论
对高Mn钢（n = 119, 8.43–31.0 wt.% Mn）的SFE预测进行了系统的比较机器学习研究，得出以下主要结论：
(1) ET（训练R2 = 0.988）、GB（训练R2 = 0.990）和RF（训练R2 = 0.900）的训练R2均达到了≥0.90，证实了合金成分本身足以预测Fe–Mn–C–Si–Al–Cr–Ni–N系统在研究成分范围内的SFE。
(2) 堆叠模型（RF + GB + SVR基础学习器，脊元学习器）具有最佳的测试泛化能力（R2 = 0.603, RMSE = 5.60 mJ/m2, MAE = 4.86 mJ/m2），优于所有单独的学习器。ET在单独模型中获得了最高的综合标准化性能分数（CV R2 = 0.515）。
(3) Al是最具影响力的特征，这一点通过皮尔逊相关性（r = +0.421, p < 0.001）和RF/ET/GB特征重要性（22.3–26.7%）得到证实。Fe和Mn分别排在第二和第三位。尽管RF重要性很高，但Mn和C的线性相关性接近于零，这表明组合模型能够捕捉到强非线性的成分相互作用，而线性回归无法体现这一点。
(4) 残差诊断显示没有系统性的模型偏差；60–64%的测试残差落在±5 mJ/m2范围内，84–92%落在±10 mJ/m2范围内，这与汇总的SFE数据库中实验间测量散布的±3–5 mJ/m2完全一致。
(5) GB衍生的SFE设计图显示，在Mn–C空间中（Al平均值为0.87 wt.%），只有TRIP/TWIP边界（约20 mJ/m2）的分界线是可达的；而在Mn–Al空间中，当Al ≥ ~3.5 wt.%时，也可以达到40 mJ/m2的TWIP/滑移分界线，证实了Al是使高Mn钢进入位错滑移区域的主要成分因素。

热点排行