超越预测：评估材料科学应用中特征选择方法的稳定性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computational Materials Science》：Beyond prediction: Assessing stability in feature selection methods for materials science applications

【字体：大中小】 时间：2026年03月01日 来源：Computational Materials Science 3.3

编辑推荐：

　　本研究通过稳定性测试框架比较了监督学习、无监督方法及统计方法在材料科学中的特征选择可靠性，发现监督模型（如XGBoost）虽预测精度高（R2>0.95），但特征重要性排名不稳定，而无监督方法（如特征聚类）和Spearman相关分析稳定性更优。建议结合模型无关方法与领域知识以提升因果解释可信度。

竹藤良安

日本东京江东区有明3-3-3，武藏野大学数据科学学院，邮编135-8181

摘要

本研究探讨了材料科学中特征选择方法的可靠性。尽管由于对可解释性约束的理解有限，机器学习的应用广泛存在误用现象，但机器学习在材料科学领域仍得到了快速发展。我们使用一个公开的金属材料数据集，通过一种新颖的稳定性测试框架，比较了监督学习模型（XGBoost、随机森林）、无监督技术（特征聚类、HVGS）和统计方法（斯皮尔曼相关性）。研究结果表明，尽管预测准确性很高（R2 > 0.95），但在移除排名最高的特征后，监督学习模型产生的特征排名会变得不稳定——这在识别材料结构与性能关系时是一个关键缺陷。常见的误用情况包括过度依赖黑箱模型进行科学解释、交叉验证程序不足以及未能测试特征重要性的稳定性。相比之下，无监督方法和斯皮尔曼相关性在保持竞争性能的同时，表现出完美的排名稳定性。这突显了预测准确性和特征重要性可靠性之间的根本区别。我们建议材料研究人员结合使用不依赖于特定模型的方法，以避免对材料性能关系的误解，并确保在材料开发过程中得出科学上可靠的结论。

引言

随着人工智能分析工具的出现，《计算材料科学》期刊发表了许多采用机器学习方法的文章：截至2025年10月20日，共有1046篇论文使用机器学习（其中2025年有228篇，2026年有9篇），153篇论文关注特征选择（2025年有29篇），76篇论文实现了XGBoost（2025年有24篇），以及50篇论文结合了SHAP分析（2025年有19篇）。这一发表趋势清楚地表明了材料科学界对人工智能应用的日益关注。然而，由于对机器学习基础知识的理解不足，研究中普遍存在误用现象。本文系统地指出了监督学习在特征选择中的常见误区，并通过使用公开数据集进行全面的交叉验证，严格评估了监督学习模型、无监督方法和非目标预测方法的相对有效性。研究结果强调，特征选择在数据驱动的材料分析中起着关键作用，特别是在发现具有多样化性能的新复合合金以满足特定工业需求方面。

该领域的一个关键挑战是，许多研究人员不了解监督模型的可靠性约束。诸如极端梯度提升（XGBoost）和随机森林之类的监督算法表现出两种不同类型的准确性，这两种准确性经常被混淆：目标预测准确性和特征重要性准确性。虽然目标预测准确性可以通过与真实标签值进行系统验证，但特征重要性缺乏相应的真实标签值进行准确性验证。因此，不同的模型会产生不同的特征重要性排名，导致在实践中可能出错的模型特定解释。这种区别尤为重要，因为监督模型中的特征重要性反映了对预测性能的贡献，而不是与目标变量的真实因果或相关性关联。即使模型具有高目标预测准确性，由于缺乏客观的验证指标，也可能产生不可靠的特征重要性排名。

这些限制的实际影响可以在最近的研究中观察到。例如，Hou等人对铝合金铸件中的人工智能应用进行了开创性的研究[1]。他们对七种不同的人工智能算法进行了系统的评估，发现XGBoost在准确预测微观结构特征方面表现优异。为了解决可解释性问题，研究人员实施了Shapley Additive exPlanations（SHAP）分析，以阐明特定合金成分、加工参数和所得微观结构特征之间的复杂关系。尽管这种分析框架试图弥合复杂的机器学习技术和基本物理冶金原理之间的差距，但我们的工作表明，这样的方法仍可能受到监督学习在特征选择方面的固有限制，可能导致对微观结构形成机制的实际驱动因素的误解。

尽管Hou等人在预测准确性方面取得了显著成就，但由于监督学习算法的模型特定性质，他们的方法在XGBoost的SHAP解释方面引发了根本性的担忧。虽然像XGBoost这样的监督学习模型可以从真实标签值中验证目标预测准确性，但它们生成的特征重要性排名缺乏相应的真实标签值进行验证。Hou等人自己的研究也表明，不同的模型产生了显著不同的特征重要性层次结构——这是由于缺乏客观验证机制而导致的根本性不一致。

在材料研究人员（包括Hou等人）中，存在关于三个关键方法论误区的重大知识空白：数据分析工具所基于的基本假设的违反、针对真实标签验证模型解释的固有挑战，以及可能产生误导结果的预处理技术（如归一化和转换技术）。大量经过同行评审的文献（超过300篇）系统地记录了所有现代监督学习模型（包括XGBoost）衍生的特征重要性指标的基本局限性[2]、[3]、[4]、[5]、[6]、[7]。该领域普遍存在的误解是，提高预测准确性必然会增强变量关系的解释能力，但实际上，预测准确性和特征重要性的可靠性在机器学习应用中代表的是不同的、往往是正交的挑战[8]、[9]、[10]、[11]、[12]。在材料科学应用中，这种区别尤为重要，因为因果理解而不仅仅是预测能力，对于推进材料科学的基本知识至关重要。

表达为“解释 = SHAP（模型）”的功能关系表明，SHAP解释本质上继承并可能放大基础模型特征重要性计算中存在的偏见[13]、[14]、[15]、[16]、[17]、[18]。尽管SHAP作为一种可解释性工具得到了广泛采用，但其解释仍然受到模型特定偏见和假设的根本限制。因此，特征重要性指标主要反映了对预测结果的贡献，而不是变量之间的真实因果关系。这意味着高预测准确性并不一定转化为可靠的特征重要性排名。

在无法准确计算变量之间真实关联的情况下，本文提倡使用无监督机器学习模型，以避免监督方法的许多解释误区。具体来说，特征聚类技术可以根据特征之间的内在相似性而非预测能力对其进行分层聚类，从而揭示以物理上有意义的方式相互作用的材料参数的自然分组。这种方法可以在不施加关于它们与目标变量关系的模型特定偏见的情况下，识别出相关的特征群组。同样，最初为生物信息学应用开发的高度可变的基因选择方法也可以适应材料科学，通过基于方差的过滤来识别最具信息量的成分和加工参数，而不是依赖模型的重要性指标。这些技术可以检测数据集中具有显著信息内容的特征，而与任何特定目标变量的关系无关。当这些无监督方法与斯皮尔曼相关性等非参数统计方法结合使用时，研究人员可以建立材料参数和性能之间更稳健的、不依赖于模型的关联，从而更好地反映潜在的物理关系，而不是算法产生的伪影。这种全面的分析框架为材料知识的发现提供了比仅依赖SHAP等模型特定可解释性工具更严格的基础。

研究人员在将机器学习应用于材料科学时，利用领域知识至关重要。必须解决三个基本矛盾：高维特征空间与有限样本量之间的矛盾、模型准确性与应用实用性之间的矛盾，以及算法学习结果与既定领域知识之间的矛盾[21]。在这项工作中，我们通过在建模过程中融入材料科学原理来缓解这些挑战。我们的特征选择过程结合了对材料属性的物理化学理解，并通过已知的材料行为模式来验证模型预测，以确保物理上的合理性。此外，我们评估了输入特征与预测结果之间的一致性和剂量-响应关系，提供了与材料科学理论一致的机制解释性。这种嵌入领域知识的方法遵循了材料信息学最新进展的建议，强调了在整个机器学习建模过程中领域专业知识的重要性。

数据的质量和数量对机器学习结果在材料研究中的可靠性和泛化能力至关重要，而嵌入领域知识的治理框架为评估和改进数据集提供了生命周期策略，以支持高质量、适当数量的数据采集和模型部署。基于这些原则，我们的研究强调了真正的关联评估——这一方面经常被忽视——通过明确检查一致性和剂量-响应关系来实现。具体来说，我们提出了一种leave-top1-out程序，该程序移除影响最大的特征，并重新评估特征排名顺序和模型性能，以识别潜在的由主导因素引起的伪影，增强对虚假相关性的鲁棒性，并确保在特征空间发生扰动时学习到的关系仍然成立。这种方法通过提供与材料领域知识对齐的关联级别验证，补充了数据治理工作。

方法部分

由于Hou等人的原始数据集不可用，本研究使用了包含1154个实例和31个特征的公开铝合金数据集[19]，以系统地评估特征选择方法。该数据集包含了铝合金的成分和加工条件信息。包括的机械性能有屈服强度、抗拉强度和伸长率。此外，数据集还提供了关于所属类别的信息

结果

为了可重复性和透明度，Python代码alloy.py已在GitHub上公开[20]。如表1所示，交叉验证结果显示不同算法类别在预测性能和特征排名稳定性方面存在显著差异。使用前五个特征时，随机森林获得了最高的初始5折交叉验证R2分数（0.9801），其中“屈服强度（MPa）”被确定为最重要的特征。然而，当移除这个最高排名的特征后

讨论

我们的研究结果表明，在材料科学的机器学习应用中，预测准确性和特征重要性稳定性之间存在根本性的脱节。尽管带有/不带有SHAP的监督模型取得了令人印象深刻的R2分数（0.956–0.9802），但在移除排名最高的特征后，它们的特征排名表现出令人担忧的不稳定性。这种不稳定性表现为重要性层次的完全重组，有些特征从排名中完全消失

CRediT作者贡献声明

竹藤良安：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，软件，方法论，调查，形式分析，数据管理，概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言

方法部分

结果

讨论

CRediT作者贡献声明

利益冲突声明

热点排行