随着人工智能分析工具的出现,《计算材料科学》期刊发表了许多采用机器学习方法的文章:截至2025年10月20日,共有1046篇论文使用机器学习(其中2025年有228篇,2026年有9篇),153篇论文关注特征选择(2025年有29篇),76篇论文实现了XGBoost(2025年有24篇),以及50篇论文结合了SHAP分析(2025年有19篇)。这一发表趋势清楚地表明了材料科学界对人工智能应用的日益关注。然而,由于对机器学习基础知识的理解不足,研究中普遍存在误用现象。本文系统地指出了监督学习在特征选择中的常见误区,并通过使用公开数据集进行全面的交叉验证,严格评估了监督学习模型、无监督方法和非目标预测方法的相对有效性。研究结果强调,特征选择在数据驱动的材料分析中起着关键作用,特别是在发现具有多样化性能的新复合合金以满足特定工业需求方面。
该领域的一个关键挑战是,许多研究人员不了解监督模型的可靠性约束。诸如极端梯度提升(XGBoost)和随机森林之类的监督算法表现出两种不同类型的准确性,这两种准确性经常被混淆:目标预测准确性和特征重要性准确性。虽然目标预测准确性可以通过与真实标签值进行系统验证,但特征重要性缺乏相应的真实标签值进行准确性验证。因此,不同的模型会产生不同的特征重要性排名,导致在实践中可能出错的模型特定解释。这种区别尤为重要,因为监督模型中的特征重要性反映了对预测性能的贡献,而不是与目标变量的真实因果或相关性关联。即使模型具有高目标预测准确性,由于缺乏客观的验证指标,也可能产生不可靠的特征重要性排名。
这些限制的实际影响可以在最近的研究中观察到。例如,Hou等人对铝合金铸件中的人工智能应用进行了开创性的研究[1]。他们对七种不同的人工智能算法进行了系统的评估,发现XGBoost在准确预测微观结构特征方面表现优异。为了解决可解释性问题,研究人员实施了Shapley Additive exPlanations(SHAP)分析,以阐明特定合金成分、加工参数和所得微观结构特征之间的复杂关系。尽管这种分析框架试图弥合复杂的机器学习技术和基本物理冶金原理之间的差距,但我们的工作表明,这样的方法仍可能受到监督学习在特征选择方面的固有限制,可能导致对微观结构形成机制的实际驱动因素的误解。
尽管Hou等人在预测准确性方面取得了显著成就,但由于监督学习算法的模型特定性质,他们的方法在XGBoost的SHAP解释方面引发了根本性的担忧。虽然像XGBoost这样的监督学习模型可以从真实标签值中验证目标预测准确性,但它们生成的特征重要性排名缺乏相应的真实标签值进行验证。Hou等人自己的研究也表明,不同的模型产生了显著不同的特征重要性层次结构——这是由于缺乏客观验证机制而导致的根本性不一致。
在材料研究人员(包括Hou等人)中,存在关于三个关键方法论误区的重大知识空白:数据分析工具所基于的基本假设的违反、针对真实标签验证模型解释的固有挑战,以及可能产生误导结果的预处理技术(如归一化和转换技术)。大量经过同行评审的文献(超过300篇)系统地记录了所有现代监督学习模型(包括XGBoost)衍生的特征重要性指标的基本局限性[2]、[3]、[4]、[5]、[6]、[7]。该领域普遍存在的误解是,提高预测准确性必然会增强变量关系的解释能力,但实际上,预测准确性和特征重要性的可靠性在机器学习应用中代表的是不同的、往往是正交的挑战[8]、[9]、[10]、[11]、[12]。在材料科学应用中,这种区别尤为重要,因为因果理解而不仅仅是预测能力,对于推进材料科学的基本知识至关重要。
表达为“解释 = SHAP(模型)”的功能关系表明,SHAP解释本质上继承并可能放大基础模型特征重要性计算中存在的偏见[13]、[14]、[15]、[16]、[17]、[18]。尽管SHAP作为一种可解释性工具得到了广泛采用,但其解释仍然受到模型特定偏见和假设的根本限制。因此,特征重要性指标主要反映了对预测结果的贡献,而不是变量之间的真实因果关系。这意味着高预测准确性并不一定转化为可靠的特征重要性排名。
在无法准确计算变量之间真实关联的情况下,本文提倡使用无监督机器学习模型,以避免监督方法的许多解释误区。具体来说,特征聚类技术可以根据特征之间的内在相似性而非预测能力对其进行分层聚类,从而揭示以物理上有意义的方式相互作用的材料参数的自然分组。这种方法可以在不施加关于它们与目标变量关系的模型特定偏见的情况下,识别出相关的特征群组。同样,最初为生物信息学应用开发的高度可变的基因选择方法也可以适应材料科学,通过基于方差的过滤来识别最具信息量的成分和加工参数,而不是依赖模型的重要性指标。这些技术可以检测数据集中具有显著信息内容的特征,而与任何特定目标变量的关系无关。当这些无监督方法与斯皮尔曼相关性等非参数统计方法结合使用时,研究人员可以建立材料参数和性能之间更稳健的、不依赖于模型的关联,从而更好地反映潜在的物理关系,而不是算法产生的伪影。这种全面的分析框架为材料知识的发现提供了比仅依赖SHAP等模型特定可解释性工具更严格的基础。
研究人员在将机器学习应用于材料科学时,利用领域知识至关重要。必须解决三个基本矛盾:高维特征空间与有限样本量之间的矛盾、模型准确性与应用实用性之间的矛盾,以及算法学习结果与既定领域知识之间的矛盾[21]。在这项工作中,我们通过在建模过程中融入材料科学原理来缓解这些挑战。我们的特征选择过程结合了对材料属性的物理化学理解,并通过已知的材料行为模式来验证模型预测,以确保物理上的合理性。此外,我们评估了输入特征与预测结果之间的一致性和剂量-响应关系,提供了与材料科学理论一致的机制解释性。这种嵌入领域知识的方法遵循了材料信息学最新进展的建议,强调了在整个机器学习建模过程中领域专业知识的重要性。
数据的质量和数量对机器学习结果在材料研究中的可靠性和泛化能力至关重要,而嵌入领域知识的治理框架为评估和改进数据集提供了生命周期策略,以支持高质量、适当数量的数据采集和模型部署。基于这些原则,我们的研究强调了真正的关联评估——这一方面经常被忽视——通过明确检查一致性和剂量-响应关系来实现。具体来说,我们提出了一种leave-top1-out程序,该程序移除影响最大的特征,并重新评估特征排名顺序和模型性能,以识别潜在的由主导因素引起的伪影,增强对虚假相关性的鲁棒性,并确保在特征空间发生扰动时学习到的关系仍然成立。这种方法通过提供与材料领域知识对齐的关联级别验证,补充了数据治理工作。