基于Borderline-SMOTE与机器学习的非平衡数据高熵碳化物陶瓷相形成预测研究

《npj Computational Materials》：Machine learning for phase prediction of high entropy carbide ceramics from imbalanced data

【字体：大中小】 时间：2026年01月12日 来源：npj Computational Materials 11.9

编辑推荐：

　　本研究针对高熵碳化物陶瓷（HECCs）相形成预测中数据稀缺与类别不平衡的难题，创新性地结合Borderline-SMOTE过采样技术与多种机器学习算法。通过构建包含251个样本的数据集，并采用四步特征选择策略筛选出6个关键描述符，最终确定随机森林（RF）模型为最优预测工具。实验验证表明，该模型预测准确率达88.89%，并成功应用于非等摩尔比HECCs体系的相形成概率图谱绘制，为新型高熵陶瓷的理性设计提供了高效可靠的 computational materials 研究范式。

在超高温极端环境下，材料需要承受极高的温度和剧烈的热冲击，传统二元超高温陶瓷虽然具备一定的性能基础，但其综合性能已逐渐难以满足日益苛刻的应用需求。高熵碳化物陶瓷（High Entropy Carbide Ceramics, HECCs）作为一类新兴材料，通过将多种金属元素以等摩尔或近等摩尔比例固溶在碳化物晶格中，展现出比传统二元碳化物更高的熔点、更优的高温强度以及更好的抗高温氧化和抗烧蚀性能，因而在航空航天、核能等领域具有广阔的应用前景。然而，高熵陶瓷的组成空间极其庞大，原子结构复杂，传统的“试错法”实验探索模式不仅周期长、成本高，而且难以高效筛选出具有单相形成能力的最佳组分组合。

早期研究者试图通过热力学准则或基于Hume-Rothery规则的经典经验参数（如原子尺寸差δ、电负性χ、价电子浓度VEC等）来预测高熵陶瓷的相形成能力，但预测精度往往不尽如人意。随着计算模拟技术的发展，高通量密度泛函理论（DFT）、分子动力学（MD）以及相图计算（CALPHAD）等方法也被应用于高熵陶瓷的相预测。尽管这些方法能够提供一定的理论指导，但它们通常需要耗费巨大的计算资源，例如熵形成能力（EFA）和混合焓（ΔH_mix）等描述符的计算需要对每个组分进行数千次DFT计算，高昂的计算成本严重限制了其在广阔组分空间中探索新材料的能力。

近年来，机器学习（Machine Learning, ML）技术在材料科学领域展现出强大的潜力，为新材料的设计和开发提供了革命性的工具。在高温陶瓷材料领域，数据驱动的机器学习方法已经在加速新型高熵陶瓷的设计和预测方面取得了显著进展。人工神经网络（ANN）、支持向量机（SVM）、随机森林（RF）、高斯朴素贝叶斯（GNB）和逻辑回归（LOG）等算法已被成功应用于预测HECCs的相形成能力。然而，当前的研究仍面临两大挑战：一是可用数据量少（通常少于100个样本），二是数据存在严重的类别不平衡问题。具体而言，目前已报道的HECCs研究主要集中在IVB、VB和VIB族过渡金属元素，而含有IIIB族稀土元素（如Sc、Y、La）的HECCs研究非常有限，导致数据集中单相HECCs与多相碳化物的样本数量悬殊。在这种不平衡数据集上训练的机器学习模型，往往会牺牲对少数类样本（例如含稀土元素的HECCs）的预测准确性，以优先保证对多数类样本的学习效果，从而导致模型泛化能力差，对稀有组分的预测性能不佳。

为了克服上述挑战，西北工业大学李贺军教授和孙佳副教授团队在《npj Computational Materials》上发表了题为“Machine learning for phase prediction of high entropy carbide ceramics from imbalanced data”的研究论文。该研究创新性地将Borderline-SMOTE过采样技术与机器学习算法相结合，成功构建了一个能够准确预测含稀土元素HECCs相形成能力的机器学习模型，为高效设计和发现新型高熵陶瓷材料提供了新的解决方案。

本研究采用的核心技术方法主要包括以下几个关键环节：首先，通过文献调研和实验合成（采用碳热还原法，在2100°C氩气气氛下合成）构建了初始数据集（171个样本，其中15个为实验合成的含Sc、Y、La的HECCs）。针对数据集中含IIIB族元素样本稀少的严重不平衡问题，采用Borderline-SMOTE方法生成了80个新的含Sc、Y、La的HECCs合成样本，将数据集扩充至251个样本。其次，进行了系统的特征工程，包括基于Pearson相关系数（PCC）的相关性分析以剔除冗余特征，并结合递归特征消除（RFE）和穷举特征组合法筛选出最优特征子集（如σ_VEC, σ_χp, ΔS_conf, r?_Me, σ_rMe, z?*等）。随后，对10种常用机器学习算法进行训练和比较，并利用RandomizedSearchCV方法对表现最佳的模型（如SVM.rbf, RF, XGB）进行超参数优化。最后，通过实验合成与表征（XRD, TEM/EDS）对模型预测结果进行验证，并采用主动学习策略将预测不确定性高的样本迭代加入数据集以持续优化模型性能。

2.1 初始数据集的构建与Borderline-SMOTE处理

研究收集了文献中的156个HECCs样本，并补充合成了15个含稀土元素的HECCs新样本，构成了包含171个样本的初始数据集。元素分布分析表明，现有研究高度集中于IVB和VB族元素，而IIIB族元素（Sc, Y, La）的样本数量严重不足，存在明显的类别不平衡。

为解决此问题，研究采用了Borderline-SMOTE过采样方法。与传统SMOTE随机生成少数类样本不同，Borderline-SMOTE专注于在分类边界附近容易误分的“危险”样本区域生成新样本，有效避免了噪声样本的产生。处理后，含IIIB族元素的样本数量从18个显著增加至98个，改善了数据平衡性。t-SNE可视化结果清晰显示，生成的合成样本（蓝色点）主要分布在原始多数类与少数类样本的边界区域（紫色点），证明了该方法的有效性。

2.2 特征选择与模型构建

研究最初考虑了20个与HECCs相形成相关的特征，包括热力学性质（如构型熵ΔS_conf）、基于Hume-Rothery规则的参数（如VEC、金属半径r_Me、电负性χ等）以及元素本征性质（如质量m、密度ρ、第一电离能I₁等）。通过Pearson相关系数分析，剔除了6对高度相关（|PCC| > 0.90）的特征，以降低过拟合风险。

随后，通过比较10种特征删除方案下10种机器学习算法的AUC值，确定了方案5和随机森林（RF）算法组合的初步优越性。

进一步地，采用递归特征消除和穷举特征组合法对表现较好的六种算法（SVM.rbf, SVM.linear, SVM.poly, RF, XGB, LOG）进行最优特征子集筛选。

最终确定RF模型在包含5个特征（σ_VEC, χ?_p, σ_I1, z?*, Λ）的子集上取得了最高的AUC值（90.22%）。

2.3 超参数优化与模型评估

对筛选出的SVM.rbf、RF和XGB模型进行超参数优化后，使用AUC、F1-score、Recall和G-mean等针对不平衡数据的评估指标，对比了模型在使用Borderline-SMOTE前后的性能。

结果表明，未使用Borderline-SMOTE时，模型在训练集上表现良好但在测试集上表现较差，存在过拟合。而使用Borderline-SMOTE后，三个模型在训练集和测试集上的性能均得到显著提升，泛化能力增强。综合比较，RF模型被确定为预测HECCs相形成能力的最优模型。

2.4 模型预测与实验验证

利用训练好的RF模型，对由Sc, Y, La, Zr, Ti, Hf, V, Nb, Ta元素构成的组分空间中的新型HECCs的相形成能力进行了预测。研究人员特意选取了8个预测概率在0.3-0.7之间（不确定性高）和10个预测概率在0-0.3或0.7-1之间（不确定性低）的HECCs成分进行实验验证。通过XRD物相分析，18个样品中有7个被证实为单相面心立方结构HECCs，11个为多相碳化物。

将实验结果与模型预测结果对比，初始模型的预测准确率为77.78%（14/18）。随后，研究采用主动学习策略，将8个高不确定性样本依次加入数据集，对RF模型进行多轮迭代重训练和优化。经过五轮迭代后，优化后的RF模型预测性能趋于稳定，对18个实验样本的验证准确率提升至88.89%。对于预测与实验结果存在偏差的(LaNbTaTiZr)C和(HfTaTiVZr)C样品，进行了详细的TEM表征。HAADF-STEM和EDS元素面分布分析表明，(LaNbTaTiZr)C在纳米尺度上元素分布均匀，而(HfTaTiVZr)C中存在V元素的偏聚。HRTEM和SAED结果证实两者均具有面心立方结构，但晶格参数存在差异，这与Vegard定律预测的原子尺寸效应和晶格畸变效应相符。

此外，研究还利用优化后的RF模型预测了(HfZrTaScY)C、(HfZrTaScLa)C和(HfZrTaYLa)C三个五元HECCs体系在非等摩尔组分空间中的单相形成概率，绘制了相形成图谱。这些图谱直观地展示了元素比例对单相形成能力的显著影响，为通过调整成分设计特定相结构的HECCs提供了重要指导。

本研究成功开发了一个集成了Borderline-SMOTE过采样技术的机器学习框架，用于有效预测含有稀土元素的HECCs的相形成能力。该研究通过合成数据生成和系统的特征工程，显著缓解了因实验数据稀缺导致的数据不平衡问题对模型性能的负面影响。随机森林（RF）模型被证明是该预测任务中最有效的算法，其在测试集上的AUC、F1-score、Recall和G-mean分别达到97.36%、95.83%、95.83%和91.13%，展现出优异的综合性能。通过主动学习策略将高不确定性样本迭代反馈至模型，进一步将实验验证准确率提升至88.89%，证明了该框架具有良好的稳健性和持续优化能力。研究还将模型成功应用于预测非等摩尔HECCs体系的相形成趋势，生成了指导新材料设计的相图。

该研究的成功实施标志着机器学习在解决高熵陶瓷材料设计中的关键挑战——数据不平衡方面迈出了重要一步。它不仅为快速、准确地预测新型HECCs（尤其是含稀土元素的体系）的相稳定性提供了强大工具，其提出的技术路线（Borderline-SMOTE结合特征工程与主动学习）对于其他小样本、不平衡数据的材料科学问题也具有重要的借鉴意义。尽管Borderline-SMOTE的引入有效改善了数据分布，但其生成的合成数据仍可能与真实实验体系存在差异。未来的工作可以集中于通过更高通量的实验合成进一步扩大真实数据集，融入更多基于领域知识的描述符，并探索更先进的机器学习策略，以期进一步提升预测精度，最终实现具有定制化性能的高熵陶瓷材料的理性设计。

热点排行

新闻专题