基于去噪扩散概率模型的表格数据增强方法,用于提高高熵合金的相位分类精度

《Acta Materialia》:Denoising diffusion probabilistic model-based tabular data augmentation for improved phase classification of high-entropy alloys

【字体: 时间:2026年03月16日 来源:Acta Materialia 9.3

编辑推荐:

  人工智能加速材料发现但受限于数据稀缺,传统数据增强方法存在生成数据多样性不足和物理特性保留不充分的问题。本研究首次将去噪扩散概率模型(DDPM)应用于高熵合金(HEA)相预测,通过合成数据增强训练集,使相位分类模型准确率提升至86%,并显著优于ADASYN和CTGAN。

  
张丽斌|崔允淑
韩国釜山国立大学材料科学与工程学院,46241

摘要

人工智能(AI)和机器学习(ML)在加速材料发现方面具有巨大潜力。然而,它们的实际应用往往受到数据稀缺性的限制。传统的数据增强技术,如基于规则的数据转换和生成模型,在生成真实且多样化的合成数据方面存在不足。本研究首次采用去噪扩散概率模型(DDPM)作为新的生成框架,以应对高熵合金(HEA)相预测中的这些挑战。通过将DDPM生成的合成样本纳入训练过程,相分类模型的预测准确性和泛化能力显著提高,这一点通过一系列实验合成样本和文献收集的数据得到了验证。为了进一步评估其数据生成效果,DDPM与两种最先进的增强技术进行了系统对比:自适应合成采样(ADASYN)和条件表生成对抗网络(CTGAN)。比较结果表明,DDPM在生成高质量合成数据方面始终优于这两种方法。总体而言,这项工作凸显了DDPM作为材料信息学中一个极具前景的生成框架的重要性,为更有效的数据驱动材料发现奠定了基础。

引言

人工智能(AI)和机器学习(ML)正在改变材料研究与开发的范式[1]。与传统试错方法不同,AI/ML技术使研究人员能够处理大规模数据集,提取有意义的见解,生成新的假设,并优化合成协议,从而推动从以人为中心的设计向数据驱动的设计转变[[2], [3], [4]]。然而,材料发现历来严重依赖于研究人员的经验和领域专业知识,导致数据集存在异质性和不足[5]。这种数据稀缺性成为AI/ML在材料创新中广泛应用的主要障碍[6]。为此,提出了多种数据增强方法来增加数据量和多样性。
实践中常用的基于规则的增强技术包括噪声注入和合成过采样。噪声注入通过向原始样本引入随机扰动来生成新样本,而合成过采样则通过在现有样本之间插值来创建新实例。例如,在镁合金[7,8]、钛合金[[9], [10], [11]]和高熵合金(HEAs)[12,13]中的噪声注入,以及在块状金属玻璃[14]、铝合金[15]、钢铁[[16], [17], [18], [19], [20], [21], [22], [23]]、铜合金[24]、镁合金[25,26]和HEAs[[27], [28], [29], [30], [31]]中的合成过采样。尽管这些方法计算简单,但由于依赖于对现有数据的简单转换,它们生成的数据多样性有限。此外,它们的合成输出通常无法准确保留真实材料的固有物理化学特性,从而限制了其实际应用。
生成模型,如变分自编码器(VAEs)和生成对抗网络(GANs),提供了有希望的替代方案。VAEs通过解码器从潜在表示重构数据样本,而GANs则通过生成器将随机噪声直接映射到目标数据分布来生成数据实例。例如,在钢铁[32]和镍合金[33]中的VAEs,以及在钢铁[[34], [35], [36]]、镁合金[37]、钛合金[38,39]和HEAs[40,41]中的GANs。然而,VAEs在生成高度真实的样本方面存在局限性,而GANs则容易发生模式崩溃,限制了输出多样性。最近,扩散模型(DMs)作为下一代生成框架出现[42]。它们的生成过程涉及通过学习的去噪轨迹将随机噪声逐步转换为真实数据,通常建模为马尔可夫链。尽管有DALL·E、Sora和DeepAI等著名应用,但DMs在材料科学界的采用仍处于起步阶段,其在材料数据生成方面的巨大潜力尚未得到充分探索。
高熵合金(HEAs),也称为复杂浓缩合金(CCAs)或多主元素合金(MPEAs),由于其卓越的断裂韧性、耐腐蚀性和热稳定性[[43], [44], [45]],吸引了大量研究兴趣。然而,准确预测其相形成仍然具有挑战性,主要是由于可用训练数据的稀缺性和不平衡[46]。在这里,我们首次提出了使用去噪扩散概率模型(DDPM)进行HEA相预测的数据增强方法。通过将新合成的数据纳入训练过程,相分类器的预测准确性和泛化能力得到了显著提升。全面的基准分析进一步表明,DDPM在数据生成质量和增强效果方面均显著优于传统的基于规则的方法和生成模型。这项工作确立了DDPM作为材料信息学中一个强大的生成框架的地位,并强调了其在促进数据驱动材料发现方面的潜力。

部分摘录

提出的框架

如图1所示,本研究提出的框架包括三个部分:数据收集和预处理、DDPM实现和增强分类器的开发以及模型验证。首先,通过从已发表的文献中提取铸造态HEA样本来构建了一个大规模数据集。随后采用了包括相关性过滤、递归特征消除和最佳子集选择在内的三步特征工程过程来识别关键特征

数据收集和预处理

本研究通过系统地从已发表的文献中收集实验数据,构建了一个用于HEA研究的大规模数据库。数据清洗后,该数据库包含来自2,057篇科学出版物的8,756条记录。它包含了关于合金成分、处理工艺、相结构和材料性质的全面信息,为数据驱动的HEA研究提供了坚实的基础。在这项工作中,HEA相结构被进行了分类

结论

在这项研究中,我们提出了一个数据驱动的框架,该框架结合了机器学习(ML)分类器和去噪扩散概率模型(DDPM),有效提升了高熵合金(HEAs)相形成的预测性能。主要发现总结如下:
  • 1
    在数据收集和预处理、特征工程以及贝叶斯超参数优化之后,构建了一个预训练的分类器Pre-C,其整体准确率为86%。然而,

CRediT作者贡献声明

张丽斌:撰写——原始草稿、验证、软件开发、方法论、研究、正式分析、数据整理。崔允淑:撰写——审稿与编辑、监督、资源协调、方法论、研究、资金获取、概念构思。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号