人工智能(AI)和机器学习(ML)正在改变材料研究与开发的范式[1]。与传统试错方法不同,AI/ML技术使研究人员能够处理大规模数据集,提取有意义的见解,生成新的假设,并优化合成协议,从而推动从以人为中心的设计向数据驱动的设计转变[[2], [3], [4]]。然而,材料发现历来严重依赖于研究人员的经验和领域专业知识,导致数据集存在异质性和不足[5]。这种数据稀缺性成为AI/ML在材料创新中广泛应用的主要障碍[6]。为此,提出了多种数据增强方法来增加数据量和多样性。
实践中常用的基于规则的增强技术包括噪声注入和合成过采样。噪声注入通过向原始样本引入随机扰动来生成新样本,而合成过采样则通过在现有样本之间插值来创建新实例。例如,在镁合金[7,8]、钛合金[[9], [10], [11]]和高熵合金(HEAs)[12,13]中的噪声注入,以及在块状金属玻璃[14]、铝合金[15]、钢铁[[16], [17], [18], [19], [20], [21], [22], [23]]、铜合金[24]、镁合金[25,26]和HEAs[[27], [28], [29], [30], [31]]中的合成过采样。尽管这些方法计算简单,但由于依赖于对现有数据的简单转换,它们生成的数据多样性有限。此外,它们的合成输出通常无法准确保留真实材料的固有物理化学特性,从而限制了其实际应用。
生成模型,如变分自编码器(VAEs)和生成对抗网络(GANs),提供了有希望的替代方案。VAEs通过解码器从潜在表示重构数据样本,而GANs则通过生成器将随机噪声直接映射到目标数据分布来生成数据实例。例如,在钢铁[32]和镍合金[33]中的VAEs,以及在钢铁[[34], [35], [36]]、镁合金[37]、钛合金[38,39]和HEAs[40,41]中的GANs。然而,VAEs在生成高度真实的样本方面存在局限性,而GANs则容易发生模式崩溃,限制了输出多样性。最近,扩散模型(DMs)作为下一代生成框架出现[42]。它们的生成过程涉及通过学习的去噪轨迹将随机噪声逐步转换为真实数据,通常建模为马尔可夫链。尽管有DALL·E、Sora和DeepAI等著名应用,但DMs在材料科学界的采用仍处于起步阶段,其在材料数据生成方面的巨大潜力尚未得到充分探索。
高熵合金(HEAs),也称为复杂浓缩合金(CCAs)或多主元素合金(MPEAs),由于其卓越的断裂韧性、耐腐蚀性和热稳定性[[43], [44], [45]],吸引了大量研究兴趣。然而,准确预测其相形成仍然具有挑战性,主要是由于可用训练数据的稀缺性和不平衡[46]。在这里,我们首次提出了使用去噪扩散概率模型(DDPM)进行HEA相预测的数据增强方法。通过将新合成的数据纳入训练过程,相分类器的预测准确性和泛化能力得到了显著提升。全面的基准分析进一步表明,DDPM在数据生成质量和增强效果方面均显著优于传统的基于规则的方法和生成模型。这项工作确立了DDPM作为材料信息学中一个强大的生成框架的地位,并强调了其在促进数据驱动材料发现方面的潜力。