合金系统中的常见相图描绘了温度和化学成分空间中的平衡相成分状态,这对于确定具有所需相组成的化学成分和/或需要实施的热处理程序具有技术意义[[1], [2], [3]]。得益于材料热力学的先驱者,如Gibbs [4]、Kaufman [5,6]、Hillert [7]等,实验中观察到的相与多相系统吉布斯能量最小化之间的关系已被揭示[[8,9]]。这也成为了CALPHAD(相图计算)技术的科学基础,该技术可以通过最小化相成分和热化学的耦合实验数据误差来获得优化的相图[[10], [11], [12]]。自20世纪70年代以来,CALPHAD技术已成为评估多组分多相系统相图的主流方法,并推动了多种新型合金和其他材料的进步,例如钴基超合金[13]、GTD262镍基超合金[14]、Ferrium C64钢[15]。尽管取得了上述成功和优势,但在CALPHAD社区中仍有一些值得重新考虑的缺点:(1)针对具有不同物理和化学特性及精度的数据的优化算法主要局限于最小二乘法。在人工智能时代,也应该发展基于高级分类和回归算法的相图确定方法。(2)随着物理信息理论的发展,CALPHAD技术显得不够灵活,需要更复杂的技能和经验来处理数据库、函数和优化参数,这些都在固定的形式主义中。然而,对于只为了了解特定化学成分下的相界和相组成的信息而阅读相图的实用工程师来说,吉布斯能量的定量表达似乎是多余的且琐碎的。
机器学习(ML)最近作为人工智能的一个有前景的子学科出现,并已应用于许多科学和工程领域,这得益于大数据的积累和可访问性[[16], [17], [18], [19], [20], [21]]。ML可以处理多种分类和回归算法,基于数据迭代地形成最优统计模型,从而为研究相平衡、相变和相界开辟了新的途径,这与上一段的重新考虑相呼应。一种策略是使用ML自动优化能量函数中的参数并评估CALPHAD类型的数据库[22]。这种方法由ESPEI表示,它具有自动模型选择、从热化学数据生成参数、马尔科夫链蒙特卡洛(MCMC)优化以同时调整参数和量化固有不确定性以及将后验分布传播到相图的功能。它能够以前所未有的效率解决多组分相平衡系统的问题[23,24]。另一种方法是借助热力学领域知识确定各种形式的相界函数,并使用贝叶斯统计来评估参数的后验分布和所有可能相界的不确定性[25,26]。这些函数不能直接用于CALPHAD建模中的参数优化,但已被证明可以再现Fe-Ni-Co和Cr-Co-Ni系统的三元等温截面上的相界和零相分数特征。另一种更有吸引力的策略是直接采样几何、物理和/或化学特性,使用ML分类来识别各个相区域,然后逐步迭代地逼近最优相界,而不需要使用CALPHAD类型的能量函数[[27], [28], [29], [30]]。
在文献中作为“采样和分类”策略特征的许多几何/物理/化学量包括具有热力学约束的平衡相的数量[31]、相变温度[32]、各个相的晶体结构[[33], [34], [35], [36], [37], [38], [39]]、与相稳定性相关的描述符(如核心电子距离、Matyonov-Batsanov电负性、熔化温度、熔化焓等),甚至相图上显示的图形特征(与元素的周期性定律、合金组成以及从二元系统到三元系统的拓扑外推相关)。ML“采样和分类”的有效性取决于实验或计算中特征数据的数量和准确性,当ML采样和分类应用于相平衡不确定系统或实验成本较高的系统(例如贵金属合金)时,这是一个挑战。
主动学习是一种迭代优化方案,它允许基于数据集的有限大小和较少的迭代次数,通过主动选择要从数据池中标记的数据来构建优化的分类ML模型[40]。它已被应用于参考文献[[41], [42], [43], [44], [45], [46]]中的相界迭代近似,但在不确定性评估和未标记数据的主动选择方法上存在差异。Dai等人[41]应用高斯过程回归插值来解决两相(亚稳态)平衡的分类问题,可以自动量化每个状态变量点上的相标签不确定性。而在主动学习迭代中采用了平衡探索和利用策略的获取函数。而Terayama等人[[42], [43], [44], [45]]采用了不确定性采样方法,通过该方法确定下一个具有最高不确定性得分的相界采样候选x(即采用单一探索策略来选择下一个主动学习数据)。不同的概率估计算法(例如标签传播和标签扩散)结合不同的不确定性采样策略(例如最小置信度、边际、基于熵的)可以产生不同的不确定性得分函数和值。不确定性采样方法不再仅限于确定两相平衡相界(如SiO2-Al2O3-MgO三元氧化物系统和沉积的Zn-Sn-P薄膜系统[43]所示),并且可以通过显著减少采样点数量来提高效率。Telleria-Allika等人[46]使用随机森林(RF)代替标签传播来计算x属于每个相的概率,从而释放了大量用于逆矩阵和迭代马尔科夫过程的计算量。同时,通过执行香农熵来评估不确定性,以便主动选择要标记的数据。
尽管在上述工作中取得了很大进展,但本文作者希望提出一种新的主动学习方案,通过采样热化学性质数据(例如化学势、活性或电动势)的导数来估计二元或三元相图中的相界。它结合了报道工作中一些方法的优点:(1)结合了材料热力学的领域知识,但不需要解析函数;(2)适用于已知或不确定系统的二元和三元相平衡;(3)在数据集规模较小且迭代次数较少时有效(适用于实验成本较高且实验数据密度有限的系统)。