利用采样和机器学习方法对热化学性质的导数进行估算，以确定相变边界

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Calphad》：Estimating phase boundaries using sampling and machine learning of derivatives of thermochemistry properties

【字体：大中小】 时间：2026年01月28日 来源：Calphad 1.9

编辑推荐：

　　本研究提出一种结合热力学性质导数采样和主动学习迭代的机器学习方法，通过支持向量分类（SVC）优化模型以估算贵金属合金系统的相平衡边界，并验证其在Pd-Pt二元和Au-Ag-Ge三元系统中的有效性，为材料设计提供新途径。

李浩杰|徐光龙|陈福文|王卓|方志恒|崔宇文|张爱民

中西生物医学材料联合实验室（S2LBM）与南京工业大学材料科学与工程学院，中国南京211816

摘要

我们提出了一种新的机器学习（ML）方案，通过结合热化学性质导数的高效采样和主动学习迭代来构建贵金属合金系统的平衡相界。我们充分利用了关于相图热力学的领域特定知识，即系统的热化学性质（如系统的化学势和特定组分的活性等）在单相平衡区域内随化学成分连续变化，然而上述热化学性质对化学成分的导数在相界成分处会发生突变。我们利用热化学导数的连续性作为数据特征，将其重新构建成结构化的标签作为输入，采用支持向量分类（SVC）作为最优算法，最终形成了一个临时的ML模型来估计相图上的相界。该ML模型通过基于贝叶斯后验分布的参数调整和主动学习迭代进行了优化。通过针对测试数据集的保密评分评估了不确定性。通过重建Pd-Pt二元系统的温度-成分（T-x）等值线相图和Au-Ag-Ge三元系统的成分等温截面，验证了所提出ML方法的准确性和效率。预测的出色表现突显了将热力学知识与ML技术相结合的有效性。这为直接基于热化学性质的测量来确定相界开辟了新的途径。

引言

合金系统中的常见相图描绘了温度和化学成分空间中的平衡相成分状态，这对于确定具有所需相组成的化学成分和/或需要实施的热处理程序具有技术意义[[1], [2], [3]]。得益于材料热力学的先驱者，如Gibbs [4]、Kaufman [5,6]、Hillert [7]等，实验中观察到的相与多相系统吉布斯能量最小化之间的关系已被揭示[[8,9]]。这也成为了CALPHAD（相图计算）技术的科学基础，该技术可以通过最小化相成分和热化学的耦合实验数据误差来获得优化的相图[[10], [11], [12]]。自20世纪70年代以来，CALPHAD技术已成为评估多组分多相系统相图的主流方法，并推动了多种新型合金和其他材料的进步，例如钴基超合金[13]、GTD262镍基超合金[14]、Ferrium C64钢[15]。尽管取得了上述成功和优势，但在CALPHAD社区中仍有一些值得重新考虑的缺点：（1）针对具有不同物理和化学特性及精度的数据的优化算法主要局限于最小二乘法。在人工智能时代，也应该发展基于高级分类和回归算法的相图确定方法。（2）随着物理信息理论的发展，CALPHAD技术显得不够灵活，需要更复杂的技能和经验来处理数据库、函数和优化参数，这些都在固定的形式主义中。然而，对于只为了了解特定化学成分下的相界和相组成的信息而阅读相图的实用工程师来说，吉布斯能量的定量表达似乎是多余的且琐碎的。

机器学习（ML）最近作为人工智能的一个有前景的子学科出现，并已应用于许多科学和工程领域，这得益于大数据的积累和可访问性[[16], [17], [18], [19], [20], [21]]。ML可以处理多种分类和回归算法，基于数据迭代地形成最优统计模型，从而为研究相平衡、相变和相界开辟了新的途径，这与上一段的重新考虑相呼应。一种策略是使用ML自动优化能量函数中的参数并评估CALPHAD类型的数据库[22]。这种方法由ESPEI表示，它具有自动模型选择、从热化学数据生成参数、马尔科夫链蒙特卡洛（MCMC）优化以同时调整参数和量化固有不确定性以及将后验分布传播到相图的功能。它能够以前所未有的效率解决多组分相平衡系统的问题[23,24]。另一种方法是借助热力学领域知识确定各种形式的相界函数，并使用贝叶斯统计来评估参数的后验分布和所有可能相界的不确定性[25,26]。这些函数不能直接用于CALPHAD建模中的参数优化，但已被证明可以再现Fe-Ni-Co和Cr-Co-Ni系统的三元等温截面上的相界和零相分数特征。另一种更有吸引力的策略是直接采样几何、物理和/或化学特性，使用ML分类来识别各个相区域，然后逐步迭代地逼近最优相界，而不需要使用CALPHAD类型的能量函数[[27], [28], [29], [30]]。

在文献中作为“采样和分类”策略特征的许多几何/物理/化学量包括具有热力学约束的平衡相的数量[31]、相变温度[32]、各个相的晶体结构[[33], [34], [35], [36], [37], [38], [39]]、与相稳定性相关的描述符（如核心电子距离、Matyonov-Batsanov电负性、熔化温度、熔化焓等），甚至相图上显示的图形特征（与元素的周期性定律、合金组成以及从二元系统到三元系统的拓扑外推相关）。ML“采样和分类”的有效性取决于实验或计算中特征数据的数量和准确性，当ML采样和分类应用于相平衡不确定系统或实验成本较高的系统（例如贵金属合金）时，这是一个挑战。

主动学习是一种迭代优化方案，它允许基于数据集的有限大小和较少的迭代次数，通过主动选择要从数据池中标记的数据来构建优化的分类ML模型[40]。它已被应用于参考文献[[41], [42], [43], [44], [45], [46]]中的相界迭代近似，但在不确定性评估和未标记数据的主动选择方法上存在差异。Dai等人[41]应用高斯过程回归插值来解决两相（亚稳态）平衡的分类问题，可以自动量化每个状态变量点上的相标签不确定性。而在主动学习迭代中采用了平衡探索和利用策略的获取函数。而Terayama等人[[42], [43], [44], [45]]采用了不确定性采样方法，通过该方法确定下一个具有最高不确定性得分的相界采样候选x（即采用单一探索策略来选择下一个主动学习数据）。不同的概率估计算法（例如标签传播和标签扩散）结合不同的不确定性采样策略（例如最小置信度、边际、基于熵的）可以产生不同的不确定性得分函数和值。不确定性采样方法不再仅限于确定两相平衡相界（如SiO₂-Al₂O₃-MgO三元氧化物系统和沉积的Zn-Sn-P薄膜系统[43]所示），并且可以通过显著减少采样点数量来提高效率。Telleria-Allika等人[46]使用随机森林（RF）代替标签传播来计算x属于每个相的概率，从而释放了大量用于逆矩阵和迭代马尔科夫过程的计算量。同时，通过执行香农熵来评估不确定性，以便主动选择要标记的数据。

尽管在上述工作中取得了很大进展，但本文作者希望提出一种新的主动学习方案，通过采样热化学性质数据（例如化学势、活性或电动势）的导数来估计二元或三元相图中的相界。它结合了报道工作中一些方法的优点：（1）结合了材料热力学的领域知识，但不需要解析函数；（2）适用于已知或不确定系统的二元和三元相平衡；（3）在数据集规模较小且迭代次数较少时有效（适用于实验成本较高且实验数据密度有限的系统）。

章节片段

相界处化学成分的热力学特征

在相图热力学中众所周知，相界可以通过各个物质的摩尔吉布斯能量曲线/表面的共同切线或共同切平面上的共同切点来确定。

如图1的示意图所示，异质多相平衡系统的摩尔吉布斯能量沿共同切线变化，而均匀单相系统的摩尔吉布斯能量则呈抛物线形变化

训练数据集

对于Pd-Pt二元系统，在700–1100 K范围内显示出一个fcc相。系统中的两种组分Pd和Pt的活性（无论是单一fcc相还是fcc复合相1# + fcc复合相2#的两相分离）是根据298K和1 bar下的fcc状态以及100K的温度间隔和10%的成分间隔，使用热力学数据库计算得出的。这些离散点构成了原始数据集。图4（a）展示了计算出的Pt和Pd的活性

局限性和展望

尽管本研究中的采样分类和主动学习方案已成功应用于二元和三元系统中相界的ML预测，但仍存在某些局限性。

1.

目前的工作可以勾勒出相界并识别平衡相的数量，但不足以从逐步处理的活动曲线中自动标记相名称。

结论

总结来说，我们提出了一种通过结合采样分类和主动学习迭代来构建合金系统相界的ML方案。其特点在于采样目标是热化学性质的导数，而不是平衡相的数量，适用于与组合材料设计方法结合使用，以确定制造许多实验合金成本较高的贵金属合金系统的相界

CRediT作者贡献声明

李浩杰：撰写——原始草稿、可视化、软件、研究。徐光龙：撰写——审阅与编辑、验证、监督、项目管理、方法论、资金获取、概念化。陈福文：验证、资源、项目管理、资金获取、形式分析、数据管理。王卓：软件、资源、项目管理、资金获取。方志恒：撰写——审阅与编辑、资源、项目管理、资金

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了云南贵金属实验室重大科学技术项目（项目编号：YPML-2023050205）的支持。GX还得到了江苏省创新支持计划-"一带一路"创新合作重点项目[项目编号：BZ2023006]的资助，FC得到了国家自然科学基金（项目编号：52371112）的资助，用于新型合金的数字设计。

联系信箱：

粤ICP备09063491号

摘要

引言