《Industrial & Engineering Chemistry Research》:Prediction of Excess Enthalpy in Binary Mixtures through Probabilistic Matrix Completion, with a GP-Enforced Smoothness Constraint
编辑推荐:
本文提出了一种结合概率矩阵分解(PMF)与高斯过程(GP)的新框架,用于预测二元混合物的过量焓(HE)。该模型通过引入改进的Redlich-Kister(RK)多项式核函数,强制实现了HE在组成和温度维度上的平滑性约束,并融入了聚类、零约束等热力学考量,显著提升了在数据缺失情况下的预测准确性和鲁棒性。研究表明,该数据驱动方法在多数测试体系上优于传统的基团贡献法(UNIFAC),为补充和发展基础热力学模型提供了有效的伪数据生成工具。
引言
过量焓(HE)是化工过程设计以及相平衡数据验证中的关键性质。然而,混合物性质数据的稀缺常常阻碍基础热力学模型的开发和参数化。目前,在无实验数据情况下预测HE的金标准是修正的UNIFAC(Do)方法。虽然UNIFAC具有广泛的应用范围,但其底层模型理论多年来变化不大。近年来,Middleton和Cripwell提出了为二元混合物的热物理性质生成伪数据的概念,以过量焓作为案例研究,其核心思想是采用数据驱动的方法,利用现有的HE实验数据库,为尚未进行实验研究的混合物生成伪数据。这种方法旨在补充而非完全取代基于第一性原理的热力学建模方法。
Middleton和Cripwell提出使用矩阵补全(MC)作为伪数据生成的方法。MC是一类矩阵分解技术,用于填充部分观测矩阵中的缺失项。这些方法已成功应用于推荐系统,并在Jirasek及其同事的一系列工作中,在应用热力学领域取得了成功。该方法适用于标量值性质,并在应用于无限稀释活度系数、亨利常数和无限稀释扩散系数时显示出显著的成功。Middleton和Cripwell将这一思想扩展到预测不同组成(xi)和温度(T)下的过量焓。在这种情况下,组成和温度维度被添加到N × N组分矩阵中,形成一个多维张量。然而,该框架存在三个主要局限性:1. 获得的HE估计值在组成上存在不连续性;2. HE估计值的温度变化只能针对在几个不同温度下具有观测数据的混合物获得;3. 所使用的MC算法(迭代主成分分析,PCA)严重依赖于未观测项的初始猜测。
高斯过程
高斯过程(GP)是一种贝叶斯框架,用于基于观测数据推断未知的底层函数,而无需明确提供底层函数的形式。在过量焓的背景下,观测到的组成xi和温度Ti作为预测变量,带有正态分布噪声的观测过量焓数据HiE作为响应变量。通过在这些底层函数值上放置一个零均值的GP先验,可以在不同位置的底层函数值之间强制执行相关性。该框架可以扩展到在任意输入位置估算底层函数值,即估算在任意组成和温度下的过量焓。
概率矩阵分解
PMF是一种矩阵分解技术,它将一个受噪声污染的矩阵分解为两个秩为D的潜在特征矩阵。当有一个部分观测的矩阵,其中Ω表示已知数据的索引(i, j)集合时,可以在观测项上制定一个似然函数。在正态分布噪声的假设下,可以施加一个正态似然函数。这可以与每个特征向量上的正态先验结合,从而可以通过优化获得最大后验(MAP)值,或者采用完全贝叶斯方法(例如,马尔可夫链蒙特卡洛采样)来估计潜在特征的后验分布。
模型开发
本研究提出使用一个从RK多项式推导出的核函数,结合PMF-GP框架,使得过量焓估计值在组成和温度上的平滑性能够作为模型的固有部分被强制执行。通过使用GPs,模型能够进行与温度相关的过量焓预测,而无需考虑对于给定化合物是否在不同温度下有可用数据。使用GPs需要一个代表底层函数的等效核。本研究提出了一个从改进版本的Redlich-Kister(RK)多项式推导出的核函数。将GPs与MC结合还有一个额外优点,即不需要显式的数据预处理步骤(即数据离散化),使模型更加稳健。本研究提出使用概率矩阵分解(PMF)作为首选的MC方法。这允许制定一个不需要对缺失项进行任何初始化的目标函数。此外,还以正则化项的形式考虑了额外的热力学约束,以提高模型的准确性和鲁棒性。
改进的Redlich-Kister多项式
RK多项式是一种拟合实验过量性质的多项式,其约束条件是纯化合物的过量性质为零。对于二元混合物,其形式如文中公式(10)所示。该多项式的系数值可用于确定考虑过量吉布斯自由能时混合物内的相互作用类型。在本研究中,重点是使用RK多项式开发一个通用框架来预测二元混合物中的过量焓数据。因此,首选更简单的RK多项式形式,如公式(11)所示。公式(11)保持了在纯化合物时过量性质为零的约束条件;因此,它是RK多项式的另一种形式。当过量焓随组成在稀区域的变化很快时,需要更高阶的多项式来准确捕捉这些趋势。但当阶数增加时,会导致模型方差更大,可能造成过拟合。为了克服这个问题,向公式(11)中的RK多项式添加了两个附加项,如公式(12)所示。这些附加项允许在稀相区域有更大的灵活性,而无需使用高阶多项式项。
为了明确考虑温度的影响,可以注意到过量焓随温度的变化主要遵循相同的趋势,但过量焓的大小随温度变化。为了纳入这种认知,公式(12)中的每一项都需要用一个温度的函数来缩放。为了允许足够程度的自由度,提出了一个关于温度的三次多项式形式的显式温度依赖性,如公式(13)所示。该方程随后被称为修正的RK多项式。
矩阵补全
为了在(二元)混合物性质的背景下使用MC,有必要在离散的温度和组成下对混合物性质进行插值,以便在这些离散条件下形成矩阵。在文中图4中,对每个数据集的实验数据进行插值,以获得在固定组成和固定温度下的过量焓。如图5所示,显示了十个矩阵中的三个。在x1和1–x1处的数据被堆叠在同一个矩阵中。考虑到组成的对称性,矩阵仅考虑到0.495的组成。如图6所示,将图5中的组成切片排列起来以获得三维张量,表明了组成依赖性。
基础模型
首先使用GPs引入似然函数。该似然函数允许插值数据与实验数据之间的相关性,省去了任何数据预处理步骤,使模型更加稳健。接下来是确保潜在特征矩阵平滑的正则化项。这是通过使用GP先验来实现的。基础模型的最后一步是添加额外的正则化项,与PMF模型保持一致。结合似然函数和正则化项,基础模型的目标函数被制定为似然函数和正则化项的乘积。
热力学考量的纳入
为了考虑相似混合物应具有相似过量焓这一热力学考量,每个化合物根据其官能团被分配到一个(预先确定的)聚类中。然后,同一聚类中化合物的特征向量被正则化朝向某个聚类均值。这鼓励同一聚类中的化合物具有相似的特征矩阵,从而在相似混合物中具有相似的过量焓。为每个潜在特征引入一个聚类均值。将特征矩阵上的正则化项移至聚类均值。为了将特征矩阵正则化朝向聚类均值,引入一个聚类分配矩阵C。此外,还引入了聚类方差向量。现在在特征矩阵上指定了新的正则化项,其中包含了聚类均值。
为了考虑温度的影响,引入了一个包含所有温度下单个聚类均值的模型。也就是说,聚类均值的维度减少了一维。此外,还引入了参考温度下的特征矩阵。聚类均值上的正则化项与公式(24)和(25)相同,但维度减少了。公式(26)和(27)中的正则化项被移至参考温度下的特征矩阵。引入了一个每个温度方差的向量。现在特征矩阵上的正则化项变为公式(31)和(32)。结合似然函数和平滑度约束,目标函数变为公式(33)。不同的模型变体可以通过考虑前两个考量的任何组合来获得。
为了考虑纯化合物过量焓应为零这一热力学考量,提出了对公式(20)的修改。跨重建矩阵,主对角线代表“纯组分过量焓”。在给定温度下,有M个不同的重建矩阵,每个组成对应一个。本研究提出跨重建矩阵的平方和作为纯化合物的过量焓。这使得纯化合物过量焓能够被纳入GP先验,从而将所有主对角线项正则化朝向零。
结果与讨论
本研究考虑了与Middleton和Cripwell相似的组分子集,包括来自NIST标准参考数据库103b和公开文献的97种不同组分的二元混合物数据。与Middleton和Cripwell不同的是,本研究仅考虑在环境压力或接近环境压力下测量的二元过量焓,因此排除了短链烷烃。总共考虑了778个训练混合物和213个测试混合物(无论温度如何)。这相当于所考虑子集中所有可能混合物的16.7%。
在298.15 K训练的MC模型
首先考虑仅在298.15 K下训练和评估数据的MC模型。通过绘制不同模型变体在不同秩下的整体测试和训练MAE来确定最佳秩和模型变体。结果表明,采用聚类框架的模型在测试数据上表现优于其他模型。这表明以正则化项的形式加入热力学考量可以显著提高预测精度。对于最佳秩,注意到对于考虑正则化项的模型,从秩7开始表现相似,而对于未正则化变体,测试MAE存在一个明显的最小值。这表明添加正则化项使得MC模型在秩增加时对过拟合更加稳健。选择本研究中的最佳秩为9,作为能够准确解释测试和训练数据变化的最低秩。
将MC模型的结果与UNIFAC进行比较,通过考虑两种模型之间MAE的差异。发现MC模型的性能与混合物类型的数据可用性密切相关:MC通常在包含烷烃和醇的混合物上优于UNIFAC,而在包含苯胺、胺和一些烯烃的体系上表现较差。Middleton和Cripwell也发现MC方法通常对包含烷烃和醇的体系产生良好的预测,并将此归因于这些化合物有丰富的数据可用。他们认为稀疏程度极大地影响了MC方法的预测精度,导致对于数据有限的混合物预测精度较低。总体而言,MC模型在189个测试混合物中的143个(75%)上优于UNIFAC。
在所有温度下训练的MC模型的评估
将注意力转向评估在所有温度下训练的MC模型的性能。与在298.15 K训练的模型类似,通过考虑作为首选指标的MAE的碎石图来确定最佳模型和秩。与仅在298.15 K训练数据的模型相似的观察结果适用于跨所有温度的模型:加入聚类约束对测试数据的MAE影响最显著,而零约束在与聚类约束结合时似乎影响可忽略不计。额外的参考温度约束正则化了过量焓跨温度与298.15 K时的偏差,当没有数据可用时限制了过拟合。选择具有所有约束的模型作为最佳模型。选择最佳秩d=9,与仅在298.15 K训练的模型保持一致,这可以作为HE随温度定性不变性的潜在支持。
为了将MC模型结果与UNIFAC进行比较,首先评估跨温度的 performance。箱线图显示,在本研究考虑的大多数温度下,MC模型的表现优于UNIFAC。通过利用组合的PMF-GP框架,跨温度的预测是相关的,这允许模型利用不同温度切片之间的信息来为未见混合物做出更明智的预测。考虑所有温度下所有测试混合物中MC模型和UNIFAC之间的相对性能,再次看到在训练数据相对丰富的系统(如烷烃和醇系统)上,MC模型通常优于UNIFAC。与仅在298.15 K训练的模型相比,跨所有温度训练的模型在如烷烃-胺和胺-醇等系统上观察到预测能力的提高。这种准确性的提高可归因于在这些系统的不同温度下添加了训练数据以及MC模型的温度依赖性。这重申了添加数据,无论温度如何,通常都会提高所开发MC模型的预测准确性。总体而言,MC模型在213个测试混合物中的160个(74%)上优于UNIFAC。
在跨温度训练与在298.15 K训练的MC模型之间的比较
评估在两个模型彼此之间的性能。该比较可以深入了解添加跨温度数据如何影响模型的预测准确性。绘图显示了在298.15 K评估的测试混合物的MC模型在298.15 K训练和跨温度训练之间的MAE差异。从图中注意到,在大多数混合物中,使用两种模型在298.15 K的预测是相似的。跨温度评估的MC模型在189个混合物中的99个(52%)上优于使用仅在298.15 K数据训练的模型,尽管在大多数情况下差异很小且在平均测试MAE范围内。这表明当引入不同温度的数据时,模型在298.15 K的预测准确性提高了。正如已经在含胺系统中强调的那样,MC模型能够利用跨温度的信息在298.15 K做出更明智的预测。
与机器学习替代方案的比较
虽然本研究模型开发的特定动机可能使本研究与众不同,但该领域机器学习技术的激增要求方法之间进行透明的比较。因此,除了UNIFAC,还考虑了与更现代的ML模型HANNA的模型性能比较。HANNA是最近提出的一种基于神经网络的模型,它将热力学约束纳入架构中以生成活度系数的预测。该模型是在大量的基于相平衡的活度系数数据上训练的,但重要的是,没有在任何HE数据上训练。因此,虽然内置在HANNA框架中的硬热力学约束允许模型推广到其他热力学性质,但没有先验理由期望它在HE方面优于为特定目的构建的MC方法。这一推理得到了全局性能比较的支持,其中HANNA在所有考虑的混合物上的表现均差于MC模型和UNIFAC。采样系统进一步表明HANNA在其对HE的定性预测中不一致。这一结果让人想起在相平衡数据上训练时,状态方程对过量性质的类似不一致预测。这一结果和初步调查并非对HANNA预测能力的指责,因为HANNA未在HE数据上训练。同样,本研究中开发的MC模型在平衡性质的预测方面也不会优于HANNA——我们也不是建议它应该被开发来这样做。相反,这一结果支持了我们的主张,即ML模型应通过帮助填补数据中潜在特征的理论空白来补充基础模型的开发。所提出的MC方法是特征不可知的,不依赖任何类型的模型偏差,因此适合用于生成HE伪数据。
结论
本研究表明了如何将MC和GP结合起来估算二元混合物的热物理性质,同时保持相对于温度和组成的平滑性。GP的等效核是从改进版本的RK多项式推导出来的。虽然该模型是针对液相过量焓提出的,但它可以扩展到预测其他混合物性质,只要有一个能够描述这些性质的合适核函数。
所提出的方法在超过70%的测试混合物上优于修正的UNIFAC,这说明了概率MC方法扩展到向量值数据类型的有效性。将特定的热力学考量以附加正则化项的形式纳入模型,以及在训练中加入跨温度的数据,提高了模型的预测准确性和鲁棒性。对MC模型预测准确性贡献最大的热力学考量是将聚类纳入模型,鼓励相似混合物具有相似的过量焓。本研究仅考虑了使用官能团作为基础的确定性聚类方法,并且一个化合物仅属于一个聚类。一种更概率性的聚类方法,每个化合物有一个权重表明其属于给定聚类的可能性,可能会更实质性地提高模型的预测准确性。
研究表明,在大多数情况下,MC和UNIFAC模型的预测是相似的,至少定性地看是如此。对未测量系统的MC模型和UNIFAC之间差异的分析,提供了关于所提取潜在特征有效性的见解,并且最大差异之处指出了可能进一步改进模型的实验测量活动的首要候选混合物。最后,发现添加不同混合物的数据,无论数据在什么温度下测量,通常都会提高MC模型在298.15 K的预测准确性。这表明,为了改进预测性MC方法,在不同温度下(即不一定在同一温度下)测量不同混合物的过量焓,比在几个温度下测量单一混合物更有效。
本研究中提出的概率模型建立在课题组早期工作的基础上,处于“伪数据生成”的概念范畴内,旨在促进基础热力学模型的改进,强调与最先进的基础模型混合,而不是用数据驱动的替代方案取代它们。在未来的工作中,我们旨在将当前框架扩展到其他热物理性质,并测试生成的伪数据在改进基础热力学模型方面的潜力。