《Journal of Molecular Graphics and Modelling》:Predicting Viscosity of Ionic Liquids Using Structure-Based Models
编辑推荐:
由于离子液体(ILs)结构的可调性,存在许多具有宽范围粘度的离子对。因此,采用机器学习方法有效预测ILs的粘度并建立精确的结构-性质关系。研究人员采用两种方法构建了基于结构的模型来预测离子液体(ILs)的动力粘度:一种结合聚类和降维的人工神经网络(ANN),以
由于离子液体(ILs)结构的可调性,存在许多具有宽范围粘度的离子对。因此,采用机器学习方法有效预测ILs的粘度并建立精确的结构-性质关系。研究人员采用两种方法构建了基于结构的模型来预测离子液体(ILs)的动力粘度:一种结合聚类和降维的人工神经网络(ANN),以及一种使用全部描述符的梯度提升方法CATBoost。利用化学信息学软件RDKit生成描述符,两种模型在粘度范围和ILs多样性方面展现出强大的泛化能力。对于ANN方法,使用KMeans聚类算法结合平衡函数将数据分为四个不同的组,并采用肘部方法确定最佳超参数,如聚类数和主成分数。比较分析表明,具有降维的ANN在训练集和测试集上的R2值分别达到0.94和0.87,而使用全部描述符的CATBoost的R2值分别为0.94和0.85,证明两种方法均提供稳健的预测能力。该方法的通用性提供了广泛的应用前景,可扩展到基于结构的软物质各种性质的预测。
离子液体(ILs)是由有机阳离子与较小无机阴离子组成的液态盐,具有低挥发性、宽液相温度范围、高热稳定性和低可燃性等优势,其粘度是决定润滑剂、电解质、气体分离和热传递等应用性能的关键参数。然而,由于阴离子和阳离子组合的多样性,ILs粘度跨越多个数量级,传统实验测定耗时且成本高。现有预测方法包括基团贡献法(GC)、定量结构-性质关系(QSPR)模型、理论或半经验方法(如Eyring理论、自由体积理论和摩擦理论)以及深度学习方法(如图神经网络GNNs),但多数模型依赖大量特征工程、窄范围数据集或领域特定描述符,导致泛化能力有限,难以适应结构多样化的ILs。为此,本研究旨在开发基于结构的稳健预测模型,利用最小假设和易于获取的分子描述符,在不同粘度范围、温度和IL家族中保持预测准确性。
研究人员从文献中收集了1,973种ILs的粘度数据,经筛选及极端值去除(仅移除4个持续表现不佳的数据点)后,最终包含1,513种ILs的12,291个数据点,温度范围253.15–473 K。采用简化分子线性输入规范(SMILES)表示分子结构,通过化学信息学软件RDKit生成210个描述符,剔除方差≤15%的列后保留122个,并将温度作为额外特征,目标变量(动力粘度)经自然对数变换以处理偏态分布。数据集按80:20随机划分为训练集和测试集。
本研究采用两种互补的建模策略。第一种是聚类人工神经网络(ANN),先对输入描述符进行标准化,通过主成分分析(PCA)降维至29个主成分(解释95%方差),再使用KMeans聚类将数据分为4个化学相似子群(通过肘部方法确定最优聚类数和主成分数),并对不平衡聚类进行基于质心距离的平衡后处理。每个聚类独立训练三层神经网络(输入层29节点,三个隐藏层分别含25、20、5个神经元,输出层1节点),采用修正线性单元(ReLU)激活函数,训练100个epochs,并引入五折交叉验证和早停策略防止过拟合。第二种为CATBoost梯度提升方法,直接使用全部122个描述符和温度特征,无需降维或聚类,通过网格搜索优化学习率、树深度和L2叶正则化,同样采用五折交叉验证,优先选择验证R
2高且训练-验证R
2差距小于0.10的模型。两种模型均使用R
2、均方误差(MSE)、均方根误差(RMSE)和平均绝对误差(MAE)进行评估,所有指标在预测值从对数尺度反变换回原始粘度尺度后计算。
**4. Predictions Results**
通过独立分析四个ANN聚类的测试集性能(图6),Cluster A在低粘度区域表现优异(R
2=0.80),Cluster B、C、D覆盖更高粘度分布(R
2分别为0.89、0.85、0.91)。整体ANN测试集R
2=0.87,MSE=96469.99;而CATBoost测试集R
2=0.85,MSE=113679.23(表2)。两种模型均展现出强大的泛化能力,且聚类ANN的性能显著优于未经聚类的全局ANN(测试R
2=0.76)。进一步分析离子家族趋势发现,铵基和膦基阳离子ILs平均粘度最高,而咪唑鎓类和NTf
2衍生物(双(三氟甲基磺酰)亚胺)粘度较低,与电荷离域减弱分子间相互作用一致;模型预测误差在常见IL类别(如咪唑鎓、NTf
2)中最低,验证了模型捕获了有意义的化学相互作用。PCA载荷分析揭示PC1主要由分子大小和拓扑描述符主导,PC2捕获电子和表面积描述符;SHAP分析(SHapley Additive exPlanations)确认温度是最具影响力的特征,其次是分子连接性、部分电荷和表面积描述符。
**讨论部分**
本研究提出的两种描述符基模型(聚类ANN和CATBoost)在测试集上分别达到R
2=0.87和0.85,与文献中基于基团贡献法和QSPR的模型(如Paduszynski 2019年ANN模型R
2=0.91,Boualem 2022年SVR模型R
2=0.986)相比性能相当或略低,但优势在于避免了对领域特定描述符或复杂特征工程的依赖。与近年来的图神经网络(GNN)和Transformer架构(测试R
2约0.69–0.80)相比,本模型在计算资源需求、可解释性和数据集大小要求方面更具实用性。PCA和SHAP分析确认了物理上有意义的结构-粘度关系(如分子大小、烷基链长、电荷离域),而非虚假相关性。模型局限包括:仅依赖2D结构描述符,未考虑温度依赖的分子构象变化;对数变换虽改善偏态分布,但限制了极端高粘度区域的预测精度;数据集主要涵盖常见IL类别,对新型IL的泛化性需进一步验证。
**结论翻译**
本研究为聚类、降维和梯度提升在构建预测模型以准确预测离子液体动力粘度方面提供了有效应用。研究人员开发并比较了两种互补方法:一种利用PCA降维的聚类人工神经网络,以及一种操作于完整描述符集的CATBoost梯度提升模型。两种模型均取得了强大的预测性能(聚类ANN测试R
2=0.87,CATBoost测试R
2=0.85),证明了多种简单的基于描述符的方法可有效预测IL粘度。PCA载荷分析揭示IL粘度主要由分子大小和复杂性描述符(分子量、重原子计数)、拓扑特征(连接模式、支化度)、烷基链长和芳香环决定,突出了已建立的结构-粘度关系,其中长链增强分子间相互作用,环系统影响分子堆积和旋转自由度。通过利用基于化学信息学的RDKit进行特征生成,两种模型在未来修改或添加特征以提高准确性和稳健性方面展现出灵活性。数据集包含大量数据点及宽范围粘度,展示了模型处理多样化ILs的能力,并能适应各种未知ILs。对目标变量应用对数变换对于处理偏态粘度分布至关重要,确保了跨粘度范围的平衡模型训练。结果证实,基于结构的方法结合聚类或梯度提升为准确预测ILs粘度提供了坚实的框架,且模型的适应性为扩展现有或新数据集提供了众多机会。