计算机辅助分子设计(CAMD [1])已成为在资源密集型合成和实验测试之前识别具有所需性质的潜在目标化合物的强大工具。CAMD依赖于定量结构-性质关系(QSPR)建模,它在目标性质和一个或多个描述符之间建立数学联系,这些描述符反映了分子的结构特征 [2]、[3]、[4]。离子液体(ILs)[5] 特别适合QSPR建模:它们几乎无限的结构多样性,源于众多可能的阳离子-阴离子组合,为特定应用提供了微调物理化学和电化学性质的独特机会 [6]、[7]、[8]。
最早的ILs QSPR模型专注于预测熔点,这是其实际应用中的关键参数。这些研究仅限于特定子类,如吡啶鎓溴化物 [9]、咪唑鎓和苯并咪唑鎓溴化物 [10]、四烷基铵和(n-羟基烷基)三烷基铵溴化物 [11],以及三唑鎓溴化物 [12]、硝酸盐 [12] 和硝基氰胺 [13]。每个家族都分别进行了研究,模型基于单个离子的描述符。当时,QSPR建模主要依赖于多元线性回归(MLR),这是最简单的机器学习(ML)方法之一。后来,Yan等人 [14] 应用了MLR和人工神经网络(ANN)来预测咪唑鎓溴化物和氯化物ILs的熔点。他们发现ANN模型的预测准确性高于MLR模型。Fatemi等人 [15] 对含有铵、咪唑鎓、吡咯鎓、吡啶鎓、哌啶鎓和磷鎓阳离子与七种不同阴离子(N(CF?SO?)?、CH?SO?、Br、Cl、I、BF?、CF?SO?)组成的ILs也得出了类似的结果。非线性模型的决定系数分别为R2 = 0.85 和 R2 = 0.79。
随着关于ILs性质的实验数据的积累(例如,2024年包含3129种结构多样的ILs的熔点数据库 [16])和ML算法的不断发展,QSPR模型的数量显著增加。除了改进熔点QSPR模型 [17]、[18]、[19]、[20]、[21]、[22] 之外,ML方法还应用于预测ILs的广泛性质,包括分解温度 [19]、[23]、粘度 [20]、[24]、[25]、[26]、密度 [20]、[27]、导电性 [20]、[25]、[28]、[29] 以及毒性 [31]、[32](另见综述 [16]、[33]、[34]、[35]、[36] 及其中的参考文献)。Baskin等人 [37] 比较了使用各种ML方法(线性模型、非线性算法和具有不同架构的“浅层”或“深层”神经网络)结合不同类型的化学结构表示(分子描述符和SMILES)构建的QSPR模型。基于Transformer的深度神经网络在其他ML方法中表现出明显优势,因为它们具有更好的预测性能,并且能够直接分析编码为SMILES字符串的IL化学结构。
与量子化学 [35]、[38] 和分子动力学模拟 [39]、[40] 等计算方法相比,现代QSPR模型能够快速识别目标特定的ILs。然而,许多先进的ML模型作为“黑箱”运行,优化用于预测而非提供关于分子结构如何影响目标性质的洞察。Koutsoukos等人 [41] 证明,对于一系列分子量几乎相同的烷基咪唑鎓ILs,即使是微小的结构变化(如碳链结构的重新排列或引入官能团)也能显著改变性质,产生从高度流动的玻璃形成液体到高熔点晶体盐的ILs。这些发现强调了深入理解结构-性质关系对于合理设计ILs的重要性。没有这种理解,跨不同IL家族外推结果可能会导致错误结论。在这种情况下,更简单、更易于解释的模型具有优势,因为它们允许将物理化学性质直接与分子结构相关联。此外,将不同的IL家族合并到统一的数据集中可能会掩盖同系系列或密切相关结构内的系统趋势。
QSPR建模中的一个关键步骤是通过分子描述符表示IL结构。选择分子表示方式(单独的离子与离子对)已被证明会影响模型性能 [32]、[42]。使用整个离子对的描述符的模型通常比仅依赖单个离子描述符的模型提供更高的准确性。值得注意的是,只有当通过结合来自阳离子和离子对的描述符构建统一的MLR模型时,才能获得接近理想的烷基铵氢硫酸盐的熔点和分解温度决定系数 [42]。
描述符本身可以属于不同的家族,如构型描述符、拓扑描述符、几何描述符、量子化学描述符等 [2]。量子化学(QC)描述符提供了关于分子及其相互作用的电子和几何结构的信息,通常比其他类型的描述符更准确和详细 [43]、[44]。它们的计算需要几何优化,这可以在不同的理论水平上进行。为了降低计算成本,许多QSPR研究采用半经验方法,如AM1 [9]、[10]、PM3 [11]、PM6 [17] 或PM7 [31]、[45]。然而,对于大规模的CAMD应用来说,从量子化学计算中获得描述符仍然是一个限制因素,因此使用更简单的描述符库更为实际。尽管如此,许多研究 [42]、[46]、[47]、[48] 表明,在QSPR模型中包含QC描述符可以显著提高预测准确性,因为它们捕捉了特定离子或官能团的独特电子特征。Row等人 [49] 比较了使用AM1、HF、MP2和B3LYP方法计算的描述符构建的QSPR模型,发现高级方法提供了更好的外部验证统计结果。Puzyn等人 [50] 报告称,基于半经验方法(PM6、RM1)和密度泛函理论(B3LYP泛函)获得的描述符的模型具有相当的准确性。相反,使用AM1和PM3衍生的描述符的QSPR模型表现较差。Li等人 [51] 认为,当(i)数据集相对较小,(ii)描述符与目标性质高度相关,以及(iii)可以在合理的计算成本下实现足够的准确性时,QC描述符特别有用。Low等人 [52] 进一步证明,将来自量子化学计算(例如前线轨道能量和相互作用能量)的详细信息添加到从一维和二维化学结构派生的简单分子描述符中可以提高模型性能。他们建议可以先使用半经验方法筛选大型数据集,然后对较小的、经过精炼的子集应用更高级的从头算或DFT计算。
尽管在ILs性质的QSPR研究中取得了显著进展,但仍存在几个挑战。大多数现有的QSPR模型是为非质子型ILs开发的,或者依赖于结合了结构多样性的非质子型和质子型ILs的大型混合数据集。这样的模型通常使用单个离子的简单描述符,并忽略了显式的离子间相互作用,这在应用于质子型ILs(PILs)时可能导致不准确甚至误导性的预测。PILs是一类特殊的ILs,通过质子从布伦斯特酸转移到布伦斯特碱形成 [53]、[54],产生具有质子供体和受体位点的离子,能够形成氢键。尽管PILs中的阳离子-阴离子相互作用主要由强库仑力控制,但这些“双重离子”[55] 氢键决定了离子的方向,促进了离子配对和聚集,并驱动了多样化的超分子(“纳米结构”)组装的形成,从而显著影响了可观察的物理化学性质 [56]、[57]、[58]、[59]、[60]。这些特征将PILs与非质子型ILs区分开来,并强调了为它们独特的结构特征和相互作用模式量身定制QSPR模型的迫切需求。除了库仑力和氢键相互作用外,许多研究 [61]、[62]、[63]、[64]、[65]、[66]、[67] 还证明了色散力在ILs中的关键作用。随着簇大小的增加 [62] 或阳离子烷基链的延长 [64]、[65]、[66]、[67],这些相互作用变得更加明显。在量子化学计算中考虑色散贡献已被发现可以改善相互作用能量与热性质或传输性质之间的相关性 [61],并产生更准确的体积、分子间距离和ILs中的离子方向 [63]。传统上,用于描述ILs的量子化学描述符是在气相中计算的,忽略了溶剂化效应。然而,对于PILs,溶剂化可以显著影响质子转移的能量学和通过酸碱相互作用形成的物种的结构。在PILs的计算建模中使用隐式溶剂模型已被证明会使质子转移平衡向带电物种的形成偏移;在某些酸碱系统中,由于缺乏分离离子的稳定作用,在气相中观察不到这种效应 [68]、[69]。
在这项工作中,我们通过应用量子化学描述符对代表性PIL子类(即烷基铵甲磺酸盐)的定量结构-热性质关系分析来解决这些挑战。基于烷基铵的PILs仍然是离子液体中最少被探索的子类之一。尽管自2015年 [70]、2021年 [71] 和2024年 [72] 以来,关于PILs的结构、性质和应用的综述文章数量有所增加,但关于其性质的实验数据仍然零散,一些最简单的代表物尚未被表征。我们关注两个关键方面:(i)溶剂化对QSPR模型中PILs结构表示的影响,以及(ii)基于气相计算的描述符和考虑溶剂化效应的描述符构建的QSPR模型性能的比较。QC描述符是从烷基铵甲磺酸盐PILs的单个阳离子和整个离子对的色散校正密度泛函理论(DFT)[85] 计算中获得的(见表1)。未考虑含有超过四个碳原子烷基链的阳离子的PILs,因为它们的熔点受到相邻阳离子烷基链之间的范德华相互作用的强烈影响 [57]、[65]、[66]。这些效应无法通过基于单个离子对的量子化学方法可靠地捕捉。为了保持一致性,即使熔点超过100°C,所有化合物在本工作中也统称为PILs。