2025年韦恩州立大学化合物描述符数据库中化合物的添加与更新，以便与溶剂化参数模型配合使用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Chromatography A》：Addition and Update of Compounds for the 2025 Wayne State University Compound Descriptor Database for Use with the Solvation Parameter Model

【字体：大中小】 时间：2026年03月08日 来源：Journal of Chromatography A 4

编辑推荐：

　　本研究通过气体-液体和液体-液体分配常数数据，扩展了WSU-2025化合物描述符数据库，新增116种化合物（含硫化合物、支链烷烃、烯烃、羧酸等家族），并更新13种现有化合物的描述符。通过多来源数据验证，发现基于分配常数的描述符平均偏差分别为E(5.5%)、S(1.6%)、A(9.5%)、B(3.9%)、L(1.5%)，表明该方法适用于环境、生物及化学分配系统的建模参考。

Colin F. Poole

美国密歇根州底特律韦恩州立大学化学系，邮编48202

摘要

溶剂化参数模型使用六个化合物描述符来描述中性化合物在双相系统中的传输特性，这些描述符包括：过量摩尔折射率（E）、偶极性/极化率（S）、有效氢键酸性（A）、有效氢键碱性（B）、McGowan特征体积（V），以及以正十六烷为溶剂时25°C下的气液分配常数。对于20°C的液体，V描述符和E描述符可以通过结构和折射率值计算得出。其他描述符则是通过色谱法、液-液分配或溶解度测量等实验方法获得的。在本研究中，利用来自多达三十五种气-溶剂系统和十六种水-溶剂系统的分配常数，为WSU-2025化合物描述符数据库中缺失的116种化合物分配了描述符。这些化合物包括五种有机硫化合物、六种二烷基胺、七种支链烷烃、十三种烯烃和二十一种羧酸。对于WSU-2025描述符数据库中最初基于少量实验数据或部分描述符值估算的十三种化合物，提供了更新后的描述符。通过仅使用实验分配常数和本研究中确定的校准模型重新计算这些描述符，验证了其准确性。与WSU-2025描述符数据库中的值进行比较后发现，仅基于分配常数分配的描述符没有显著偏差，平均偏差分别为：E为0.083，S为0.040，A为0.038，B为0.015，L为0.068，对应的百分比分别为5.5%、1.6%、9.5%、3.9%和1.5%。这些描述符适合作为环境、生物和化学分配系统建模的次要参考值。建议将WSU-2025数据库作为校准化合物的主要来源，因为与色谱保留因子相比，分配常数的实验不确定性更大。

引言

溶剂化参数模型对我们理解和定量处理双相系统中中性化合物的传输特性产生了积极影响[1]，包括在色谱学以及环境和生物系统中的众多应用。典型应用包括气相色谱、液相色谱、超临界流体色谱、薄层色谱和胶束及微乳液电动色谱中的柱子特性分析和保留模型建立[[2], [3], [4], [5]]；液-液萃取和固相萃取的系统选择[6]；用于模拟生物系统的替代色谱模型的识别[7,8]；以及化合物的物理化学和生物物理性质的预测[[9], [10], [11]]。此处仅引用了一些综述文章和最新研究，以便读者能够查阅现有的大量文献。

溶剂化参数模型利用六个定义好的描述符来描述中性化合物的自由能相关传输特性，并通过两个主方程描述从理想气相到凝聚相的传输过程，或者两个凝聚相之间的传输过程

\log S P = c + e E + s S + a A + b B + l L

或两个凝聚相之间的传输过程

\log S p =x+eE+sS+aA+bB+vV

其中SP通常是色谱系统中的保留因子，或在液-液、生物或环境系统中的分配常数。斜体小写字母表示系统常数，它们具有与化合物描述符互补的特性，并具有该系统的特征值。大写字母表示化合物描述符，用于表征化合物参与特定分子间相互作用的能力，与系统属性无关。溶剂化参数模型的发展在几篇综述文章中有所描述[1,10,12,13]。

方程（1）和（2）中的化合物描述符包括：过量摩尔折射率E，表示化合物由于存在松散结合的n电子和π电子而具有额外的分散相互作用能力；S描述符表示由化合物的偶极性和极化率（包括取向和诱导相互作用）引起的偶极型相互作用；A和B描述符分别表示化合物的整体氢键酸性（氢键供体能力）和氢键碱性（氢键受体能力）。L描述符是方程（1）中使用的以正十六烷为溶剂时25°C下的气液分配常数，V描述符是方程（2）中使用的McGowan特征体积。L和V描述符分别表示分散相互作用对传输过程的贡献，以及当供体相为气体时溶剂中空穴形成的相反贡献，或者当传输发生在两个凝聚相之间时空穴形成的差异。V描述符可以通过结构计算得出[14]，而20°C时液体的E描述符可以通过化合物的特征体积和折射率计算得出[15]（见第2.2节）。其他描述符以及气体和固体的E值通常是通过色谱法、液-液分配或在校准系统中的溶解度测量获得的实验量[[16], [17], [18], [19]]。

2020年，我的研究小组发布了一个化合物描述符数据库（WSU-2020），用于与溶剂化参数模型一起使用[18]，并在2025年进行了扩展和更新（WSU-2025）[20]。该数据库的独特之处在于所有实验测量都是使用标准方法和质量控制程序在少数合作实验室中获得的，以提高数据质量。WSU-2025数据库包含了387种化合物的描述符，显著降低了柱子特性分析和保留模型建立的不确定性，以及物理化学性质的预测准确性[20,21]。已经提出了使用多技术方法向WSU-2025数据库添加更多化合物的指南[19]。虽然这仍然是首选方法，但我想评估是否可以使用文献中的气-液和液-液分配常数来创建一个次要的化合物集合，以扩展WSU-2025数据库在环境和生物分配建模方面的覆盖范围，因为这比建模色谱保留因子要求的精度要低。因此，我建议WSU-2025数据库仍应作为模型校准的主要参考来源，而对于这些应用和精度要求较低的应用，则应更加谨慎地使用这个次要集合中的化合物。

Zissimos等人[22]提出使用四种水相双相系统（环己烷-水、甲苯-水、氯仿-水和辛醇-水）中获得的分配常数来为具有预先分配的E描述符的化合物分配S、A和B描述符的值。然而，这些系统中和系统常数的相对较小值导致S和A描述符的分配效果较差[23]。此外，系统常数的较大贡献限制了可以研究的具有容易确定的实验分配常数的化合物的范围[23,24]。小数据集的另一个普遍问题是，一个分配常数的极端值可能会影响所有描述符的分配值，使其偏离真实值[23]。将水相分配系统的数量增加到六个可以改善A描述符的分配[23]。然而，这种方法仅适用于E描述符可以预先分配的情况，且不允许分配L描述符。除了通过液-液分配外，建议结合两种水相双相系统和六种完全有机的双相系统来进行描述符分配[19,23]。L描述符通常通过气相色谱在低极性固定相上确定[25]。对于挥发性化合物，也可以使用顶空气相色谱确定的气-溶剂分配常数[26,27]。在本报告中，评估了结合气-溶剂和水相双相分配常数来分配化合物描述符的方法，利用了文献中相对较大的实验数据库[见第2.1节]。此外，这种方法使我们能够为WSU-2025描述符数据库中未包含的工业上和环境中重要的有机硫、支链烷烃、烯烃和羧酸类化合物分配描述符。

数据来源

25°C下的气-水[28]、气-辛醇[29]、气-1,2-二氯乙烷[30]、气-氯仿[31]、气-四氯化碳[31]、气-丁-2-酮[22]、气-环己酮[32]、气-三乙二醇[33]、气-丙酮[34]、气-丙腈[35]、气-甲醇[36]、气-乙醇[36]、气-丙-1-醇[36]、气-丙-2-醇[36]、气-丁-1-醇[36]、气-丁-2-醇[36]、气-异丁醇[36]、气-t-丁醇[36]、气-戊醇[36]、气-3-甲基丁-1-醇[36]、气-己醇

结果与讨论

分配模型的校准需要包含足够数量的不同化合物的数据集，这些化合物在WSU-2025描述符数据库中具有描述符，以满足通过多元线性回归分析分配具有化学意义的系统常数的一般要求[[10], [11], [12], [13]]。通常需要超过20种具有低相关性不同描述符值的化合物。本研究的另一个要求是数据来源必须包含足够的信息

结论

使用来自多种来源的35种气-溶剂系统和16种水-溶剂系统的分配常数构建了校准模型。这些模型用于为WSU-2025描述符数据库中目前缺失的116种化合物分配描述符，包括5种有机硫化合物、6种烷基胺、7种支链烷烃、13种烯烃和21种羧酸的新家族。为WSU-2025描述符数据库中最初的13种化合物提供了更新后的描述符

CRediT作者贡献声明

Colin F. Poole：撰写原始草稿、验证、方法学、正式分析和概念化。

利益冲突声明

作者声明与本研究无利益冲突

热点排行

新闻专题

联系信箱：

粤ICP备09063491号