面向溶剂混合体系的有机化合物溶解度数据集:从实验值到机器学习基准的统一构建与可视化探索

《Scientific Data》:Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures

【字体: 时间:2026年03月21日 来源:Scientific Data 6.9

编辑推荐:

  在合成化学、材料科学和药物设计中,有机化合物在溶剂混合物中的溶解度评估复杂且缺乏系统性数据。为此,研究人员构建了一个大规模的、统一格式的实验溶解度数据集,涵盖了810种化合物、750种二元溶剂混合物在252-383K温度范围内的175,166个溶解度值,并开发了交互式在线工具。该数据集为预测溶剂混合物中的溶解度提供了全面的基准。

  
在化学合成、新药研发和先进材料创制中,溶解是物质相遇、反应和转化的第一步。溶解度,这个看似简单的物理化学性质,却常常成为决定一个化学反应能否高效进行、一种药物能否被有效递送、一种新材料能否成功制备的关键瓶颈。尤其在实际的工业生产和实验室操作中,为了优化反应条件、提高产率或控制结晶过程,使用单一溶剂常常力有未逮,而需要依赖两种或多种溶剂按特定比例混合成的“混合溶剂”。然而,问题随之而来:一个有机化合物在某种特定的混合溶剂中,到底能溶解多少?这个数值并非其各自纯溶剂中溶解度的简单加和,而受到复杂的分子间相互作用影响,预测起来异常困难。
传统的“试错法”不仅效率低下、耗费大量溶剂与样品,更难以系统性地探索广阔的化学空间。尽管计算化学和机器学习为性质预测带来了曙光,但一个高质量、大规模、覆盖多样化合物与溶剂组合的实验数据集,是其发展的基石。遗憾的是,此类数据长期以来散落在数以千计的研究论文中,格式不一,犹如信息孤岛,难以被有效整合与利用。正是为了解决这一核心痛点,一项旨在绘制“混合溶剂溶解度图谱”的研究应运而生。
这项研究发表在《Scientific Data》上,其核心贡献是构建了一个迄今为止规模最大、系统性最强的实验溶解度数据集。研究团队从1115篇经过同行评议的学术文献中,像采矿一样,精心提取并整理了175,166个实验测定的溶解度数据点。这些数据涵盖了810个结构各异的有机化合物(溶质),以及由它们与750种独特的二元溶剂混合物构成的3001种独特的“溶质-混合溶剂”体系,温度范围横跨寒冷的零下21摄氏度(252 K)到温暖的110摄氏度(383 K)。更为关键的是,研究者们并非简单罗列数字,而是将所有的溶解度数据、以及每个溶质和溶剂的二维分子结构,全部转换成了统一的、机器可读的格式。这就像为散乱的书籍建立了标准编目和索引,使得后续的数据分析、模型训练和算法验证变得前所未有的便捷。为了让这份宝贵的化学“地图”更易于探索,团队还配套开发了一个交互式的在线可视化与导航工具,研究人员可以直观地查询、筛选和比较特定体系下的溶解度行为。
为构建此基准数据集,研究人员主要采用了以下几个关键技术方法:首先,是大规模文献数据挖掘与提取,从超过一千篇论文中系统收集实验值;其次,是数据标准化与格式化,将来自不同文献、单位不一的原始数据统一转换为一致的机器可读格式(如摩尔分数);再次,是化学结构处理,为所有溶质和溶剂组分生成并存储标准的简化分子线性输入规范(SMILES)字符串,用于表示分子结构;最后,是交互式网络应用开发,利用现代Web技术创建在线平台,实现数据的可视化探索与共享。
研究结果
1. 数据集的规模与范围
研究构建的数据集包含了175,166个实验溶解度值,对应于810个有机溶质和750种二元溶剂混合物,形成了3001个独特的溶质-溶剂系统。所有数据均关联了温度(252-383 K)和精确的溶剂组成。
2. 数据的标准化与机器可读性
所有溶解度值均被统一转换为摩尔分数(x)并记录其对数值(log10(x)),同时记录了完整的实验温度(T)和溶剂组成(质量分数、体积分数或摩尔分数)。每个溶质和溶剂组分的化学结构均以简化分子线性输入规范(SMILES)字符串表示,确保了数据的可计算性。
3. 数据分布与化学空间覆盖
分析表明,数据集覆盖了广泛的溶质类型(包括药物分子、中间体、天然产物等)和溶剂种类(水、醇类、烷烃、芳香烃等)。二元溶剂混合物的组成比例范围完整,温度范围宽泛,为机器学习模型训练提供了多样性的样本。
4. 交互式在线工具的可用性
开发了一个公开可访问的交互式Web应用程序。用户可通过该工具按溶质、溶剂、温度、溶解度值范围等条件筛选数据,可视化溶解度与温度或组成的关系曲线,并直接下载所需数据子集。
结论与讨论
本研究成功创建并公开了一个大规模、高质量、标准化、机器可读的有机化合物在二元溶剂混合物中的实验溶解度数据集,并配备了交互式在线使用平台。这项工作的重要意义在于:
首先,它填补了关键数据空白。在混合溶剂溶解度这一重要但数据零散的领域,本数据集首次提供了系统性的基准,将分散的知识汇集成了结构化的资源。
其次,它极大地推进了数据驱动的溶解度预测研究。统一格式的数值与对应的分子结构(SMILES)信息,使其成为开发和验证各种机器学习(ML)和人工智能(AI)模型的理想测试平台。研究人员可以基于此数据集,训练能够从分子结构直接预测其在任意混合溶剂中溶解度的先进模型,加速溶剂筛选和过程设计。
再者,数据集的价值横跨多个关键应用领域。在药物设计(Drug Design)中,有助于预测活性药物成分(API)的溶解性和制剂研究;在合成化学中,可优化反应溶剂以提高产率;在材料科学中,能辅助控制结晶过程以获得特定晶型。它为这些领域的理性化、数字化设计提供了底层数据支撑。
最后,数据的可及性与可视化得到了革命性提升。随数据集发布的在线工具极大地降低了数据使用门槛,使得无论是计算化学家还是实验化学家,都能直观、便捷地探索和利用这些数据,促进了知识的快速传播与应用。
总之,这项研究产出的不仅是一个数据集,更是连接实验化学与计算化学、推动化学研究迈向“数字化”和“预测性”新时代的重要基础设施。它为解决长期困扰化学家的混合溶剂溶解度预测难题,奠定了坚实的数据基石,并指明了通过数据科学与人工智能技术解决复杂化学问题的新路径。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号