《Journal of Chromatography A》:Machine-Learning Prediction of Retardation Factor and Tailing Propensity in Thin-Layer Chromatography
编辑推荐:
薄层色谱(TLC)方法开发依赖经验试错,本研究利用机器学习模型(AutoGluon框架)同时预测Rf值和拖尾现象,构建包含羧酸、硼酸等易拖尾化合物的实验数据库,模型对Rf的R2达0.888,拖尾分类准确率0.840,抑制拖尾的最小添加剂浓度预测准确率87.5%,验证了模型与色谱理论的一致性。
刘雄|张赫|段思佳|周佳艺|谭少成|周伟|刘牧青|刘超水|彭英子
湖南科技大学化学与化学工程学院,中国湖南省湘潭市411201
摘要
薄层色谱(TLC)方法的发展长期以来依赖于经验性的试错方法,导致效率低下。尽管机器学习已成功应用于预测保留因子(RF),但系统化预测拖尾现象的方法仍未得到探索,这限制了对分离质量的全面评估。为解决这一不足,本研究旨在开发机器学习模型,以同时预测TLC中的RF值和拖尾行为。通过实验测量构建了涵盖不同展开体系下多种易拖尾化合物的RF值和拖尾行为的数据集。利用AutoGluon自动化机器学习框架,建立了三个预测模型:一个RF回归模型、一个二元拖尾分类模型和一个最小添加剂浓度预测模型。结果表明模型性能优异:RF预测模型的决定系数(R2)为0.888;拖尾分类模型的平衡准确率为0.840;预测抑制拖尾所需的最小添加剂浓度的准确率达到87.5%。SHAP可解释性分析进一步证实,模型的决策逻辑与极性相互作用等基本色谱原理高度一致。本研究开发的模型为分析人员提供了快速可靠的决策支持,显著减少了实验试错,并缓解了拖尾等常见问题,从而提高了TLC方法开发的效率和可靠性。
引言
薄层色谱(TLC)具有简单、快速和低成本的优势,仍然是药物质量控制、天然产物分离和反应监测等领域不可或缺的分离和分析技术[[1], [2], [3], [4]]。在TLC分析中,目标化合物的保留因子(RF)和斑点形态是评估分离性能的关键指标。当RF值处于适当范围(例如0.3-0.5)且斑点呈对称形状且无显著拖尾时,通常可以实现最佳分离,以确保分离的可靠性和分析结果的准确性(图1)。
尽管TLC已广泛应用于化学、医学和环境等多个学科,但其方法开发仍然严重依赖经验性的试错方法[5,6]。RF值和斑点形状受多种因素的复杂相互作用影响,包括分子结构、吸附剂性质和流动相组成。因此,实现理想的分离往往需要反复调整溶剂组成或添加剂类型,导致优化周期延长[7,8]。这种基于试错的开发模式不仅耗时且耗费大量试剂,还显著降低了研发效率。因此,开发能够准确预测给定TLC系统中化合物的RF值和拖尾行为的预测模型对于提高方法开发效率具有重要意义。
近年来,机器学习(ML)因其能够从大型数据集中发现复杂的非线性模式而成为化学研究中的强大工具,而无需显式的物理模型[[9], [10], [11], [12]]。在色谱应用中,ML已取得显著成功[13,14]。例如,G. Beck等人开发了一个ML模型来预测液相色谱中的保留时间,决定系数(R2)为0.84,预测误差仅为3%[15]。Mo等人使用ML准确预测了手性化合物的保留时间[16]。在TLC领域,Kursa等人应用随机森林方法对薄层色谱中的保留常数进行了建模[17]。Do等人报告了一个基于ML的模型,能够预测多种极性溶剂系统中的RF值,误差通常低于10%[18]。Mo等人使用ML准确预测了多种溶剂系统中有机化合物的RF值曲线,并进一步揭示了TLC与柱色谱条件之间的统计相关性[19,20]。这些进展表明ML已成为色谱分析中的强大工具。然而,当前的研究主要集中在RF预测上,尚未有研究关注斑点拖尾的预测——这是分离质量的一个关键方面。这一研究空白使得在色谱优化过程中难以全面评估分离质量,从而影响了方法的整体可靠性。
为解决这一研究空白,我们系统地测量了两种常用展开体系(石油醚-乙酸乙酯和二氯甲烷-甲醇)中多种易拖尾化合物(包括羧酸、硼酸、酚类和含氮化合物)的RF值和拖尾行为,并利用ML预测了RF值和拖尾倾向。结果表明模型性能优异:RF预测模型的决定系数(R2)为0.888;拖尾分类模型的平衡准确率为0.840;预测抑制拖尾所需的最小添加剂浓度的准确率达到87.5%。本研究建立的模型为TLC方法开发提供了快速可靠的决策支持工具,实现了高效的条件筛选,减少了实验迭代次数,最终提高了分离的可靠性和实验生产力。
数据集构建
数据集是机器学习的基础。鉴于目前缺乏关于TLC拖尾现象的公开可用数据集,本研究通过实验测量了一系列易在TLC系统中产生拖尾的化合物的RF值和拖尾行为来构建数据集。测试化合物包括羧酸、硼酸、酚类和含氮化合物。实验中使用的TLC板购自上海浩鸿生物科技有限公司(HPTLC)
数据集
本研究使用石油醚-乙酸乙酯和二氯甲烷-甲醇溶剂系统实验测定了系列化合物的RF值和拖尾行为。所有不同展开溶剂系统下的化合物RF数据构成了数据集I。去除未迁移的样品(RF?=?0,无法进行拖尾评估)后,为其分配了“是否拖尾”的二元分类标签,形成了数据集II。在RF
结论
本研究开发的ML模型成功实现了TLC三个关键方面的高精度预测:保留因子(RF)、拖尾行为和所需最小添加剂剂量。基于SHAP框架的可解释性分析证实,模型的决策逻辑与基本色谱理论高度一致,其核心机制在于量化洗脱剂极性与化合物之间的协同作用。
作者声明
刘雄:概念构思、方法论、项目管理、监督、初稿撰写、审稿与编辑。张赫:实验研究、初稿撰写、验证。段思佳:数据整理、验证。周佳艺:数据整理。谭少成:数据整理。周伟:实验研究、验证。刘牧青:监督、可视化。刘超水:方法论、审稿与编辑。彭英子:方法论、实验研究、项目管理、监督。
CRediT作者贡献声明
刘雄:撰写 – 审稿与编辑、初稿撰写、监督、项目管理、方法论、概念构思。张赫:初稿撰写、验证、实验研究。段思佳:验证、数据整理。周佳艺:数据整理。谭少成:数据整理。周伟:验证、实验研究。刘牧青:可视化、监督。刘超水:撰写 – 审稿与编辑、方法论。彭英子:监督、项目管理、方法论。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
致谢
本工作得到了湖南省自然科学基金(项目编号2024JJ5136)的财政支持。