《Communications Chemistry》:DyeDactic workflow to predict halochromism of biosynthetic colourants
编辑推荐:
本研究针对生物合成色素在纺织染色应用中存在的halochromism(pH依赖性变色)预测难题,开发了融合图神经网络(MPNN)筛选与时间依赖密度泛函理论(TD-DFT)计算的DyeDatic多尺度工作流。该研究通过构建647种天然色素的数据库,优化了SCS-ωPBEPP86等双杂化泛函的计算精度(MAE=0.133 eV),并引入pKa预测和构象采样技术,成功预测了紫草红(orcein)等复杂体系的pH变色行为,为可持续染料设计提供了计算工具。
在追求可持续制造的浪潮中,纺织行业正致力于用微生物生产的生物合成色素替代传统合成染料。然而,天然色素存在光稳定性差、染色性能不足等挑战,尤其其颜色常随pH值变化(halochromism现象),这给工业化应用带来极大不确定性。如何精准预测色素在不同pH环境下的颜色表现,成为开发生物合成染料的关键科学问题。
近日,诺丁汉大学Dmitry S. Karlov等人在《Communications Chemistry》发表研究,提出了名为DyeDatic的多尺度计算工作流。该工作流创新性地结合了机器学习快速筛选与量子化学精确计算,能够准确预测生物合成色素的halochromism特性。研究人员首先构建了包含647种天然色素的数据库,通过对比分析发现天然色素在亲水性、分子大小等结构特征上与工业染料存在显著差异。例如,天然色素的脂溶性分布偏向亲水端(类似媒染染料),且缺乏易电离基团,这解释了其直接用于疏水性材料染色的局限性。
为建立高效的预测模型,团队系统评估了多种计算方法的表现。结果显示,基于消息传递神经网络(MPNN)的模型在经过天然色素数据微调后,预测误差(MAE)从0.32 eV显著降低至0.18 eV。在量子化学计算方面,双杂化泛函SCS-ωPBEPP86结合隐式溶剂模型(CPCM)表现出最优性能(MAE=0.133 eV),而ωB97X-D4泛函则在计算成本与精度间取得最佳平衡。
研究的关键创新在于建立了完整的halochromism预测流程:首先通过ChemAxon pKa预测工具确定色素分子的可电离基团,计算不同pH下质子化物种的分布比例,然后对各物种进行TD-DFT计算获得紫外-可见吸收光谱,最后通过加权求和得到任意pH下的颜色预测。该工作流在四种典型天然色素(大黄素emodin、醌茜素quinalizarin、胆绿素biliverdin、紫草红orcein)上得到实验验证。特别是对于构象灵活的胆绿素,研究引入副本交换分子动力学(REMD)模拟进行构象采样,显著改善了颜色预测精度,证明考虑显式溶剂效应对于柔性分子至关重要。
作为应用示范,研究还探究了红色色素bikaverin在高压灭菌条件下变蓝的机制。通过DORAnet分子生成引擎构建衍生物库,结合计算预测发现,乙醇胺取代产生的氨基化衍生物能在酸性pH下呈现蓝色,这解释了培养液变蓝的现象。该方法为理性设计新型生物合成色素提供了强大工具。
本研究发展的DyeDatic工作流不仅适用于纺织染料开发,还可扩展至荧光材料、光动力治疗试剂、光氧化还原催化剂等领域。通过机器学习与量子化学的多层次整合,该工作流实现了从大规模虚拟筛选到精准性质预测的全流程覆盖,为可持续功能性色素的计算机辅助设计建立了新范式。
主要技术方法包括:1)构建647种天然色素的光谱数据库;2)采用消息传递神经网络(MPNN)进行快速筛选;3)运用时间依赖密度泛函理论(TD-DFT)进行电子激发能计算;4)结合pKa预测和物种分布计算pH依赖性颜色;5)对柔性分子采用副本交换分子动力学(REMD)进行构象采样。
研究结果方面,通过"天然色素的探索性分析"揭示了天然色素与工业染料在结构特征上的系统性差异;"过渡能预测技术的性能比较"确立了双杂化泛函的计算优势;"Halochromic性质预测与实验验证"证实了工作流对四种色素的预测准确性;"工作流应用:bikaverin案例"展示了其在机理研究中的实用价值。
该研究的核心结论是:DyeDatic工作流通过多尺度计算策略,成功解决了生物合成色素halochromism行为的预测难题。其重要意义在于将数据驱动的机器学习与第一性原理计算有机结合,既保证了大规模筛选的效率,又确保了预测结果的可靠性,为可持续染料开发提供了新的计算范式。未来通过引入更精确的溶剂化模型和振动光谱分析,有望进一步拓展其在光电功能材料设计中的应用前景。