植物自然会产生多种次生代谢物,主要是多酚类化合物,以抵御食草动物、病原体和疾病[1]。这些生物活性化合物因其潜在的治疗效果而受到越来越多的关注,因为它们可以显著预防或抑制各种健康问题[2]。从植物中提取这些化合物是分离这些代谢物的基本步骤,而这些化合物通常含量较低且对温度敏感。因此,选择合适的提取技术对于高效提取至关重要。工业和研究实验室广泛采用多种传统提取技术来分离和分析植物化合物。其中,浸渍、索氏提取、液-液分离和回流提取虽然是最常用的方法,但它们需要大量的溶剂、较长的提取时间以及较高的能源消耗,而且可能会损坏目标化合物[3]。在比较这些提取方法的效率、复杂性和目标化合物类型时,每种方法都有其独特的优势和局限性。实际上,浸渍是最简单且能源消耗最低的方法,适用于抗氧化剂和精油等敏感化合物,但其效率低于索氏提取和回流提取[4]、[5]。索氏提取法通常被认为是最有效的提取方法,特别是对于非挥发性和热稳定的化合物(如脂类、生物碱、色素等),因为它具有连续的溶剂回收系统,能够确保完全提取并最大限度地减少溶剂损失[6]。然而,这种方法较为复杂且能源消耗高,不适合热不稳定的化合物(如维生素、蛋白质、精油等),因为长时间加热可能会对其造成破坏[7]。相比之下,回流提取虽然也使用热量,但相对温和,提取速度更快,适用于提取热稳定的多酚类和黄酮类化合物,但如果监控不当,可能会降解敏感化合物[8]。液-液分离不是一种主要的提取方法,但它能高效地纯化和分离基于极性的化合物,因此在初步提取后分离亲水性和亲脂性组分时非常有用,尽管其复杂性在于需要精确选择溶剂并重复进行分离步骤[9]。所有这些提取方法都依赖于通常具有毒性和对环境不友好的溶剂。从植物提取物中完全去除溶剂是确保最终产品安全性和质量的重要步骤。因此,最终的提取物通常会残留溶剂,这会对健康构成风险,并引发对产品安全性的担忧。由于这些方法是分析样品制备的关键步骤,因此人们越来越关注更环保、更高效的策略,以减少溶剂的使用和能源消耗。
提取方法的选择及所需溶剂的选择将取决于提取效率、能源使用、化合物稳定性和产品安全之间的平衡。尽管绿色提取技术有所进步,但很少有研究系统地应用人工智能工具进行样品制备。这类方法可以大幅减少实验次数,提高重复性,并降低提取工作流程对环境的影响。机器学习为解决这类挑战提供了强大的框架,使计算机能够从数据和经验中学习,从而提高其进行分析、预测和分类的能力[10]。该框架包括监督学习(在标记数据集上训练模型以实现精确聚类和预测[11])、无监督学习(在未标记数据中识别模式以进行分析和聚类[12])以及强化学习(通过试错进行学习[13])。所有这些方法都为处理复杂的数据驱动任务提供了多样的工具。然而,将深度学习整合到样品制备优化中仍然较为罕见,尽管这样做可以通过捕捉复杂的溶剂-方法-分析物相互作用并将可持续性考虑直接纳入决策过程来提供明显优势。
决策算法被应用于各种领域,传统上依赖于基于原则的建模技术,通过简化的预定义结构来实现优化。最近,数据驱动的深度学习方法越来越受欢迎,它们使用高度参数化的架构直接从数据中学习,而不依赖于严格的数学模型[14]。虽然基于模型的优化和以数据为中心的深度学习通常被视为不同的领域,但它们在模型特异性和参数化方面代表了连续体[15]。然而,当面对小型数据集或模型面临更广泛的输入变化时,机器学习提出了数据增强技术,该技术通过各种变换创建人工添加的样本,从而帮助创建更大、更多样化的训练集,提高模型对未见数据的泛化能力[16]。
在分析样品制备中的传统优化策略(如响应面方法(RSM)和偏最小二乘(PLS)回归)已被广泛用于建模提取效率和植物化学成分的回收[3]、[17]、[18]。尽管这些方法提供了有价值的见解,但它们通常仅限于有限的响应变量,并依赖于预定义的数学关系,可能无法完全捕捉控制溶剂-化合物行为的复杂非线性相互作用。传统的机器学习技术(包括人工神经网络)已经显示出改进的预测性能,但往往只关注单一目标,很少考虑环境或可持续性相关约束[10]、[15]。相比之下,混合深度学习架构通过建模非线性和序列依赖性,同时实现了提取效率和可持续性指标的统一预测框架。
Deep Green Optimization(DGO)是一个新兴概念,指的是应用先进的优化技术(通常利用人工智能和机器学习)来提高复杂过程的效率和效果,包括实验室和工业方法。通过采用数据驱动的方法,DGO通常涉及使用大型数据集和先进算法来优化实验条件,从而最小化资源使用和环境影响,同时最大化产出[19]。例如,DGO通过优化溶剂选择、反应条件和能源输入来改进实验室实验,从而推广更环保的替代方案,并减少对有害化学物质的依赖[15]。
在绿色和可持续化学的背景下,近年来有几项研究特别探讨了使用计算工具来改进提取过程。事实上,机器学习可以成功预测提取产量,并为特定化合物类别(如多酚类、生物碱和精油)优化操作参数[17]、[18]。然而,大多数这些研究仅关注单一方法的优化或单个生物活性化合物的预测,而没有将多溶剂和多方法的数据集整合到一个统一的预测框架中。此外,尽管基于极性、毒性和沸点的溶剂选择已经成熟[3]、[20]、[21],但很少有研究强调利用人工智能进行决策,以推荐最佳的溶剂-方法组合,并量化环境和能源影响。
为了将实验实践与基于AI的优化相结合,本研究介绍了Deep Green Optimization(DeepGO)框架,这是一种将可持续性指标与混合CNN-LSTM(卷积神经网络-长短期记忆)模型相结合的新方法。与传统的人工智能方法(如标准的人工神经网络或支持向量机)不同,后者可能在处理多变量提取数据的高维性和复杂性时遇到困难,所提出的架构专门设计用于捕捉与溶剂性质相关的空间特征以及与提取条件相关的时间依赖性。这种设计能够同时预测十个输出变量,包括提取性能和可持续性指标。DeepGO框架的有效性通过其高预测准确性和识别最佳可持续提取路径的能力得到了证明,从而为绿色分析化学提供了一个强大的决策支持工具。
本研究的主要目标是通过分析不同条件下的植物数据来优化生物活性植物化合物的提取。将设计一种基于深度学习的方法,通过微调选定变量来预测最佳提取条件,从而有效利用溶剂并减少实验次数,以降低成本和节省时间。基于分析的数据,应用了决策算法来帮助选择合适的代谢物提取技术和溶剂。提出的分类方法将突出每种方法的相关性、效率和环境影响,从而对其性能进行全面评估。