利用数据模型对金属有机框架合成过程进行数据管理与分析
《Journal of Chemical Information and Modeling》:Data Management and Analysis of Metal–Organic Framework Synthesis Using Data Models
【字体:
大
中
小
】
时间:2026年05月11日
来源:Journal of Chemical Information and Modeling 5.3
编辑推荐:
高分辨率图片下载 MS PowerPoint 幻灯片
金属有机框架(MOFs)的高产率和高纯度合成在很大程度上取决于合成过程的细节。因此,对合成过程及其相关表征数据的机器可读、可查找、可访问、可互操作和可重用的(FAIR)文档记录至关重要,以确保可重复性,并实现数据驱动的分析和
高分辨率图片下载 MS PowerPoint 幻灯片
金属有机框架(MOFs)的高产率和高纯度合成在很大程度上取决于合成过程的细节。因此,对合成过程及其相关表征数据的机器可读、可查找、可访问、可互操作和可重用的(FAIR)文档记录至关重要,以确保可重复性,并实现数据驱动的分析和系统的合成优化。在这里,我们展示了一个基于 JSON Schema 数据模型开发的 MOFs 合成和表征的数据处理工作流程。通过两种 MOF 系统 Fe-对苯二甲酸酯 MOF 和 MOCOF-1 的合成数据及其后续的粉末 X 射线衍射(PXRD)表征,证明了该数据模型的可行性和实用性。该数据模型支持开发一个集成工作流程,以(1)将来自表格或电子实验笔记本(ELN)的合成数据解析为标准化的 JSON 格式,(2)验证数据集是否存在错误和不完整之处,(3)将数据序列化为标准的数据交换格式 MPIF 和 XDL,以及(4)使用决策树分析 PXRD 数据,以确定控制相选择性和产率的关键合成参数。该数据模型和工作流程具有模块化且可扩展的特点,可以适应其他数据源、表征方法和 AI 分析工具。所提出的数据模型策略使 MOF 合成过程更加 FAIR(可查找、可访问、可互操作和可重复),促进了合成化学的数字化,并加速了发现过程。
**引言**
金属有机框架(MOFs)是高度可设计的多孔材料,广泛应用于气体储存、分离、传感和催化领域。(1?5) 它们的形成对各种反应参数非常敏感,通常难以合理解释和预测。数据科学的最新进展,包括人工智能(AI)和机器学习(ML),提供了强大的工具,以数据驱动的方式分析 MOFs 的形成,从而实现合成条件的预测、优化和加速发现。(6?18) 当数据集包含“失败实验”时,这种数据驱动的方法尤其有效,(19?22) 这突显了除了发布成功结果之外,严格的数据管理的重要性。然而,在应用数据驱动方法时,数据的机器可读性以及完整性和标准化往往是一个挑战。(23,24) 合成过程通常以文本形式记录,无论使用的是物理笔记本还是电子实验笔记本(ELN)。(25) 这种文本记录不仅机器可读性差,而且不够标准化,容易出现错误、模糊或不完整的描述。大多数发表的文章和主要的 MOFs 数据库,如 CSD MOF Collection(26) 和 CoRE MOF(27),其条目仅提供这种文本数据。虽然表格通常作为一种更易于机器读取的格式,但它们仍然容易出错,并且仅限于没有层次结构的扁平结构。这些传统的数据记录方式降低了数据驱动方法的有效性,尤其是在数据被重新使用时,有时还会导致合成结果的可重复性较差。(28) 此外,非标准化的数据格式需要为特定的数据集开发自定义脚本,从而导致代码的可重用性较差和软件开发的不可持续性。这些问题在大型协作项目或数据/软件共享时尤为明显。
为了解决这些问题,提出了 FAIR(可查找、可访问、可互操作、可重复)的数据管理原则(29?33) 和 FAIR4RS 研究软件管理原则(34)。根据这些原则,已经开发了几种层次化的数据格式和指南,例如 Cronin 及其同事为通用化学合成开发的化学描述语言(XDL)(35),EU4MOFs 为 MOF 合成开发的材料制备信息文件(MPIF)(36) 以及其他格式(37?39)。虽然这些标准化和结构化的格式对数据和软件管理(包括分析和重用)很有帮助,但将其实际应用于化学合成的工作流程需要大量的工作,因此并未得到广泛采用。作为一种替代策略,可以使用自然语言处理(NLP)(15,33,40,41) 或最近的大语言模型(LLMs)(11,38,42?44) 对大型文献数据进行文本挖掘。尽管这种方法可以提取一些参数,如连接分子和溶剂身份,但详细的合成协议难以解析,尤其是使用 LLM 时,解析的准确性也值得怀疑。(36) 因此,在工作流程中实施 FAIR 数据格式是实现准确高效的数据驱动方法的关键。
在数据科学中,数据模型用于管理大量数据,促进机器可读性、标准化和数据完整性。数据模型描述了数据格式、结构、数据类型、所需属性和其他预期的数据属性。它可以直接用于验证数据完整性,同时确保数据的机器可读性和标准化结构。数据模型还通过在模型驱动工程(MDE)中充当中心蓝图,实现数据管理和分析软件的高效和可持续开发,MDE 从高级模型系统地派生实现和相关代码。(45) 有几种用于化学的数据模型,例如用于催化数据? EnzymeML 数据模型(46) 和用于分析数据? Allotrope 简单模型(ASM)(47),但数据模型和 MDE 在化学合成综合数据管理中的应用尚未得到充分展示。在这里,我们展示了数据模型在统一管理 MOF 合成数据方面的可行性和实用性,将格式化、验证、序列化和分析整合到一个工作流程中。我们构建了一个数据模型,捕获了 MOFs 的合成过程和粉末 X 射线衍射(PXRD)测量结果,并将其应用于两个数据集:(1) Fe-对苯二甲酸酯 MOF 的合成(48,49) 和 (2) 包括失败合成的 MOCOF-1 的合成(50)。基于该模型,我们实现了一个工作流程,将来自表格或 ELN 导出的数据解析为标准化的层次结构,验证其错误和不完整性,将其序列化为 XDL 和 MPIF 以便数据交换,并支持数据驱动的分析以确定关键合成参数。这种方法也可以转移到其他材料类别和研究领域。
**结果**
**数据模型**
XDL 格式之前是为有机和纳米材料的合成自动化开发的,涵盖了大多数通用合成操作的逐步描述。(51) 基于 XDL 格式,我们使用开源软件 MetaConfigurator 编写了用于 MOF 合成的 JSON Schema 语言数据模型。(53) 创建了一个模式来定义合成信息,包括试剂和步骤(如混合或加热)(图 1,图 S1,表 S2),另一个模式涵盖了通过称重和 PXRD 进行的产品表征(图 S2,表 S3)。通过两个用例证明了其可行性和实用性。
**用例 1:数据格式化、验证和序列化**
在 Fe-对苯二甲酸酯(Fe-BDC)MOFs 的合成数据格式化、验证和序列化的基本工作流程中展示了 MOF 合成数据模型的应用,尽管其成分简单,但表现出多种不同的相。从单一的有机连接剂和 Fe 盐出发,可以形成四种不同的框架:MIL-88B、(48) MIL-101、(54,55) MIL-53、(56,57) 和 MIL-68 (58,59)(图 2a)。这四种相具有广泛的机械性能,从柔性的 MIL-88B 和 MIL-53 到刚性的 MIL-101 和 MIL-68。因此,应用适当的合成条件以获得所需的相非常重要。然而,文献中对合成方法的描述往往不完整或缺失,限制了可重复性。(48) 进行了七次合成实验,改变了金属盐、试剂用量、调节剂和反应温度,(图 2b,表 S1),并通过 PXRD 对产物进行了表征(图 S3)。合成条件记录在表格中,同时还记录了通过将 PXRD 图谱与文献比较来确定的产品相的信息,这是记录 MOF 合成的传统方式。PXRD 测量的元数据通过命名相应文件隐式记录。
**工作流程:MOF 合成的格式化、验证和序列化**
在 MOF 合成的格式化、验证和序列化工作流程中(图 3),每个数据操作都是使用从数据模型生成的数据处理 API 用 Python 编程的。(60) 我们首先使用 MetaConfigurator 将合成条件表从 CSV 转换为 JSON 文档,然后根据数据模型进行解析。PXRD 数据被转换为 X-Y 数据(XYD)格式,同时将 PXRD 元数据编码到文件名中也进行了解析。使用 jsonschema Python 库(61) 进行数据验证,该库自动检查缺失的所需属性或数值类型与数据模型的不匹配。为了证明这种标准化数据的可重用性,我们将数据序列化为两种现有格式:XDL 和 MPIF。由于数据模型基于 XDL,序列化为 XDL 很直接。序列化为 MPIF 是使用 TypeScript 版本的数据处理 API 和 MPIF 的 TypeScript 库实现的。(62)
整个工作流程能够自动处理 Fe-对苯二甲酸酯 MOF 合成的七次实验条目,进行格式化、验证和序列化为 XDL 和 MPIF。所需属性的验证减轻了程序描述的不完整性,而序列化为常见格式则促进了数据的重用,尤其是通过发布符合 MPIF 标准的 MOF 合成结果。获得的 MPIF 文件被上传到数据存储库 DaRUS,(63),符合 FAIR 数据发布原则(见数据可用性)。
**用例 2:ELN 集成、文本解析和数据分析**
作为第二个用例,开发了一个高级工作流程,包括 ELN 的集成、使用 LLM 进行文本解析、处理 PXRD 数据以及基于 ML 的数据分析,以关联合成条件和 MOF 形成。该工作流程应用于 Endo 等人最近报道的 183 个 MOCOF-1 样本的大数据集,MOCOF-1 是一种结合了共价有机框架(COFs)特征的特殊类型的 MOF(50)。(50) 这种材料是通过 5,10,15,20-四(4-氨基苯基)卟啉钴(II)(Co(tapp)和对苯二甲醛(TPA)之间的同时延伸和亚胺缩合反应构建的,具有出色的结晶性、多孔性和化学稳定性。由于其合成涉及两种不同类型的聚合反应,因此对反应条件非常敏感。不理想的条件会导致副产物,如 COF-366-Co(具有相同构建块的 COF)、(64,65) 非晶态协调聚合物 [Co(tapp)]nXm、(65) 或单体 Co (tapp) 的溶液,这些副产物缺乏协调或缩合连接。(50) 为了实现 MOCOF-1 的选择性形成,系统地测试并记录了 183 组实验条件,其中包括许多在先前论文中未报告的“失败”实验。因此,这个数据集作为评估可扩展性、ELN 集成以及使用正面和负面结果训练决策树的测试案例。
**图 4:MOCOF-1 合成数据集**
(a) MOCOF-1 和副产物的合成方案和结构。Tr, 三苯甲基;DMT, 4,4'-二甲氧基三苯基。
(b) 电子实验笔记本 Sciformation ELN 上的合成条目示例,显示了化学品及其用量以及文本程序描述的初始部分。
合成过程包括化学品及其用量的表格以及一些文本描述,由 Sciformation ELN 仪器记录(图 4b)。所有固体产物都通过 PXRD 进行了表征,以确定产品相(图 S5)。由于PXRD无法检测到非晶相(如[Co(tapp)]nXm),因此通过结合其他表征技术(如N2吸附和1H核磁共振(NMR))识别出一些单相形成的条目,具体细节在前一篇报告中已有说明。(50)通过与这些纯相样品的比较,PXRD可以作为粗略估计产品纯度的代理测量方法。固体产品的质量也记录在Sciformation ELN中,这可以近似计算出包括未收集的溶液相产物Co(tapp)在内的相产量。基于用例1的基本工作流程,开发了一个处理这些数据的工作流程(见图3)。Sciformation ELN中的数据被导出为JSON实例。实验程序的文字描述使用LLM gpt-4.1.-mini(66)解析为数据模型定义的属性,并按照用例1中的描述进行映射。通过使用手动实现规则的脚本验证了LLM的文本解析准确性。LLM产生的结果与基于规则的脚本的结果一致,这与之前报告中强调的LLM在提取合成细节方面的不可靠性形成对比。(36)这种高准确性可以归因于使用了提供标准化JSON格式化学信息的ELN,以及所有文字描述都由同一作者编写的事实。为了验证,使用JSON Schema语言为MOF合成模式增加了额外的约束,例如正则表达式模式、最小值和最大值以及枚举(有限选项)。修改后的模式允许对数据进行精确验证。使用用例1中描述的脚本将格式化的数据序列化为MPIF和XDL格式。该工作流程能够通过一个命令从ELN数据生成183个MPIF文件,显示出对可重复数据发布的可扩展支持。
为了进一步分析表征数据(包括PXRD图谱),工作流程被扩展为两步估计产品产量:首先,通过归一化、基线减法和与纯相参考图谱的线性组合拟合,从PXRD图谱中估计各个产品相的摩尔分数。参考图谱是通过匹配检索到的元数据(X射线源和样品架)来选择的。注意,这种定量方法仅提供相摩尔分数的近似值,因为PXRD图谱的峰强度可能受许多因素影响。其次,通过将相摩尔分数与前体的数量以及从API检索到的产品质量结合起来计算每个相的产量。然后,使用决策树模型分析反应条件与MOCOF-1形成之间的关系。为了弥补模型参数众多但结构简单的问题,采用主要产品相作为目标值,而不是像在以前的MOF合成决策树应用中那样使用单个相的产量。(20,67)训练有素的模型在前三层识别出导致四种不同主要产品形成的关键参数(见图5a)。第一个关键参数是Co(tapp)前体,使用4,4’-二甲氧基三苯甲基保护的先前体Co(tdpp)会优先形成MOCOF-1。这种行为可能与我们之前的发现有关,即4,4’-二甲氧基三苯甲基阳离子在Co tdpp脱保护时缓慢氧化CoII,从而促进MOCOF-1的形成。(50)使用Co(tdpp)时,决策树表明每TPA的高水量对于避免形成COF-366-Co很重要。这种效应可以通过亚胺键的水解来解释,从而抑制了过度的亚胺缩合。所用酸试剂的pKa也被发现对获得MOCOF-1而不是Co(tapp)很重要,这可能控制了4,4’-二甲氧基三苯甲基醇和4,4’-二甲氧基三苯甲基阳离子之间的平衡,这对于上述的CoII氧化是必要的。通过完整的树可以识别出更重要的条件(见图S6)。
为了进一步研究反应条件的影响,我们开发了绘制凸包的软件。虽然决策树提供了许多参数下相选择性的定性信息,但在这里我们专注于获取关于每个参数的MOCOF-1产量的定量信息。由于决策树确定酸试剂的pKa对MOCOF-1的形成至关重要,我们创建了MOCOF-1产量与酸pKa的散点图。该图显示了每个pKa值上的产量分布,反映了其他许多参数的变化(见图5b)。尽管参数众多,难以直接提取相关性,但包围所有数据点的凸包允许可视化探索的参数范围和迄今为止获得的最优结果。在这种情况下,只要其他参数得到优化,在pKa为5–8时可以实现MOCOF-1的定量形成。在TPA和水量的3D图中构建了类似的凸包,显示优化条件为1.5–2当量的TPA和约90当量的水(见图5c)。这些图表在Marimo笔记本平台上是交互式的(68),可以通过鼠标悬停显示每个数据点的信息。
这两个用例展示了使用数据模型提取化学洞察的应用。虽然我们专注于在现有数据集中识别最佳条件,但此工作流程可以扩展到使用更先进的机器学习工具进行闭环优化或化学空间探索。所有实验数据、模式、源代码、序列化数据和分析结果都通过发布在GitHub和数据存储库DaRUS(63)上实现了FAIR,并附有全面的元数据块(见代码和数据可用性)。
确保数据完整性和标准化日益被认为是使用数据驱动方法(24)以及在MOF合成中实现可重复性(36)的关键挑战。在这项研究中,我们为MOF合成的数据管理和分析开发了一个数据模型和工作流程。该数据模型基于XDL(35),并在一个包括四个步骤的工作流程中应用:(1)将来自表格或ELN的数据解析为标准化的JSON实例以便机器读取;(2)数据验证以排除错误和不完整性;(3)将数据序列化为数据交换格式XDL和MPIF以便标准化报告;(4)数据分析和揭示MOF形成的化学原理。在MOCOF-1合成的情况下,最后一步阐明了控制所需相和副相形成的重要反应参数及其最佳值范围(例如,酸试剂的pKa为5–8),从而定量获得MOCOF-1。数据模型支持每个步骤的代码开发(见图3)。(1)它为数据提供了一个定义明确且结构化的模板。作为JSON Schema的表示形式,它使得使用API和LLM进行高效格式化成为可能,减少了在非标准化文档中指定数据格式时通常需要的人工努力。(2)它为严格验证格式化数据提供了规则,以避免数据错误和不完整性。在JSON Schema中定义的约束通过jsonschema库(61)直接与数据进行了比较,从而避免了手动实现规则的需要。(3和4)数据模型为数据的使用提供了语义,由API支持。它促进了数据向其他格式的序列化以及数据的复杂分析,因为相关参数可以轻松检索。相同的脚本可以使用相同的数据模型对两个不同的MOF合成数据集进行序列化。此外,数据模型通过对模板、规则和语义的明确定义,简化了化学家和软件工程师在代码开发过程中的沟通,并促进了格式化、序列化和分析脚本的并行开发,提高了团队的生产力。在更高层次上,数据模型支持数据和软件的FAIR(29)和FAIR4RS(34)原则的实施。数据结构和属性的标准化和定义以及它们的序列化,增强了数据的可发现性、互操作性和可重用性。此外,数据验证支持了它们的可重用性和可重复性。数据模型还定义了软件的输入,这对于可持续的软件开发和其可重用性非常重要。
由于工作流程和数据模型的模块化特性,它们可以扩展到描述其他材料的合成,使用额外的表征方法(69),以及进一步的应用,如催化。(70)数据来源也可能不同,例如其他ELN(25,71)、高通量筛选系统(72)、机器人平台(10,14,73?76)、存储库,或者如果可以进行准确的文本挖掘,则可以使用文献。该工作流程是可扩展的,可以处理大型数据集。虽然我们是在现有的标准XDL基础上开发数据模型的,但如果没有合适的标准,也可以从任何其他标准、内部数据格式或从头开始生成合适且针对特定问题的数据模型。为了进一步符合标准,可以将文本属性链接到本体,如化学方法本体(CHMO)(例如,在模式中使用自定义$iri关键字)(77,78),并且可以使用Allotrope Simple Models(ASM)(47)来表示分析方法。使用MetaConfigurator这种用户友好的工具,可以基于自然语言、交互式图表和GUI生成数据模型,而无需高级的数据科学知识。(53,79)数据模型还可以用于开发涉及更高级化学信息学工具和数据科学技术的化学合成工作流程(7,24,80),例如主成分分析(PCA)(10)、随机森林(RF)(10,15,19,20)、梯度提升(12)或神经网络(40,81)。分析结果可以用来生成新的合成条件集,以便在算法(如遗传算法(14,19)、贝叶斯优化或高斯过程分类(10,82)的指导下进行化学空间的闭环探索。使用数据模型结构和验证的合成程序也可以作为合成机器人的指令(10,14,73?76)或用于构建合成协议数据库。
总之,我们展示了数据模型如何支持MOF合成数据管理和分析工作流程的开发,使合成化学家能够利用迅速增长的数据科学工具生态系统。使化学合成数据具有FAIR性和AI适用性将有助于化学向数据驱动学科的文化转型。
**方法 实验程序**
在合成Fe–对苯二甲酸酯MOFs的过程中没有遇到任何意外或异常高的安全风险。准备了七个合成条目(S-1至S-7),在不同条件下进行(见表S1)。S-3遵循了文献中的方法(54,55),而S-5和S-7是对文献的改进(56?59)。反应容器可以是12 mL玻璃小瓶或25 mL特氟龙内衬高压釜。MOCOF-1的合成进行了183次合成试验,类似于报告中的程序(50),但参数有所变化(见数据可用性)。作为反应容器使用了8 mL Schlenk炸弹或7.5 mL微波小瓶。对于某些条目,溶剂通过三次冷冻-抽吸-解冻循环脱气。加热在三通烘箱或加热板上的铝块上进行。固体产品通过过滤收集,并用超临界CO2或真空干燥。
**PXRD测量**
PXRD测量在Stoe Stadi P衍射仪上进行,使用Cu Kα1或Co Kα1辐射,在Debye–Scherrer几何结构下用Ge(111)单色器进行单色化,室温下进行。费托酸铁(Fe–terephthalate)MOFs在反应后直接在母液中进行分析,使用的是内径为0.7毫米的玻璃毛细管,并进行了样品旋转。MOCOF-1合成试验的样品在干燥后,使用内径为1.0毫米的玻璃毛细管进行测量,或者使用内径为3毫米的平板,该平板由一对Kapton粘合点密封,并同样进行了样品旋转。数据文件按照实验编号、X射线源和样品架的名称进行命名。原始测量数据通过WinXPOW软件转换为XYD(也称为XY)格式。
**数据建模**
MOF合成的数据模型通过两个JSON模式实现:一个是合成过程的模式,另一个是产品质量和PXRD测量的特征化模式。这些JSON模式是使用MetaConfigurator(版本98160e1(83)创建的,这是一个具有文本编辑器、GUI编辑器、图表编辑器和AI辅助功能的多功能开源Web应用程序。(53,79) 合成过程的模式是根据XDL 2.0标准的文档(51)使用AI辅助模式创建的,并针对MOF合成进行了部分定制(见图S1)。特征化模式是手动创建的,包括产品质量、PXRD数据的相对文件路径以及PXRD测量的元数据(见图S2)。
**代码开发和数据处理**
脚本使用Python(版本3.13)编写。用于使用这些模式的Python API是通过MetaConfigurator使用quicktype库(60)生成的。
**数据格式化和验证**
Fe–terephthalate MOF合成的条件表以CSV格式导入到MetaConfigurator中。从这些数据中自动推断出一个JSON模式,然后手动对其进行细化。使用MetaConfigurator的AI辅助映射功能(79)根据细化后的模式更新数据,并将其导出为JSON实例。然后编写了一个脚本,利用这个模式和合成过程模式生成的API将JSON实例格式化为符合合成过程模式的新JSON实例。该脚本还被编程为在指定目录中搜索相应的PXRD测量数据,并根据特征化模式记录其文件路径和元数据。
**从Sciformation ELN导入数据**
MOCOF-1合成的数据从Sciformation ELN导出为JSON实例:首先使用Sciformation ELN的“Search experiments”命令选择相关实验条目,然后使用“Copy Query URL”命令获取URL。将URL中的“useCase?useCase = performSearch&”替换为“performSearch?”并在末尾添加“&format = jsonRaw”,然后在Web浏览器中下载包含选定实验条目的原始JSON实例。这个原始JSON实例通过Python脚本进行预处理,提取相关参数,转换隐式符号(例如,rxnRole 3 = 溶剂,单位=摩尔),并使用LLM gpt-4.1 mini解析implementationText中的文本描述。LLM是通过OpenAI Python库(66)调用的,提示包括基于文本的解析规则作为系统消息,过程文本作为用户消息,以及JSON模式作为响应格式。这里使用的JSON模式用于控制响应格式,随后使用该模式进一步验证LLM的解析准确性。通过运行另一个带有手动实现规则的脚本并比较结果来确认LLM的解析准确性。预处理后的JSON实例通过另一个脚本转换为符合合成过程和特征化模式的JSON实例。
**数据验证**
在格式化脚本的最后,使用jsonschema库(版本4.24.0)的validate函数对转换后的数据进行了验证。(61) 对于MOCOF-1合成数据,在验证之前使用MetaConfigurator在合成过程模式中添加了特定的约束。
**数据序列化**
开发了一个脚本将JSON格式转换为XML格式。在此转换过程中,操作步骤数组使用helper属性$xml_type转换为相应的XDL标签,以保持步骤的顺序,同时使用helper属性$xml_append将“Unit”和“Value”合并到一个字段中。创建了一个包含额外元数据(例如作者联系信息)的MPIF第三数据文件,与合成过程和特征化数据一起使用。编写了一个TypeScript脚本,利用从数据模型生成的TypeScript API将这些数据转换为MPIF标准格式,使用了MPIF Dashboard GitHub仓库中的代码。(62) 通过将文件上传到MPIF Dashboard来确认序列化成功。(84)
**数据分析**
通用数据处理使用了NumPy(版本2.2.4)、SciPy(版本1.15.2)、pandas(版本2.3.3)和polars(版本1.26.0)库。通过API从过程数据中提取对分析重要的实验参数,并将其保存为JSON实例。根据提取的参数和文献数据,一些参数(例如酸的pKa(DMSO))在脚本中被添加进去。
**PXRD图谱的相摩尔分数分析**
开发并使用marimo Web UI进行了笔记本式编码和交互式绘图。使用数据模型API检索了MOCOF-1合成的PXRD数据及元数据(X射线源、样品架)。PXRD信号强度取决于照射样品的体积,这可能因填充效率、毛细管测量的毛细管直径和平板测量的样品量的不同而变化。为了消除这种影响,信号强度通过参考信号进行了归一化。对于Cu Kα1测量,使用2θ = 38–40°处的Co荧光信号作为参考;而对于Co Kα1数据,则使用2θ = 1.5–1.8°处的表面散射信号作为参考。这些参考信号大致与照射样品体积成正比,因此归一化的图谱可以用于相的定量分析。基线使用pybaselines(版本1.2.0)库中实现的Statistics-Sensitive Nonlinear Iterative Peak Clipping (SNIP) (85?88)算法去除。(89) 设置包括最大半窗口为40,平滑半窗口为3,以及启用递减参数。使用非负最小二乘(NNLS)优化通过线性组合拟合参考图谱来估计每个相的摩尔分数,该方法在SciPy中实现。(50) 参考图谱的选择基于我们之前的研究,其中样品纯度通过其他特征化技术得到了确认。根据X射线源和样品架的选择,为每次测量选择了合适的参考图谱。优化的NNLS权重对应于Cu Kα1测量的每个相的摩尔分数,因为图谱已经通过Co荧光信号进行了归一化。由表面散射信号归一化的Cu Kα1测量结果被认为近似于摩尔分数。非晶相的分数是通过未分配给结晶相的残余摩尔分数估算的。需要注意的是,这种方法仅提供相摩尔分数的粗略估计,因为PXRD信号强度可能受到多种因素的影响。
**相产率计算**
通过结合摩尔分数和通过API检索到的前体量以及产品质量来计算各产物的产率。
**决策树建模**
在训练决策树之前,移除了条件相似的实验(每个参数的差异小于参数平均值的3%),以避免训练过程偏斜。这个过程留下了142个独特的条目用于训练。一些参数被合并或转换以减少参数之间的相关性,例如,TPA量和Co–aminoporphyrin量被合并为TPA当量。分类参数(例如溶剂名称)使用One-Hot编码进行了编码。与相选择性关系不大的参数(例如后处理参数)被移除以减少参数数量。使用scikit-learn(版本1.3.2)将这些参数作为特征来训练决策树,将主要产物(摩尔分数最高的相)设置为目标变量。使用dtreeviz(版本2.2.2)可视化得到的决策树,以查看小树的结构;使用graphviz(版本0.21)查看大树的结构。
**凸包绘图**
在marimo Web UI上创建了凸包图以进行交互式编码和绘图。一些参数的转换方式与之前的情况相同,以减少相关性。凸包使用scipy.spatial计算。3D图表使用plotly.express(版本6.3.1)创建,而2D图表使用altair(版本5.5.0)创建。