AuLCA：面向化学数据缺口的增强型生命周期评价（Augmented LCA）

《Green Chemistry》：AuLCA: augmented life cycle assessment for chemical data gaps

【字体：大中小】 时间：2026年05月19日 来源：Green Chemistry 9.2

编辑推荐：

　　生命周期评价（LCA）已成为量化化学过程影响的主流工具，然而数据缺口仍是阻碍其广泛应用的主要障碍。现有的LCA数据库仅涵盖数千种主要为高产量体积的化学品；而精细化学品（如药物活性成分、农药、添加剂等）往往未被充分代表。在此，研究人员介绍了一种基于化学反应网络（

生命周期评价（LCA）已成为量化化学过程影响的主流工具，然而数据缺口仍是阻碍其广泛应用的主要障碍。现有的LCA数据库仅涵盖数千种主要为高产量体积的化学品；而精细化学品（如药物活性成分、农药、添加剂等）往往未被充分代表。在此，研究人员介绍了一种基于化学反应网络（CRN）、基于质量的影响传播以及基于第一性原理的能量估算的增强型LCA（AuLCA）框架，用于预测化学品的生命周期清单（LCI）及影响。通过将AuLCA应用于四个案例研究，研究人员发现其与商业数据具有良好的一致性，准确度水平取决于化学反应网络的规模与密度。总体而言，AuLCA旨在支持跨化学尺度的可持续决策，特别是在早期阶段化学反应路径选择的决策中。

本文解读的论文《AuLCA: augmented life cycle assessment for chemical data gaps》由 Maximilian G. Hoepfner、Dion Jakobs、Lucas F. Santos 以及通讯作者 Gonzalo Guillén-Gosálbez（苏黎世联邦理工学院化学与应用生物科学系化学与生物工程研究所）发表在绿色化学领域知名期刊《Green Chemistry》上。该研究针对生命周期评价（Life Cycle Assessment, LCA）在精细化学品领域面临的数据缺失难题，提出了一种名为 AuLCA（Augmented LCA）的新型预测框架。

研究背景方面，自1998年绿色化学原则提出以来，化学行业日益追求以可持续性为根本目标的工艺与产品设计。化学工业目前占全球温室气体（GHG）排放的10%，属于难减排（hard-to-abate）行业，亟需可持续发展的量化工具。传统上，化学路线的环境影响多采用基于质量和能量的过程级指标（如 E-factor、原子经济性、过程质量强度 PMI）进行评估，但这些指标无法全面反映分子全生命周期的环境足迹。LCA 能够量化系统跨资源开采、制造、运输及报废阶段的综合环境、健康与资源影响，有助于识别不利工艺、负担转移（burden-shifting）及关键参数。然而，完成一项 LCA 需耗费大量时间与资源来核算全生命周期的物质与能量流，导致 LCA 多用于工艺成熟后的回顾性评估，难以在早期化学探索阶段发挥作用。此外，即便是对已有化学品进行 LCA，也常面临严重的数据缺口。

目前主流的 LCA 数据库（如 ecoinvent）仅包含数百至数千种化学品，在超过 2.79 亿种已注册物质中占比极小，尤其缺乏精细化学品（fine chemicals）的数据。这类物质合成通常涉及多步反应、多样试剂/溶剂/催化剂，且合成路线常未公开。尽管已有多种预测性 LCA（ streamlined LCA）方法（如基于机器学习回归、优化、相似性矩阵等）试图填补数据空白，但大多数回归方法仅基于化学结构/性质，未明确考虑底层反应路径，而同一化学品不同合成路径的环境足迹可能差异巨大（例如乙烯可由石脑油蒸汽裂解或生物乙醇脱水制得）。此外，这类工具通常针对特定化学类别和影响指标训练，外推时准确度下降。

为突破上述限制，研究人员开发了 AuLCA 方法论，整合化学反应网络（Chemical Reaction Networks, CRN）、基于第一性原理的能量估算，以及基于质量的生命周期数据传播算法，利用 ecoinvent 3.9.1 数据验证了框架的预测能力，旨在推动 LCA 在化学尺度（尤其是早期合成路线选择）中的更广泛应用。

研究人员为开展研究用到几个主要关键技术方法：首先构建围绕已知 LCI 化学品语料库（corpus，取自 ecoinvent v3.9.1，遵循 ISO 14044/14040）的化学反应网络（CRN，可基于专利/开放数据库如 USPTO、CJHIF CRD 或 Reaxys? 数据），通过网络扩展连接未知足迹化学品节点；其次设计数据增强（Data Augmentation）算法，将 CRN 表示为有向二分图（节点为化学品与反应，边为反应物/产物关联），定义已知足迹集合 SK_i与未知足迹集合 SU_i，通过迭代计算逐步将 SU_i中节点转移至 SK_i；核心排序机制为引入可用性因子（Availability Factor, AF），量化每条产出自未知化学品的反应中可用 LCI 数据量，优先处理 AF 最高的反应/节点；LCI 预测采用基于质量的分配（mass-based allocation）传播已知化学品的 LCI，叠加反应能量（基于生成焓计算）与分离能量（基于 Gani 等人启发式规则，涉及蒸馏、液液萃取、重结晶等，关联 LCIHEAT_j数据库值）对应的 LCI，多路径产同一化学品时取 LCI 平均值；最后通过留一法验证（Leave-One-Out Validation, LOOV）在四个案例研究（3个开源反应网络规模分别为 10k、100k、300k 反应，1个 Reaxys? 308.5k 反应）中评估算法性能，指标包括 RMSE、MAE、MRE 及 R²（以 IPCC2021 GWP 为主）。

研究结果如下：

在“已知合成路径的预测”部分，研究人员选取 ecoinvent中 13 种有机化学品，重构其 ecoinvent 描述的单步合成路径，构建仅含单反应的 CRN。聚焦 IPCC 2021 全球变暖潜值（GWP），预测值与 ecoinvent 参考值高度吻合（R²= 0.97，RMSE 0.74 kgCO₂-eq/kg，MAE 0.52 kgCO₂-eq/kg，平均相对误差 11%），表明当反应路径已知时，质量分配与门到门（gate-to-gate）计算在该类案例中表现准确。

在“留一法验证（LOOV）”部分，研究人员定义了四个 CRN 案例研究（CS I：10k 反应/16k 化学品/SK₀=49/SK_LOOV=12；CS II：100k 反应/140k 化学品/SK₀=98/SK_LOOV=34；CS III：300k 反应/360k 化学品/SK₀=122/SK_LOOV=41；CS IV：Reaxys? 308.5k 反应/310k 化学品/SK₀=236/SK_LOOV=110）。每次迭代从验证集移除一种化学品的 LCI，用其余已知数据通过 AuLCA 预测后比对。结果显示：更大规模网络通常带来更优预测性能（CS III 相比 CS I，RMSE 从 3.80 降至 2.79 kgCO₂-eq/kg，MAE 从 2.53 降至 1.98 kgCO₂-eq/kg，MRE 从 72.3% 降至 59.3%）；Reaxys? 基于 CRN（CS IV）的 RMSE 2.97、MAE 2.27，但 MRE 达 72.1%，源于其对低 GWP 分子预测偏高（此类分子在 CS IV 中占比更高）。R²值在各案例中偏低且不均衡，主要因验证集方差低（尤其 CS IV 含多个低 GWP 化合物），导致 R²计算被惩罚，而非模型准确度不足。大部分化学品预测误差落在 +100%/-50% 范围内；无强系统性偏高或偏低偏差。高估主要关联大规模、工业合成的类烯烃化学品，AuLCA 可能选用更复杂多步专利路线（与成熟工业短路线差异大）；低估常因所需反应物（如氧气对乙炔 GWP 贡献 90%）不在网络中，需通过代理（proxies）估算致偏低。

在“AF 对预测的影响”部分，研究人员分析 AF 阈值的作用：无阈值时所有化学品可计算；设定 AF 阈值 0.25（反应中至少 25% 反应物/产物已知），CS II 和 CS III 仍分别覆盖 79% 和 82% 化学品，CS I 降至 68%；阈值 0.5 影响更显著；阈值 >0.75 几乎无化学品可计算，反映较小 CRN（如 CS I）互连度低。较大 CRN 或 Reaxys? 数据可减少代理使用，因为更多反应允许通过上游影响传播推断缺失化合物，避免代理的平均影响赋值缺陷（无法区分高/低影响化合物）。实例中以吗啡啉（morpholine）为例，CS III（高 AF 约束）比 CS II 使用更少代理（2 对 6），虽路径更长但信息保留更优，表明避免代理比缩短路径更关键（因代理不区分化合物特定影响）。

在“门到门影响贡献”部分，研究人员分析 CS III 中反应能量、分离及质量分配的影响占比，发现预测由反应物中体现的影响主导（质量分配贡献 4.88–7.25 kgCO₂-eq，95% CI），因为反应物已包含前步门到门影响，沿路径质量分配传播了上游能量相关影响；分离能量需求明显超过反应能量（反应常温和条件能耗低，分离如蒸馏能耗高）；反应能量中放热反应冷却负荷及能量损失未计入。

在“对其他 LCIA 方法的适用性”部分，研究人员指出虽然验证聚焦 IPCC GWP 2021，但 AuLCA 生成的 LCI 天然兼容任意评估框架，可整合 ReCiPe 2016、EF 3.1等其他生命周期影响评价（LCIA）方法。

讨论与结论部分，研究人员总结 AuLCA 作为基于第一性原理的数据增强算法，在覆盖 LCA 数据缺口（尤其已知合成路径时）方面表现出良好性能，可扩展至数十万级 LCA 计算。其局限性源于语料库化学品的质量/多样性及所用 CRN 的连接性；未来可通过整合多反应数据库（如 Reaxys? 与开源 CRN 结合）提升化学空间覆盖与 AF 阈值， refinement 门到门估算（细化溶剂/催化剂足迹、更准确产率），并将 AuLCA 开发为可供 LCA 从业者与化学家使用的工具箱，支持用户自定义数据与多 LCIA 方法。该框架可支持多应用场景的早期决策，尤其引导制药等行业活性成分生产的可持续放大；自动化替代路线评估将助力化学与工艺工程师更高效识别优先可持续合成选项，推动绿色化学在研究与工业实践中的目标实现。

热点排行