《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:Interpretable machine learning prediction of biochar characteristics based on laser-Raman spectroscopy
编辑推荐:
本研究基于Raman光谱结合多种机器学习模型,开发了可解释性分析框架,用于预测不同生物质热解温度(350-1000°C)下生物炭的关键特性(R2=0.89-0.95),有效支持生产优化和在线监测。
邢虎|陈德志|周世豪|徐俊|徐凯|姜龙|王毅|苏胜|胡松|向军
中国华中科技大学能源与动力工程学院煤炭燃烧国家重点实验室,武汉,430074,中华人民共和国
摘要
准确检测生物炭的特性对于生产过程优化和目标应用选择至关重要。在本研究中,基于拉曼光谱开发了可解释的机器学习预测模型,包括极端梯度提升、支持向量回归、前馈神经网络、随机森林和岭回归,用于准确预测来自六种不同生物质的生物炭的特性,这些生物炭是在350–1000°C的热解温度范围内制备的。结果表明,前馈神经网络在预测关键生物炭特性方面表现出优异的整体性能(R2 = 0.89–0.95),包括固定碳、挥发性物质、氢(H)、氧(O)以及H/C和O/C的原子比。通过整合挥发性物质和固定碳的多重预测结果,并建立与灰分的定量关系,实现了对灰分的高精度预测(R2 = 0.95)。为了提高模型的可解释性,我们开发了一个三部分分析框架:使用CARS进行光谱特征选择,通过SHAP分析量化特征重要性,并通过模型预测的机制相关性分析将选定的光谱带与生物炭结构联系起来。通过对各种增强数据集的测试,验证了模型的稳健性,确认了它们在不同扰动下的适应性。这种结合拉曼光谱和机器学习的方法为预测生物炭特性提供了一种快速可靠的方式,有助于更有效地控制生物质热解过程,并支持在线监测技术的发展。
引言
生物炭作为一种含碳材料,是通过生物质(如植物残渣、农业废弃物或有机材料)在限氧条件下的热解产生的[1]。由于其卓越的稳定性和出色的吸附性能,生物炭在土壤改良、碳封存、光催化和污染控制等领域具有广泛的应用[2]、[3]、[4]、[5]。生物炭的性质在很大程度上取决于热解条件,不同的热处理条件可以产生具有不同特性的生物炭,这些特性又决定了其在各个领域的应用效果[6]、[7]。因此,准确评估和检测生物炭的特性不仅对于优化生产过程和确保产品质量至关重要,而且对于指导后续应用也尤为关键。
在各种生物炭性质指标中,近似分析和最终分析因其简单性和实用性而被广泛使用[8]、[9]。关键参数包括固定碳(FC)、挥发性物质(VM)、灰分以及原子比(H/C、O/C),这些参数决定了生物炭的功能[10]。例如,固定碳与碳封存潜力和更长的土壤稳定性相关,而生物炭中的挥发性物质和灰分可能会影响吸附稳定性[11]、[12]、[13]。原子比(H/C、O/C)已被定性评估用于评估生物炭的稳定性[14]。因此,准确表征和预测生物炭的关键特性对其性能优化和应用推广非常重要。虽然传统分析提供了基本的性质数据,但它们存在样品处理复杂、分析时间较长以及缺乏关于生物炭结构的全面信息的问题[8]。因此,迫切需要开发更高效和便捷的预测技术。
随着生物炭研究的进展,光谱技术在表征生物炭性质方面的分析潜力引起了越来越多的科学关注,包括近红外光谱(NIR)、傅里叶变换红外光谱(FTIR)和激光诱导击穿光谱(LIBS)[15]、[16]、[17]。值得注意的是,拉曼光谱具有非破坏性操作、微米级空间分辨率和实时监测能力等优点,可以同时表征生物炭的分子结构、碳官能团和氧化状态,并能够分析碳化过程中的碳结构演变[18]、[19]。研究人员发现,通常在约1350 cm?1和约1580 cm?1处观察到的D带和G带是生物炭拉曼光谱中的两个显著特征[20]。系统地研究带位移动(FWHM变化)和强度比(ID/IG)可以为生物炭的结构有序性、氧化状态和碳化进程提供关键见解[21]、[22]。例如,Azargohar等人[23]报告称,当热解温度从450°C升高到500°C时,ID/IG比率显著增加了58%,反映了在较高温度下芳香结构的聚合增强。Dziejarski等人[24]通过拉曼光谱分析了不同热解温度下的石墨化程度或缺陷的存在,两者之间的平衡与生物炭的吸附能力密切相关。我们的团队进一步研究了在不同热解温度下制备的生物炭的性质与拉曼光谱的荧光干涉程度之间的密切相关性,并建立了生物炭性质与荧光干涉程度之间的关联,以便快速评估生物炭的性质[25]。上述结果表明,拉曼光谱特征可以与生物炭的化学结构密切相关,并能够检测生物炭的性质。拉曼光谱的优点有助于生产过程中的全面质量控制,并为生物炭性能参数的战略优化提供信息。然而,拉曼光谱数据的多变量特性带来了分析挑战[26]、[27]。依赖手动峰解卷积和基本统计方法的传统方法在从这种高维数据集中提取潜在的结构-性质关系方面能力有限,这突显了需要基于机器学习的先进分析框架。
拉曼光谱与机器学习的结合已成为材料科学中的关键分析范式,这一趋势得益于化学计量学的最新进展[28]、[29]、[30]。这种协同方法在塑料分类、食品分析、疾病诊断和生物分子检测等多个领域取得了成功应用[31]、[32]、[33]。特别是对于含碳材料,机器学习增强的拉曼分析能够精确识别关键特征。例如,Zhang等人建立了一个结合高速拉曼光谱的深度学习框架,用于悬浮碳纳米管的高通量表征,实现了空间分布、种群密度和金属含量的同时测定[34]。DaFonseca等人随后通过结合主成分分析(PCA)和线性判别分析(LDA)的多变量分析,实现了不同类型碳材料97%的分类准确率[35]。最近,Alexander等人使用基于CNN的光谱解释方法对结构无序的碳材料进行了分类[36]。尽管取得了这些进展,但目前的研究主要集中在材料识别和分类上,而对碳材料物理化学性质的定量预测仍不完善。为了填补这一知识空白,我们首次提出了利用机器学习辅助的拉曼光谱进行生物炭特性多参数预测的全面研究。此外,为了提高模型的可解释性,我们开发了一个三部分分析框架,包括用于光谱特征选择的竞争性自适应加权采样(CARS)、用于量化特征重要性的Shapley加性解释(SHAP)分析,以及将选定的光谱带与生物炭结构联系起来的模型预测机制相关性分析。这种创新方法不仅通过CARS和SHAP提高了模型的可解释性,还进一步揭示了碳结构如何影响模型预测性能的机制。
本研究首次开发了多种结合拉曼光谱的机器学习算法,用于预测多种生物质原料的生物炭特性。原始拉曼光谱经过标准正态变量(SNV)归一化处理,并通过网格搜索系统优化了五种回归算法。通过优化的CARS-SHAP框架识别了关键的拉曼光谱带,并通过选定的光谱带与生物炭结构之间的相关性揭示了它们对模型预测性能的影响机制。通过数据增强验证了模型对模拟现实世界光谱变化的稳定性。这些发现为工业应用中的智能生物炭设计和质量控制提供了理论基础。
数据集收集
我们之前的研究已经报道了来自六种不同生物质在350–1000°C不同热解温度下的生物炭数据集[37]。结果包括近似分析和最终分析的数据,见表S1。近似分析和最终分析包括Vad、Vd、Vdaf、FCd、Hdaf、Odaf以及H/C和O/C的原子比,其中ad、d和daf分别表示基于空气干燥基、干燥基和无灰基的计算,具体描述见
拉曼光谱分析和数据可视化
对来自六种生物质类型在350–1000°C热解温度下的40种生物炭的物理化学特性进行了统计分析。图2a和b分别展示了去除杂质前后生物炭异常拉曼光谱的对比。原始光谱的PCA分析显示,前两个主成分(PC1和PC2)的贡献率超过了99%,证实了它们在多维特征表示中的充分性(图S1)。利用这一维度
结论
本研究建立了一种新的拉曼光谱-机器学习框架,用于预测在350–1000°C热解的各种生物质原料的生物炭特性。所开发的FNN在预测所有生物炭特性方面表现出整体优越的性能,特别是在预测Odaf和O/C方面表现突出,R2值分别为0.8944和0.8901。XGBoost在预测Vad、Vd、Vdaf和FCd方面取得了最佳性能,R2值分别为
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作得到了国家重点研发计划(编号2022YFC3902401)和中国国家自然科学基金(编号52176110)的支持。