利用近红外光谱进行体外干物质消化率的稀疏回归与可解释建模

《Chemometrics and Intelligent Laboratory Systems》:Sparse regression and explainable modeling of in vitro dry matter digestibility using near-infrared spectra

【字体: 时间:2026年03月04日 来源:Chemometrics and Intelligent Laboratory Systems 3.8

编辑推荐:

  近红外光谱技术通过比较不同预处理方法(原始光谱、Savitzky-Golay平滑、一阶导数和SNV校正)与回归模型(PLS、LASSO、XGBoost)的组合,发现一阶导数预处理结合LASSO回归能以3.05的最小RMSECV和2.30的MAECV达到最佳预测效果,同时SHAP分析揭示了与有机物和碳水化合物相关的关键光谱区。

  
胡德海尔·A·拉希迪(Khudhayr A. Rashedi)| 塔里克·S·阿尔沙马里(Tariq S. Alshammari)| 卡利德·M·K·阿尔沙马里(Khalid M.K. Alshammari)| 阿拉纳齐·塔拉尔·阿卜杜勒拉赫曼(Alanazi Talal Abdulrahman)| 贾维德·沙比尔(Javid Shabbir)| 塔希尔·梅胡德(Tahir Mehmood)
沙特阿拉伯海勒大学(University of Ha’il)理学院数学系

摘要

近红外光谱(NIRS)已成为一种快速且无损的分析技术,用于评估动物饲料的营养价值;然而,其预测准确性受到光谱预处理和模型选择的显著影响。本研究比较了光谱校正策略和回归算法结合使用的效果,以预测来自农业工业饲料残渣的体外干物质消化率(IVDMD)。在1000–2500纳米波长范围内获取了吸收光谱,并使用原始光谱、Savitzky–Golay平滑处理、一阶导数变换和标准正态变量(SNV)校正进行了预处理。所得数据集分别用偏最小二乘回归(PLS)、最小绝对值收缩与选择算子(LASSO)和极端梯度提升(XGBoost)进行了建模。
模型性能通过五折交叉验证进行评估,评估指标为均方根误差(RMSECV)和平均绝对误差(MAECV)。在所有预处理技术中,一阶导数变换通过抑制基线漂移和增强化学相关的光谱特征,始终提高了预测准确性。结合一阶导数光谱的LASSO模型取得了最佳的预测性能(RMSECV = 3.05;MAECV = 2.30),与PLS(RMSECV = 3.08)和XGBoost(RMSECV = 3.38)相当。此外,LASSO的稀疏性增强特性使得波长选择更加稳健,而Shapley加性解释(SHAP)分析揭示了与有机物和碳水化合物相关功能团相关的化学有意义的吸收区域。
总体而言,结果表明,基于导数的光谱预处理结合稀疏驱动的回归显著提高了基于NIRS的饲料评估的预测准确性和可解释性。所提出的框架为快速评估饲料消化率提供了一种透明且可靠的替代传统多变量校准方法。

引言

饲料质量的评估是高效和可持续畜牧业生产系统的核心组成部分。在各种营养属性中,消化率在决定动物生长、产奶量和整体健康状况所需的营养素可用性方面起着关键作用。体外消化率测量(如体外有机物消化率(IVOMD)和体外干物质消化率(IVDMD)被广泛认为是饲料营养价值的可靠指标。然而,传统的实验室消化率分析耗时、劳动密集且成本高昂,这限制了其在高通量饲料评估和实时质量控制中的应用[1]、[2]、[3]。
近红外光谱(NIRS)作为一种快速、无损且经济高效的分析技术,可用于评估动物饲料的化学成分和营养价值。通过捕捉与C–H、O–H和N–H键分子振动相关的泛音和组合带,NIRS提供了关于碳水化合物、蛋白质、脂质和纤维成分的间接信息。这些成分对消化率有显著影响,使NIRS成为预测IVOMD和IVDMD的有前景的工具。然而,NIRS的成功应用严重依赖于开发出能够从高维、高度共线光谱数据中提取化学意义信息的稳健校准模型[2]、[3]。
NIRS建模中的一个主要挑战是来自与化学成分无关的光谱变异,包括基线偏移、光散射、颗粒大小效应和仪器噪声。如果不对这些因素进行处理,它们会掩盖细微的吸收特征并降低预测性能。因此,通常采用Savitzky–Golay平滑处理、导数变换和标准正态变量(SNV)校正等光谱预处理技术来提高信号质量[4]、[5]。其中,一阶导数预处理在去除基线偏移和突出局部光谱特征方面特别有效,尽管其效果很大程度上依赖于模型,并需要进一步比较评估。
偏最小二乘(PLS)回归[6]、[7]长期以来一直是NIRS应用中的主导多变量校准方法,因为它能够处理共线性和高维预测变量。PLS构建了潜在变量,最大化光谱数据与响应变量之间的协方差,即使在波长数量超过样本数量时也能提供稳定的预测结果。尽管应用广泛,但PLS通常依赖于全局光谱表示,这可能会降低模型的稀疏性并使个别波长的化学解释变得复杂。这一限制激发了对结合变量选择和正则化的替代回归技术的兴趣。
正则化回归方法,特别是最小绝对值收缩与选择算子(LASSO)[8],通过施加?1惩罚项,鼓励回归系数的稀疏性。通过仅保留最具信息量的波长,LASSO提高了可解释性,同时减轻了过拟合问题,这在具有多重共线性的NIRS数据集中尤为关键。最近的研究表明,在某些光谱应用中,LASSO的表现优于传统的PLS模型,尤其是在结合适当的预处理策略时。
与此同时,机器学习方法(如梯度提升)因其在处理光谱数据中的非线性关系方面的能力而受到关注。特别是极端梯度提升(XGBoost)[9],由于其强大的预测能力和抗过拟合能力,已成功应用于多种回归问题。然而,基于集成模型的复杂性往往以牺牲可解释性为代价,而在饲料科学和应用光谱学中,理解化学驱动因素与预测准确性同样重要[10]。
除了预测性能之外,模型可解释性已成为现代化学计量学的重要要求。可解释的人工智能(XAI)技术(如Shapley加性解释(SHAP)[11])提供了一种量化单个预测变量对模型输出贡献的原则性方法。应用于线性或稀疏回归模型时,SHAP能够直接可视化波长的重要性及其效应的方向性,从而促进化学解释并增强对模型可靠性的信心。
尽管关于基于NIRS的消化率预测的研究越来越多,但综合评估预处理策略、线性和非线性建模方法以及可解释性框架的全面比较研究仍然有限。特别是,尚未充分探索结合导数预处理、稀疏回归和基于SHAP的解释方法来预测农业工业饲料材料的IVDMD。
因此,本研究的目的是开发和比较使用NIR光谱数据预测体外干物质消化率的稳健化学计量学和机器学习模型。具体而言,本研究(i)探讨了多种预处理技术(包括原始光谱、Savitzky–Golay平滑处理、一阶导数变换和SNV校正)的影响;(ii)在一致的交叉验证框架下评估PLS回归、LASSO回归和XGBoost模型的预测性能;(iii)利用SHAP分析阐明对消化率预测最具影响力的光谱区域。通过结合预测准确性和可解释性,本研究旨在提供一个透明且有效的模型框架,用于快速评估饲料质量。
数据集和光谱变量
本研究中使用的近红外(NIR)光谱数据来自一个先前发表的实验数据集,该数据集涉及来自农业工业副产品的动物饲料样本[12]。光谱采集使用的是台式傅里叶变换近红外(FT-NIR)光谱仪(Thermo Nicolet Antaris II?,Thermo Fisher Scientific),在Thermo Integration?和Thermo Operation?软件环境下操作。
光谱以反射模式采集,使用高分辨率设备。

结果与讨论

在预测建模之前,首先检查了实验室测量的参考变量之间的关系。图1显示了体外有机物消化率(IVOMD)和体外干物质消化率(IVDMD)之间的皮尔逊相关性,显示出强烈的正线性关联。这一关系通过图1中的双变量散点图和拟合的线性回归得到了进一步确认。观察到的线性趋势表明,有机物含量较高的样本...

结论

本研究表明,近红外光谱(NIRS)在估计动物饲料的体外干物质消化率(IVDMD)方面的预测性能受到光谱预处理和回归方法的显著影响。对原始光谱、Savitzky–Golay平滑处理后的光谱、一阶导数光谱和标准正态变量(SNV)光谱的比较评估表明,一阶导数变换提供了分析范围内最具信息量的光谱数据表示。
< />
胡德海尔·A·拉希迪(Khudhayr A. Rashedi): 数据可视化、资源获取、正式分析。 塔里克·S·阿尔沙马里(Tariq S. Alshammari): 验证、软件开发、项目管理、资金获取。 卡利德·M·K·阿尔沙马里(Khalid M.K. Alshammari): 原始草稿撰写、项目管理、正式分析。 阿拉纳齐·塔拉尔·阿卜杜勒拉赫曼(Alanazi Talal Abdulrahman): 验证、方法论、正式分析、概念化。 贾维德·沙比尔(Javid Shabbir): 原始草稿撰写、数据可视化、方法论、调查、概念化。 塔希尔·梅胡德(Tahir Mehmood): 原始草稿撰写。
<资金声明>
本研究由沙特阿拉伯海勒大学的科学研究院资助,项目编号为RG-24 067
<利益冲突声明>
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号