编辑推荐:
提出UNetMam模型,融合1D-UNet多尺度特征提取与Mamba全局序列建模,显著提升粳稻脂肪酸近红外光谱预测精度(R2=0.964),并基于SHAP分析实现关键波段定位。
李凌辉|杨磊|文江北|张瑞敏|李武臣|李琪琪|陈华洲
澳门科技大学创新工程学院计算机科学与工程系,中国澳门999078
摘要
本研究针对近红外光谱(NIRS)数据中的冗余信息和复杂特征提取问题,提出了一种名为UNetMam的深度学习模型。该模型将多尺度特征提取与全局序列建模相结合,以提高粳米中脂肪酸(FA)含量的预测精度。模型架构包括一维UNet(1D-UNet)模块、Mamba模块、全局上下文模块和回归头。通过在不同层中组合和调整多个参数来训练UnetMam架构。该模型在NIRS数据集上进行了系统评估。结果表明,UNetMam在测试集上取得了最佳性能,决定系数(R2)为0.964,均方根误差(RMSE)为1.216,显著优于PLS、1D-UNet、Mamba、Transformer和卷积神经网络(CNN)等对比模型。为了进一步阐明模型的决策机制,引入了Shapley Additive exPlanations(SHAP)方法,识别了对预测有显著贡献的关键光谱带,从而有效缓解了深度学习模型通常面临的可解释性限制。本研究不仅验证了UNetMam模型在光谱回归任务中的先进性和有效性,还为定量NIRS分析提供了一种兼具高精度和可解释性的新型深度学习解决方案。
引言
近红外光谱(NIRS)具有快速、无损和精确的优点,已被广泛应用于农业、工业、生物学和医学等多个研究领域[1]、[2]、[3]、[4]、[5]。本研究关注粳米中的脂肪酸(FA)含量,这是与营养价值、储存稳定性和整体质量相关的关键指标。NIRS对环境干扰的敏感性较低,其独特的吸收和反射特性有助于提高分类和预测任务的准确性。然而,NIR光谱数据通常包含大量冗余信息,使得有效特征带的提取变得具有挑战性。多个高度相关的光谱带的存在会导致信息冗余,从而增加数据处理的复杂性[6]。随着人工智能的发展,能够高效处理高维非线性数据并自动提取层次特征深度学习模型在NIR光谱分析中的应用日益增多。这些方法有助于高效特征提取、减少冗余并提高预测精度[7]。
近年来,卷积神经网络(CNN)、Transformer和UNet等深度学习模型被引入NIRS分析,为多尺度特征融合、局部特征提取、全局上下文信息提取和长距离依赖性建模做出了贡献。CNN模型常用于提取光谱特征。Chen等人[8]设计了一种浅层CNN架构,并将其与决策树算法结合,用于定量分析水中的化学需氧量(COD)。该模型的设计考虑了近红外光谱数据样本量小但特征维度高的特点,并在近红外光谱数据中取得了良好的效果。基于CNN的UNet模型在多尺度特征融合方面表现良好。Zou等人[9]使用了一种TC-UNet模型,该模型集成了自注意力机制、多尺度特征提取和多任务学习,能够同时预测铝土矿中多种成分的含量,有效克服了固有光谱噪声带来的限制。然而,CNN和UNet模型仅关注局部感受野,无法捕捉长距离光谱依赖性。
鉴于NIRS数据的高维波长特性,提高定量模型的精度不仅需要特征提取和融合,还需要有效建模长序列依赖性。Transformer模型因其长序列建模能力而受到广泛关注[10]。在预测菜豆蛋白含量的研究中,Naseeb Singh等人[11]比较了基于Transformer的模型、一维CNN(1D-CNN)模型和修正偏最小二乘法(MPLS)。结果表明,基于Transformer的模型凭借其捕捉数据长距离依赖性的能力表现出更优的预测性能。尽管Transformer架构通过自注意力机制在全局上下文理解方面表现出色,但在建模非常长的依赖性时仍面临计算效率挑战。在过去两年中,Mamba模型因其强大的长依赖性建模能力和线性计算复杂性而受到关注。它采用状态空间模型(SSM)架构和并行扫描算法,在处理长序列时实现了更高的计算效率。Han等人[12]提出了MamUNet模型,该模型用Mamba模块替换了UNet的瓶颈层。编码器使用经典的ResNet网络学习局部低级特征,然后通过Mamba进行全局特征学习以捕获更丰富的上下文信息。该方法应用于第二近红外窗口(NIR-II)荧光图像中的血管分割复杂任务,实现了更精确的分割且计算成本更低。虽然一些研究将融合的Mamba和UNet模型应用于医学图像分割,但尚未有相关研究将此类融合模型用于定量NIRS分析。因此,本研究将UNetMam模型引入NIRS数据分析,构建适合此类数据特征的模型。
近年来,深度学习模型在NIRS的回归预测分析中建立了了一定的应用基础,但这些“黑盒”模型的可解释性仍然是一个值得深入讨论的问题。相关文献已证实[13],Shapley Additive exPlanations(SHAP)分析可以解释深度学习模型的预测行为,并通过量化特征贡献度来识别对预测输出最重要的特征。为了提高模型可解释性,Zhu等人[14]创新地将SHAP值纳入他们的DA-CNN模型。根据模型预测输出中的特征贡献度,他们确定了与大米抗性淀粉相关的关键波长范围(2000–2500 nm),缩小了光谱研究的范围,并为提高基于NIRS的深度学习模型的可解释性提供了实际有意义的见解。不同的化学成分在NIRS中表现出不同的吸收带,这些吸收带与特定化学键的振动有关。Tian等人[15]提出了一个CNN-LSTM-Attention模型用于预测水分含量。在他们的研究中,将SHAP分析与CNN模型结合,以解释与水分相关的吸收带并探索关键波长点与水特征NIR吸收之间的相关性。
本研究将1D-UNet模型和Mamba模型[16]集成到一维NIRS数据分析中,构建了UNetMam模型进行定量分析。该模型由1D-UNet和Mamba模块组成的主框架以及用于最终预测输出的池化层和回归头组成。1D-UNet模型和Mamba模型都是为了一维序列数据设计的深度学习模型。NIRS数据通常由数百个波长点组成,这些波长点在物理上代表连续的能量梯度(通常从短波长到长波长),并具有序列连续性和内在相关性。因此,在实际应用中,光谱数据可以根据波长顺序转换为光谱序列格式,其中序列中的每个位置对应于光谱数据的一个段。
NIRS同时包含局部特征(如C-H、O-H等特定化学键的吸收峰)和全局特征(基线漂移、散射背景以及泛音和组合音之间的相关性),这些特征难以被单一模型同时捕获。所提出的UNetMam模型专为NIRS数据分析设计,克服了单一模型在处理局部敏感性和全局上下文理解方面的局限性。它在局部特征提取和全局序列建模之间表现出互补的协同作用,解决了NIRS数据的固有复杂性。一维光谱序列数据被输入UNet编码器,通过多次卷积和池化操作提取多尺度特征;解码器然后通过上采样和跳跃连接逐步重建特征,实现多分辨率特征的有机融合,从而提取多尺度特征并恢复细粒度细节。随后,扁平化的特征被输入Mamba模块,该模块采用状态空间模型(SSM)来捕获这些波长之间的长距离依赖性。由于C-H和O-H键的泛音和组合音可能分布在不同的光谱区间,Mamba可以捕获相隔较远的特征峰之间的相关性。通过其选择性扫描机制,它可以适应性地关注与当前目标值最相关的光谱区间。最后,预测结果通过全局平均池化层和回归层生成。为了进一步提高模型的可解释性,引入了SHAP值分析来识别对预测结果有贡献的关键光谱区域,并准确定位与大米脂肪酸含量密切相关的特征波长。与传统机器学习方法不同,这种混合框架同时解决了性能和透明度的挑战,从而扩展了复杂深度学习模型的实际应用范围。
部分摘要
1D-UNet
基于CNN的UNet[17]方法是语义分割的一个里程碑,为后续工作奠定了基础:一个具有跳跃连接的编码器-解码器框架。UNet模型以其独特的“U”形编码器-解码器结构、跳跃连接和特征融合能力而闻名。它在从输入数据中提取层次特征的同时保留了关键细节[18]。编码器通过卷积和下采样专注于提取局部特征,而
测量和准备
共收集了来自中国黑龙江、吉林和辽宁省不同农场的1,304个粳米样本。样品经过空气干燥、研磨成粉末,并按照中国国家标准GB/T 15684-2015进行了定量分析,以确定FA含量。粳米样品的FA含量范围为10.84至39.44 mgKOH/100g,平均值为19.64 mgKOH/100g,标准差为
结论
本研究提出了一种结合UNetMam模型和NIRS的方法来预测粳米中的FA含量。通过有效整合UNet和Mamba架构,该模型显著提高了预测性能。NIR光谱通常包含大量冗余信息和多分辨率特征。UNetMam中的UNet结构有助于不同尺度特征的有效融合。同时,光谱中波长点之间存在复杂的非线性相互作用
CRediT作者贡献声明
杨磊:撰写 – 审稿与编辑、调查、资金获取、正式分析、概念化。李武臣:正式分析、数据管理、概念化。李琪琪:正式分析、数据管理、概念化。文江北:资源获取、正式分析、数据管理。张瑞敏:正式分析、数据管理、概念化。陈华洲:撰写 – 审稿与编辑、资源获取、方法论、调查、资金获取、概念化。李凌辉:撰写 –
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
利益冲突声明
? 作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本工作得到了澳门特别行政区的科学和技术发展基金(授权号:0031/2022/A1)以及国家自然科学基金(授权号:62365008)的支持。