基于近红外光谱与图神经网络的异质植物性食品质量评估

【字体: 时间:2026年02月28日 来源:Microchemical Journal 5.1

编辑推荐:

  近红外光谱与图神经网络结合,提出NSA-GIN模型通过多光谱变换构建图结构,利用节点级注意力机制捕捉O-H和C-H等关键光谱特征与化学基团关联,在芒果、人参、玉米三个数据集上实现R2超0.9,SHAP解释验证化学相关性。

  
杨宇|郑思慧|魏世阳|王浩楠|秦耀|蔡成鑫|刘泽龙|翟丹丹|程曦乐|李鹏
教育部粮食信息处理与控制重点实验室,河南工业大学,郑州450001,中国

摘要

近红外光谱(NIRS)结合化学计量建模为食品中关键成分属性的定量分析提供了一种快速、无损且成本效益高的方法。准确建模食品质量依赖于捕捉光谱响应中嵌入的非线性耦合和协同关系,因为这些关系编码了样品的化学组成和物理微观结构。然而,当前的化学计量方法通常受到线性假设和基于向量的数据表示的限制,难以捕捉这些复杂的光谱依赖性。为了克服这一限制,本研究将光谱序列重新构建成图结构数据,并引入了一种增强了节点级标量注意力机制(NSA-GIN)的图同构网络。所提出的架构提取了特定于节点的关系特征,以编码多个光谱表示之间的潜在依赖性,并将其准确映射到食品成分内容。该框架使用三个数据集进行了验证——芒果干物质含量、美国人参中的总人参皂苷以及玉米籽粒中的蛋白质含量。NSA-GIN分别获得了0.9011、0.9529和0.9564的R2值;0.8398%、2.7518 mg/g和0.2758%的RMSE值;以及3.1778、4.6099和4.8120的RPD值。Shapley加性解释进一步证实,NSA-GIN强调了与O-H和C-H相关光谱特征,这些特征对应于水、碳水化合物和蛋白质官能团——证明了该模型在食品质量预测方面的可解释性、鲁棒性和有效性。

引言

食物是维持人类健康的主要能量和必需营养素来源。在精准营养和膳食优化的背景下,准确量化关键营养成分对于质量控制和膳食配方至关重要[1]。然而,传统的分析技术通常涉及破坏性的化学或生化测定,需要样品预处理和消耗,这与“测量的样品应保持为消费产品”的原则相矛盾[2]。这一限制凸显了需要快速、无损的分析技术,以实现原位成分评估,从而支持智能食品加工和个性化营养管理[3]。
近红外光谱(NIRS)因其对分子键的倍频和组合振动(如O-H、C-H和N-H)的敏感性,能够快速且无创地检测生物材料中的成分特征[4]。当与化学计量建模结合时,NIRS已广泛应用于多种食品基质的质量分析,包括牛奶、谷物、水果和食用油,使其成为现代食品工业中实时质量评估和过程优化的强大工具[5]、[6]。
NIRS分析通常包括光谱采集、分析建模和结果输出[7]。NIRS分析的建模策略一般分为机器学习和深度学习方法[8]、[9]。由于可解释性和鲁棒性,偏最小二乘(PLS)和支持向量回归(SVR)等机器学习方法被广泛使用;然而,它们依赖于手工制作的特征和线性或浅层非线性假设,限制了其表征复杂光谱-化学关系的能力[10]。为了缓解这些限制,引入了包括一维卷积神经网络(1D-CNN)、长短期记忆网络(LSTM)、混合CNN-LSTM架构和Spectral-Transformer在内的深度学习模型,以从原始光谱中学习层次化表示[11]、[12]、[13]、[14]。然而,这些架构主要基于网格或顺序假设,这限制了它们在NIRS数据中明确编码光谱变量之间长距离化学相关性的能力[15]。
为了明确建模这些变量之间的关系,图神经网络(GNN)提供了一个原理性的框架,通过明确的关系建模和拓扑感知的归纳偏差来捕捉全局依赖性和复杂的带间相互作用,为光谱数据分析提供了一种独特且结构感知的建模范式。由于这些特性,基于GNN的方法已在多个领域得到成功应用[16]、[17]。在计算机视觉中,杨等人[18]引入了一种基于图的变换器架构,用于可变形图像配准,以增强图像特征表示中的长距离依赖性建模;而在自然语言处理中,王等人[19]使用GNN进行文本分类,以捕捉上下文和语义关系。除了感知和语言任务外,基于GNN的方法在结构化数据分析中也显示出有效性[20]、[21]、[22];例如,Saquer等人[23]提出了一种基于注意力的图神经网络,用于通过将分子结构建模为图来进行红外光谱预测。
在高光谱图像(HSI)分析中,基于GNN的方法特别有吸引力,因为HSI数据具有内在的光谱-空间特性[24]、[25]。孙等人[26]提出了一种带有多注意力机制的编译图基网络,用于联合建模光谱-空间依赖性,而蒲和王[27]开发了一种利用邻域光谱关系的局部光谱图神经网络,以提高特征可分离性。尽管有这些进展,HSI与NIRS有根本不同:HSI的特点是明确的空间邻域和二维拓扑结构,而NIRS通常是一维的,缺乏内在的空间相关性[28]、[29]。然而,面向HSI的GNN建模策略在直接适应NIRS分析时经常遇到困难,因为它们可能忽略了定义非空间光谱数据的独特变量级依赖性[30]。
为了解决这一限制,本研究提出了一种基于图同构网络的多视图图谱建模框架,该网络增强了节点级标量注意力机制(NSA-GIN),用于食品质量评估。首先使用五种光谱变换(SNV、SG^1、SG^2、SNV + SG^1和SNV + SG^2)将原始NIRS数据转换为多个光谱视图,从而从不同角度捕捉多样化的光谱特征。在此基础上,将得到的多视图表示组织成图结构,其中每个光谱视图被视为一个节点,并明确建模视图之间的关系,以实现关系感知的信息交互。在此图结构的基础上,所提出的NSA-GIN框架通过图同构卷积和节点级标量注意力进行跨视图关系学习,逐步提取出区分性的关系特征。为了进一步巩固学习到的表示,应用多统计池化策略层次化融合局部和全局光谱信息,然后将聚合特征通过全连接头映射到定量预测。该框架明确地将多视图光谱表示与图结构关系学习相结合,为NIRS分析中的复杂依赖性建模提供了一种有效且可解释的方法。
本研究的主要贡献总结如下:
(1)构建了两个近红外光谱数据集,涉及美国人参中的总人参皂苷和玉米籽粒中的蛋白质含量。
(2)提出了一种新的基于多视图图的NIRS建模算法NSA-GIN,以增强光谱间关系建模。
(3)广泛的实验证明了所提模型在基于NIR的微量成分分析中的准确性、鲁棒性和实际有效性。

部分摘录

芒果数据集

本研究使用的数据集来源于Anderson等人[31]、[32]的相关研究中报告的完整芒果果实公共集合。这些工作具有统一的实验设计和样本收集协议,为评估不同季节和品种的光谱模型性能提供了坚实的基础。该数据集包括在四个连续收获季节(2015-2018年)从两个生态不同的地区收集的4675个芒果果实

光谱分析

图3展示了芒果、美国人参和玉米籽粒样本的平均NIRS和方差包络,揭示了与基本分子振动相关的特征吸收区域。芒果在684-708 nm、804-830 nm和867-912 nm处显示出明显的吸收带,对应于O-H、O-H和C-H的倍频。这些特征受到与水分相关的O-H振动和与碳水化合物相关的C-H模式的强烈影响,这两者都与干物质含量(目标属性)密切相关

结论

本研究建立了一个将图表示学习与NIRS相结合的强大且可解释的框架,用于食品质量量化。NSA-GIN模型通过节点级注意力和多尺度池化得到了增强,有效编码了光谱依赖性,在不同数据集上实现了优越的预测性能。关键的是,基于SHAP的可解释性确认了关键光谱特征与已建立的振动分配(如O-H和C-H)一致,进一步强化了化学

CRediT作者贡献声明

杨宇:撰写——审阅与编辑,撰写——原始草稿,方法论,调查,概念化。郑思慧:撰写——原始草稿,方法论,调查。魏世阳:调查。王浩楠:方法论,调查。秦耀:调查。蔡成鑫:调查。刘泽龙:调查。翟丹丹:调查。程曦乐:调查。李鹏:撰写——审阅与编辑,监督,概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本研究部分得到了国家自然科学基金(编号62505077)、海外学生科技活动项目优秀资助(授权号221240012)、河南省科技研究重点项目(授权号242103810065)、河南工业大学复杂性科学研究所开放项目(授权号CSKFJJ-2026-2)以及河南省科学院创新与创业团队项目的支持
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号