《Infrared Physics & Technology》:Instrument-invariant near-infrared spectroscopy via domain adaptation for robust quantitative analysis of barley protein content
编辑推荐:
近红外光谱跨仪器转移模型研究:构建JDA-SR-PM框架实现大麦蛋白可靠检测。该模型通过联合优化领域适应、光谱重建与预测,有效解决实验室级主仪器与便携式从仪器间的光谱差异问题,在测试集上达到R2=0.923,RMSE=0.553,RPD=3.607,优于TCASVR、PRETL、PEAMATL等方法,并通过Bland-Altman分析和SHAP特征解释验证模型可靠性。
张甘|张旭|李红艳|赵金辉|秦瑶|张青辉|李明星|杨宇
教育部河南工业大学粮食信息处理与控制重点实验室,中国郑州450001
摘要
近红外(NIR)光谱技术已成为一种快速且无损的食品质量评估工具,但不同仪器之间的差异仍是其广泛应用于粮食蛋白质预测的主要障碍。本研究提出了一种联合领域适应-光谱重建-预测模型(JDA-SR-PM),以实现大麦籽粒中蛋白质含量的在线监测。从主仪器和从仪器收集光谱数据,并通过无监督增强方法扩展数据集。该模型使用Adam算法进行优化,并与三种先进的迁移学习方法(TCASVR、PRETL和PEAMATL)进行了对比测试。结果表明,JDA-SR-PM在测试集上的预测性能优于其他方法,R2 = 0.923,RMSE = 0.553,RPD = 3.607。Bland-Altman分析进一步证实了预测值与参考值之间的高度一致性,验证了JDA-SR-PM作为商业分析仪替代方案的潜力。基于SHAP的特征属性分析突出了关键的光谱区域(920 nm、1200 nm和1400–1550 nm),这些区域与已知的化学特征相符,为简化仪器设计提供了依据。这些发现表明,结合领域适应的NIR光谱技术可以扩展快速蛋白质监测的应用范围,支持粮食质量控制的实际应用。
引言
大麦(Hordeum vulgare L)是世界上最重要的谷物作物之一,是食品、饲料和麦芽工业的主要原料[1]。在其组成属性中,蛋白质含量是决定最终用途的关键因素:低蛋白大麦适用于麦芽和酿造,因为过高的蛋白质会抑制酶活性和过滤效率;而高蛋白大麦因其营养价值而适合用作动物饲料[2],[3]。因此,准确评估大麦籽粒中的蛋白质含量对于质量控制、价值链优化和育种计划至关重要。传统的物理化学方法(如凯氏定氮法和杜马斯氮分析法)虽然能够提供可靠的测量结果,但耗时、劳动密集、具有破坏性,不适用于大规模或实时应用[4]。
为了解决这些限制,人们广泛探索了快速且无损的分析技术,尤其是近红外(NIR)光谱技术。NIR光谱技术利用780–2500 nm范围内C–H、O–H和N–H键的吸收特性,无需化学试剂即可进行化学表征[5],[6],[7],[8],[9],[10]。迄今为止,NIR光谱技术已成功应用于大麦籽粒的蛋白质及其他质量相关特性的定量评估,取得了有希望的结果。例如,Li等人采用基于直接标准化的校准迁移结合偏最小二乘(PLS)回归方法,实现了跨仪器的准确蛋白质预测(Rp = 0.899)[11];Zhang等人优化了光谱预处理和波长选择策略,使用PLS模型预测高原大麦的营养成分,获得了可靠的蛋白质预测性能(R2 = 0.876)[12];Ajayi等人比较了PLS与其他流行的机器学习方法在预测大麦NIR光谱相关特性方面的效果,发现PLS方法的准确率中等(R2 = 0.55),这突显了处理复杂质量属性的挑战[13]。
尽管取得了这些令人鼓舞的结果,但NIR光谱技术在粮食质量评估中的实际应用仍然受到限制,尤其是在不同应用场景下进行测量时[14],[15],[16]。在实际应用中,大麦籽粒的分析使用多种NIR仪器,从实验室级别的台式光谱仪到便携式或在线设备都有。这些仪器在光学配置、光谱分辨率、波长覆盖范围、探测器灵敏度和照明几何结构等方面存在显著差异。这种差异会导致系统性的、与化学组成无关的仪器依赖性光谱变化,使得在一个仪器上开发的校准模型在另一个仪器上应用时性能下降[17]。虽然原则上可以为每个仪器重新构建校准模型,但由于参考分析成本高且难以收集匹配的校准样本,这在工业和现场应用中是不切实际的[18]。
在这种情况下,仪器迁移成为提高NIR校准模型便携性的有效策略。仪器迁移旨在使在高精度实验室级“主”仪器上开发的预测模型能够可靠地应用于从不同(通常是成本较低或便携式的)“从”仪器获取的数据[19],[20],[21]。随着人工智能的快速发展,迁移学习已成为应对这一挑战的核心方法。诸如领域适应、任务适应、对抗性学习和基于特征映射的迁移等方法已被广泛采用,以减轻异构数据集之间的分布差异[22]。在这些方法中,领域适应对于光谱应用特别具有吸引力,因为它可以直接最小化不同仪器之间的特征分布差异,同时保留化学意义上的信息,从而减少重新校准的需求[23],[24]。几种领域适应方法,如迁移成分分析-支持向量回归(TCASVR)[25]、预训练模型基迁移学习(PRETL)[26]和基于金字塔外部注意力和掩码自编码器的迁移学习(PEAMATL)[14],已被用于NIR光谱分析中不同场景的迁移。TCASVR将迁移成分分析与支持向量回归结合,将源光谱和目标光谱投影到共享的潜在空间中,从而减少分布差异并高效建模非线性关系;PRETL利用卷积神经网络和傅里叶变换NIR光谱技术,从预训练模型转移参数,以提高在有限标记数据下的学习效率和预测准确性;PEAMATL采用自监督学习策略和金字塔编码器提取多尺度、领域不变的光谱表示,然后在标记的目标域样本上进行微调。尽管这些方法有效,但现有方法通常分别处理领域对齐、光谱表示学习或参数迁移。即使涉及光谱重建,也未将其与领域对齐和预测目标结合起来进行联合优化,这在严重差异的情况下可能会削弱仪器间的一致性。
为了克服这些限制,提出了一种新的联合领域对齐、光谱重建和预测建模(JDA-SR-PM)框架。具体来说,为主仪器和从仪器分别构建独立的一维U-Net架构,用于光谱重建并提取捕捉NIR光谱全局趋势和局部变化的多尺度潜在表示。然后利用领域对齐来对齐不同仪器间的潜在特征分布,确保特征表示的一致性。最后,使用对齐后的特征进行准确的蛋白质含量预测。通过结合深度光谱表示学习和自适应领域对齐,JDA-SR-PM框架为大麦蛋白质分析中的NIR仪器迁移提供了稳健的解决方案。
本研究的主要贡献总结如下:
- (1)
受大麦籽粒在线和原位蛋白质含量检测实际需求的驱动,本研究探讨了从商用NIR光谱仪(Perten DA 7250,作为主仪器)到自开发的便携式NIR设备的校准迁移。
- (2)
使用实验室级别的主仪器和便携式从仪器,建立了大麦籽粒NIR光谱及其对应蛋白质含量的数据集。
- (3)
开发了一种领域适应模型(JDA-SR-PM),以实现仪器间的有效校准迁移,确保在异构NIR平台上的稳健预测。
- (4)
验证了所提出的框架能够支持大麦籽粒中蛋白质含量的准确原位和在线监测。
部分内容
样品采集
如图1所示,大麦籽粒来自中国的四个主要生产区:云南、江苏、内蒙古和甘肃。从河南省郑州市的毛庄农业批发市场购买了大约10公斤的散装籽粒。从每批籽粒中随机抽取50–100克作为代表性样本。分别为云南、江苏、内蒙古和甘肃准备了104、67、147和161个样本。
光谱分析
图4展示了使用主仪器(a)和从仪器(b)获得的大麦籽粒NIR光谱。两种仪器得到的光谱曲线具有高度一致的整体模式。主要吸收峰的位置、基线趋势和一般光谱变化性相当,尽管在分辨率和强度缩放上存在细微差异。这种强相似性初步证明了两种仪器都能捕捉到基本的物理化学特性。
结论
本研究证明,所提出的联合领域适应-光谱重建-预测模型(JDA-SR-PM)能够实现大麦蛋白质分析中可靠的NIR仪器迁移。通过联合优化光谱重建、特征对齐和预测,该框架有效缓解了实验室级主光谱仪和便携式从仪器之间的光谱特征差异。定量评估表明,JDA-SR-PM取得了良好的性能。
CRediT作者贡献声明
张甘:撰写 – 审稿与编辑,撰写 – 原稿,研究,概念化。
张旭:方法学,研究。
李红艳:方法学,研究。
赵金辉:方法学,研究。
秦瑶:资源,研究。
张青辉:方法学,研究。
李明星:方法学,研究,数据管理。
杨宇:撰写 – 审稿与编辑,监督,概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
致谢
本研究部分得到了国家自然科学基金(项目编号:62505077)的支持,部分得到了河南省科技研究重点项目(项目编号:242103810065)的支持,以及海外学生科技活动项目优秀资助(项目编号:221240012)的支持。