《Journal of Food Composition and Analysis》:Simultaneous Quantification of Rice Amylose and Protein Content with an Optimized Convolutional Neural Network Model via Near-Infrared Spectroscopy
编辑推荐:
本研究针对传统近红外光谱分析大米品质时存在的预处理繁琐、模型易过拟合等问题,开发了一种集成数据增强(DA)和卷积注意力模块(CBAM)的卷积神经网络回归(CNNR)模型。该模型实现了大米直链淀粉(AC)和蛋白质含量的同步高精度预测,预测集决定系数(RP2)分别达到0.972和0.992。研究成果不仅为谷物品质快速检测提供了新方法,还开发了用户友好型软件RiceQuant-NIR,推动食品安全分析技术的智能化发展。
大米作为全球半数人口的主食,其品质直接影响食味价值和加工特性。其中,直链淀粉(Amylose Content, AC)和蛋白质含量是决定大米蒸煮品质、质构特性和营养价值的核心指标。传统检测方法如碘比色法(AC测定)和凯氏定氮法(蛋白质测定)虽准确可靠,但存在流程繁琐、化学试剂消耗大、难以实现高通量检测等局限性。近红外光谱(Near-Infrared Spectroscopy, NIRS)技术以其快速、无损、环保的优势,为谷物品质分析带来了革命性突破。然而,传统的化学计量学模型,如偏最小二乘回归(Partial Least Squares Regression, PLSR)和支持向量机回归(Support Vector Machine Regression, SVMR),严重依赖复杂的光谱预处理和特征波长筛选,模型稳健性和通用性面临挑战。近年来,深度学习技术为光谱分析注入了新活力。卷积神经网络(Convolutional Neural Network, CNN)能够自动从全光谱中提取特征,但传统CNN模型在应对小样本光谱数据时容易过拟合,且对全局光谱特征的感知能力有限。因此,开发一种能够克服这些局限、实现大米关键品质指标同步精准预测的新模型,对于提升粮食质量检测效率和智能化水平具有迫切需求。本研究旨在构建一种优化的深度学习框架,以满足这一需求,相关成果发表在《Journal of Food Composition and Analysis》上。
为达成研究目标,作者团队系统性地运用了几项关键技术。研究首先收集了149个具有广泛遗传背景的大米品种样本,制备成米粉后使用Matrix-F近红外光谱仪采集光谱数据(4000-12000 cm-1),并采用碘比色法和凯氏定氮法分别测定其AC和蛋白质含量作为参考值。在模型构建方面,研究系统比较了PLSR、SVMR和卷积神经网络回归(CNNR)三种算法。为了提升CNN模型的性能,重点引入了两项策略:数据增强(Data Augmentation, DA),通过向训练数据添加随机噪声以增加数据多样性,提升模型泛化能力;卷积块注意力模块(Convolutional Block Attention Module, CBAM),该模块包含通道注意力和空间注意力机制,使模型能够聚焦于与AC和蛋白相关的关键光谱区域,抑制无关噪声。最终,将优化后的DA+CBAM+CNNR模型集成至基于PyQt5开发的用户友好型桌面应用RiceQuant-NIR中,实现了数据上传、预测和结果可视化的自动化流程。
3.1. 样本代表性及多样性
对149份大米样本的AC和蛋白质含量进行了统计分析。AC变化范围在0%至21.98%之间,平均值为17.05%,标准差为3.30%。蛋白质含量范围在6.51%至12.68%之间,平均值为7.68%,标准差为1.27%。样本覆盖了市场上大部分大米品种的AC和蛋白含量范围,表明数据集具有高度的代表性,适用于模型校准和预测。
3.2. 大米样本的光谱特性
原始近红外光谱在4000 cm-1至9000 cm-1范围内显示出主要的吸收峰。通过PLSR载荷分析确定了对AC和蛋白预测贡献显著的特征波数,例如,5168 cm-1(与淀粉O-H键相关)和5361 cm-1(与蛋白R-COOH基团相关),证实所获光谱数据包含了区分大米直链淀粉和蛋白特性的有效信息。
3.3. 光谱预处理
研究评估了包括中心化变换(CT)、标准正态变换(SNV)、乘性散射校正(MSC)、一阶二阶导数(D1, D2)等在内的多种光谱预处理方法。结果表明,CT、SNV、MSC等预处理方法能有效改善光谱质量,而导数处理(尤其是D2)虽然能消除基线漂移,但也会引入额外噪声并降低信噪比。
3.4. 校准模型开发
3.4.1. PLSR和SVMR
对于AC预测,PLSR模型在经过CT预处理并结合竞争性自适应重加权采样(CARS)进行特征波长选择后,取得了最佳预测效果(RP2= 0.949, RMSEP= 0.746)。对于蛋白预测,MSC结合移动平均平滑(MA)和CARS特征选择的PLSR模型效果最佳(RP2= 0.945, RMSEP= 0.301)。相比之下,SVMR模型的整体预测性能略逊于PLSR。
3.4.2. CNNR
基础的CNNR模型在蛋白预测上(RP2= 0.934)已优于PLSR,但在AC预测上(RP2= 0.807)表现不及PLSR。引入DA策略后,DA+CNNR模型的性能显著提升(AC的RP2升至0.965,蛋白的RP2升至0.982)。进一步集成CBAM注意力机制后,最终形成的DA+CBAM+CNNR模型达到了最高预测精度。
3.5. 模型评估
模型性能比较表明,DA+CBAM+CNNR > DA+CNNR > 优化后的PLSR > SVMR。最终的DA+CBAM+CNNR模型对AC和蛋白含量的预测决定系数RP2分别达到0.972和0.992,预测均方根误差RMSEP分别为0.562和0.119。该模型能够自动学习光谱中的深层非线性特征,减少了对繁琐人工预处理的依赖,并通过对关键光谱区域的注意力加权,有效提升了特征提取的效率和模型的鲁棒性。
3.6. 应用实现
基于优化的DA+CBAM+CNNR模型,研究团队开发了名为RiceQuant-NIR的桌面应用程序。该软件具备直观的图形用户界面(GUI),支持用户轻松导入CSV或Excel格式的光谱数据,一键完成AC和蛋白含量的预测,并可视化结果。这大大降低了NIRS技术的使用门槛,为育种项目和品质控制提供了高效、便捷的工具。
本研究成功开发了一种集成了数据增强(DA)和卷积块注意力模块(CBAM)的深度卷积神经网络回归(CNNR)模型,用于同步定量分析大米中的直链淀粉(AC)和蛋白质含量。该模型显著克服了传统化学计量学模型依赖预处理和特征选择、以及常规CNN模型易过拟合和忽略全局特征的局限性。研究结果表明,DA+CBAM+CNNR模型实现了极高的预测精度和稳健性,其性能优于PLSR和SVMR模型。此外,基于该模型开发的RiceQuant-NIR应用软件,将先进的算法转化为实用的分析工具,极大地促进了近红外光谱技术在大米品质高通量、无损检测中的实际应用。这项工作不仅为谷物品质的快速评估提供了强有力的新方法,也展示了深度学习与光谱技术结合在食品分析领域的巨大潜力,为未来拓展至更多品质参数乃至整粒谷物检测奠定了坚实的基础,对推动智慧农业和食品工业发展具有重要意义。