基于优化卷积神经网络结合近红外光谱技术同步定量大米直链淀粉和蛋白质含量的研究

《Journal of Food Composition and Analysis》：Simultaneous Quantification of Rice Amylose and Protein Content with an Optimized Convolutional Neural Network Model via Near-Infrared Spectroscopy

【字体：大中小】 时间：2026年01月20日 来源：Journal of Food Composition and Analysis 4.6

编辑推荐：

　　本研究针对传统近红外光谱分析大米品质时存在的预处理繁琐、模型易过拟合等问题，开发了一种集成数据增强(DA)和卷积注意力模块(CBAM)的卷积神经网络回归(CNNR)模型。该模型实现了大米直链淀粉(AC)和蛋白质含量的同步高精度预测，预测集决定系数(RP2)分别达到0.972和0.992。研究成果不仅为谷物品质快速检测提供了新方法，还开发了用户友好型软件RiceQuant-NIR，推动食品安全分析技术的智能化发展。

大米作为全球半数人口的主食，其品质直接影响食味价值和加工特性。其中，直链淀粉(Amylose Content, AC)和蛋白质含量是决定大米蒸煮品质、质构特性和营养价值的核心指标。传统检测方法如碘比色法（AC测定）和凯氏定氮法（蛋白质测定）虽准确可靠，但存在流程繁琐、化学试剂消耗大、难以实现高通量检测等局限性。近红外光谱(Near-Infrared Spectroscopy, NIRS)技术以其快速、无损、环保的优势，为谷物品质分析带来了革命性突破。然而，传统的化学计量学模型，如偏最小二乘回归(Partial Least Squares Regression, PLSR)和支持向量机回归(Support Vector Machine Regression, SVMR)，严重依赖复杂的光谱预处理和特征波长筛选，模型稳健性和通用性面临挑战。近年来，深度学习技术为光谱分析注入了新活力。卷积神经网络(Convolutional Neural Network, CNN)能够自动从全光谱中提取特征，但传统CNN模型在应对小样本光谱数据时容易过拟合，且对全局光谱特征的感知能力有限。因此，开发一种能够克服这些局限、实现大米关键品质指标同步精准预测的新模型，对于提升粮食质量检测效率和智能化水平具有迫切需求。本研究旨在构建一种优化的深度学习框架，以满足这一需求，相关成果发表在《Journal of Food Composition and Analysis》上。

为达成研究目标，作者团队系统性地运用了几项关键技术。研究首先收集了149个具有广泛遗传背景的大米品种样本，制备成米粉后使用Matrix-F近红外光谱仪采集光谱数据（4000-12000 cm^-1），并采用碘比色法和凯氏定氮法分别测定其AC和蛋白质含量作为参考值。在模型构建方面，研究系统比较了PLSR、SVMR和卷积神经网络回归(CNNR)三种算法。为了提升CNN模型的性能，重点引入了两项策略：数据增强(Data Augmentation, DA)，通过向训练数据添加随机噪声以增加数据多样性，提升模型泛化能力；卷积块注意力模块(Convolutional Block Attention Module, CBAM)，该模块包含通道注意力和空间注意力机制，使模型能够聚焦于与AC和蛋白相关的关键光谱区域，抑制无关噪声。最终，将优化后的DA+CBAM+CNNR模型集成至基于PyQt5开发的用户友好型桌面应用RiceQuant-NIR中，实现了数据上传、预测和结果可视化的自动化流程。

3.1. 样本代表性及多样性

对149份大米样本的AC和蛋白质含量进行了统计分析。AC变化范围在0%至21.98%之间，平均值为17.05%，标准差为3.30%。蛋白质含量范围在6.51%至12.68%之间，平均值为7.68%，标准差为1.27%。样本覆盖了市场上大部分大米品种的AC和蛋白含量范围，表明数据集具有高度的代表性，适用于模型校准和预测。

3.2. 大米样本的光谱特性

原始近红外光谱在4000 cm^-1至9000 cm^-1范围内显示出主要的吸收峰。通过PLSR载荷分析确定了对AC和蛋白预测贡献显著的特征波数，例如，5168 cm^-1（与淀粉O-H键相关）和5361 cm^-1（与蛋白R-COOH基团相关），证实所获光谱数据包含了区分大米直链淀粉和蛋白特性的有效信息。

3.3. 光谱预处理

研究评估了包括中心化变换(CT)、标准正态变换(SNV)、乘性散射校正(MSC)、一阶二阶导数(D1, D2)等在内的多种光谱预处理方法。结果表明，CT、SNV、MSC等预处理方法能有效改善光谱质量，而导数处理（尤其是D2）虽然能消除基线漂移，但也会引入额外噪声并降低信噪比。

3.4. 校准模型开发

3.4.1. PLSR和SVMR

对于AC预测，PLSR模型在经过CT预处理并结合竞争性自适应重加权采样(CARS)进行特征波长选择后，取得了最佳预测效果（R_P²= 0.949, RMSE_P= 0.746）。对于蛋白预测，MSC结合移动平均平滑(MA)和CARS特征选择的PLSR模型效果最佳（R_P²= 0.945, RMSE_P= 0.301）。相比之下，SVMR模型的整体预测性能略逊于PLSR。

3.4.2. CNNR

基础的CNNR模型在蛋白预测上（R_P²= 0.934）已优于PLSR，但在AC预测上（R_P²= 0.807）表现不及PLSR。引入DA策略后，DA+CNNR模型的性能显著提升（AC的R_P²升至0.965，蛋白的R_P²升至0.982）。进一步集成CBAM注意力机制后，最终形成的DA+CBAM+CNNR模型达到了最高预测精度。

3.5. 模型评估

模型性能比较表明，DA+CBAM+CNNR > DA+CNNR > 优化后的PLSR > SVMR。最终的DA+CBAM+CNNR模型对AC和蛋白含量的预测决定系数R_P²分别达到0.972和0.992，预测均方根误差RMSE_P分别为0.562和0.119。该模型能够自动学习光谱中的深层非线性特征，减少了对繁琐人工预处理的依赖，并通过对关键光谱区域的注意力加权，有效提升了特征提取的效率和模型的鲁棒性。

3.6. 应用实现

基于优化的DA+CBAM+CNNR模型，研究团队开发了名为RiceQuant-NIR的桌面应用程序。该软件具备直观的图形用户界面(GUI)，支持用户轻松导入CSV或Excel格式的光谱数据，一键完成AC和蛋白含量的预测，并可视化结果。这大大降低了NIRS技术的使用门槛，为育种项目和品质控制提供了高效、便捷的工具。

本研究成功开发了一种集成了数据增强(DA)和卷积块注意力模块(CBAM)的深度卷积神经网络回归(CNNR)模型，用于同步定量分析大米中的直链淀粉(AC)和蛋白质含量。该模型显著克服了传统化学计量学模型依赖预处理和特征选择、以及常规CNN模型易过拟合和忽略全局特征的局限性。研究结果表明，DA+CBAM+CNNR模型实现了极高的预测精度和稳健性，其性能优于PLSR和SVMR模型。此外，基于该模型开发的RiceQuant-NIR应用软件，将先进的算法转化为实用的分析工具，极大地促进了近红外光谱技术在大米品质高通量、无损检测中的实际应用。这项工作不仅为谷物品质的快速评估提供了强有力的新方法，也展示了深度学习与光谱技术结合在食品分析领域的巨大潜力，为未来拓展至更多品质参数乃至整粒谷物检测奠定了坚实的基础，对推动智慧农业和食品工业发展具有重要意义。

热点排行

新闻专题