《LWT》:Overcoming the bran layer barrier: predicting milled rice starch pasting properties directly from brown rice hyperspectral images
编辑推荐:
本研究针对传统方法耗时费力、难以无损评估精米淀粉糊化特性的问题,研究人员创新性地结合高光谱成像(HSI)与域自适应神经网络(DANN-MMD),旨在基于糙米光谱直接预测RVA淀粉糊化参数。结果表明,该集成框架能有效校正米糠层(450–480 nm及1200–1471 nm)引起的光谱干扰,尤其在短波红外(SWIR)区域,基于卷积神经网络(CNN)的模型对稠度粘度(CSV)和峰值时间(PET)的预测性能优异(RPD分别达2.49和3.20)。这为大米育种、贮藏和加工前的早期品质无损评估提供了高效新策略。
大米,作为全球半数人口的主食,其食用品质与淀粉的糊化特性息息相关。传统的淀粉糊化评估依赖于快速粘度分析仪(RVA),每次测量需耗时20至35分钟,且需对样品进行研磨等破坏性前处理,效率低下且难以满足高通量筛选的需求。更关键的是,当前基于高光谱成像(HSI)的预测研究多直接使用精米光谱,而在实际生产和育种中,更希望在碾磨前的糙米阶段就能对最终产品的淀粉品质进行预判。然而,糙米外层的米糠富含蛋白质、纤维素、色素等成分,它们的光谱信号严重干扰了内部淀粉信息的提取,构成了从糙米直接预测精米淀粉特性的“光谱壁垒”。
为此,发表在《LWT》上的这项研究,提出了一套创新的解决方案:将高光谱成像、域自适应技术与深度学习模型相结合,旨在直接基于糙米的高光谱图像,准确预测其制成精米后的淀粉糊化特性,实现真正意义上的早期、快速、无损品质评估。
为达成这一目标,研究人员主要运用了以下几项关键技术:首先,收集了来自3000个水稻基因组计划的151个具有广泛遗传多样性的水稻品系以及长江三角洲地区的50个品种作为独立测试集,构建了具有代表性的样本队列。其次,利用可见光-近红外(Vis-NIR, 380–1010 nm)和短波红外(SWIR, 980–2000 nm)两个高光谱成像系统分别采集糙米和精米样品的光谱图像。核心创新在于,研究采用了三种域自适应算法——深度相关对齐(Deep CORAL)、局部最大均值差异(LMMD)以及本研究重点提出的域对抗神经网络结合最大均值差异(DANN-MMD),来校正由米糠层引起的光谱分布偏移,将糙米光谱“转换”为接近精米的光谱特征。最后,使用偏最小二乘回归(PLSR)、支持向量机(SVM)和一维卷积神经网络(1D-CNN)等多种机器学习模型,以经过域自适应处理的糙米光谱为输入,预测由RVA测得的八个关键糊化参数,包括峰值粘度(PKV)、热糊粘度(HPV)、冷糊粘度(CPV)、峰值时间(PET)、糊化温度(PAT)等,并通过决定系数(R2)、均方根误差(RMSE)和残差预测偏差(RPD)等指标全面评估模型性能。
研究结果部分通过一系列详实的分析,逐步揭示了米糠层的影响并验证了所提框架的有效性。
3.1. 米糠层对精米和糙米HSI光谱的影响
通过费舍尔判别分析(FDA)、方差分析(ANOVA)和同步二维相关光谱(2D-COS)等多变量分析,研究首先明确了米糠层引起光谱干扰的关键波段。在Vis-NIR区域,主要差异出现在459-477 nm和673 nm,分别对应类胡萝卜素和叶绿素的吸收。在SWIR区域,差异显著的波段位于1200 nm(纤维素C-H键二级倍频)、1319 nm和1479 nm(蛋白质N-H键倍频)以及1728 nm(脂质C-H键)。ANOVA进一步将最具统计显著性的全局F值峰值定位在454 nm和1471 nm。这些发现清晰地描绘出碾磨过程中光谱变化的阶段特征:早期变化反映外果皮色素损失,随后是纤维素和蛋白质信号的改变,最后是脂质残留相关的光谱变化。
3.2. 光谱域适应方法的比较
研究比较了Deep CORAL、LMMD和DANN-MMD三种方法在光谱转换上的效果。主成分分析(PCA)可视化显示,在Vis-NIR和SWIR区域,DANN-MMD生成的转换光谱与原始精米光谱的分布最为接近,而Deep CORAL和LMMD则表现出明显的域偏移。定量指标(平均绝对误差MAE、光谱角制图SAM和结构相似性指数SSIM)也一致表明,DANN-MMD在SWIR和Vis-NIR区域均取得了最佳的谱重建质量(例如SWIR区域SSIM为0.966,MAE为0.029),证明其能最有效地弥合糙米与精米之间的光谱鸿沟。
3.3. 基于水稻HSI光谱的RVA谱预测
在直接建模预测方面,研究发现在两个光谱区域,CNN模型的预测性能均 consistently 优于PLS和SVM。更重要的是,无论是使用糙米还是精米原始光谱,基于SWIR数据的模型预测精度都显著高于基于Vis-NIR数据的模型。例如,使用精米SWIR光谱的CNN模型对峰值粘度(PKV)的预测Rp2达到0.76,而对峰值时间(PET)和糊化温度(PAT)的预测Rp2更是高达0.89和0.84。这凸显了SWIR光谱在捕获与淀粉糊化相关的碳水化合物和蛋白质等分子组合频带信息方面的优势。
3.4. 光谱域适应(DA)方法对HSI模型预测性能的影响
这是本研究验证其核心假设的关键环节。结果表明,使用经过DANN-MMD转换后的糙米光谱进行预测,其性能大幅提升,并能够接近甚至达到直接使用原始精米光谱建模的水平。在SWIR区域,基于DANN-MMD-CNN的模型对所有RVA参数的预测都表现出色,其中对峰值时间(PET)的预测达到了最高的Rp2(0.90)和RPD值(3.11)。对于稠度粘度(CSV)和峰值时间(PET),预测模型的RPD值分别达到了2.49和3.20,显示出优秀的预测能力。相比之下,LMMD和Deep CORAL虽然也有改善,但效果不及DANN-MMD。
在结论与讨论部分,研究团队总结了本工作的主要贡献。本研究首次系统表征了米糠层在450–480 nm和1200–1471 nm区域对糙米与精米光谱的干扰,并成功构建了一个集成高光谱成像、DANN-MMD域适应和卷积神经网络的框架,实现了直接基于糙米光谱对精米淀粉糊化特性的准确、无损预测。其中,DANN-MMD方法被证明是校正此类光谱域偏移的有效工具,而SWIR光谱结合CNN模型则为预测提供了最优的信息基础。
这项研究的意义深远。它为解决农业和食品工业中的一个实际痛点——如何在加工早期、无损地评估最终产品的关键品质——提供了切实可行的技术路径。该框架允许在育种筛选、仓储管理和加工决策前,仅通过对糙米进行快速扫描即可预知其制成精米后的糊化性能,从而节省大量时间、人力和物料成本。虽然研究在受控的碾磨程度和水分条件下取得了成功,但作者也指出,未来需要在更广泛的碾磨度、水分和米糠组成变化下验证其泛化能力。此外,该框架有望扩展到预测其他营养成分和加工特性,并与低成本、便携式HSI系统结合,为实时在线品质检测开辟了新的可能性。