分块全连接深度神经网络:一种计算高效的近红外光谱无损蛋白质预测新模型

《Smart Agricultural Technology》:A Novel and Computationally Efficient Chunk-wise Fully Connected Deep Learning Model for Non-Destructive Protein Prediction Using NIR Spectroscopy

【字体: 时间:2026年03月21日 来源:Smart Agricultural Technology 5.7

编辑推荐:

  为解决传统深光谱预测模型(如Transformer、1D-CNN)计算量大、依赖大型数据集的问题,研究者开发了一种分块全连接神经网络,用于基于近红外光谱(NIRS)的种子蛋白质含量无损预测。该模型在鹰嘴豆、豇豆、水稻三种作物上实现了高精度预测(R2= 0.90-0.97),且相比Transformer模型参数减少约78%,训练时间缩短近四倍,为高通量表型分析和便携设备部署提供了高效可行的解决方案。

在当代作物育种中,培育高蛋白品种是提升食物和饲料营养价值、保障粮食与营养安全的重要目标。然而,传统的蛋白质含量测定方法,如凯氏定氮法或杜马斯燃烧法,虽然可靠,但存在耗时、耗力、破坏样本等诸多局限,难以满足大规模种质资源库高通量表型筛选的迫切需求。有没有一种方法,能像“快速扫描仪”一样,快速、无损地“看”出种子的蛋白质含量呢?近红外反射光谱(NIR Spectroscopy, NIRS)技术为此带来了希望。它能够快速、无破坏性地获取样品的光谱信息,并通过化学计量学模型预测其化学成分。然而,传统的光谱建模方法,如偏最小二乘回归(Partial Least Squares, PLS),在处理复杂、高维且存在非线性关系的NIR数据时,其预测能力有限。近年来,深度学习模型,如一维卷积神经网络(1D Convolutional Neural Network, 1D-CNN)和Transformer,虽然在预测精度上表现出色,但它们通常需要庞大的计算资源、大量的训练数据和复杂的调参过程,这在一定程度上限制了其在农业表型分析,特别是中小规模数据集和资源受限环境(如便携设备)中的应用。为了在预测精度与计算效率之间找到最佳平衡点,一项发表在《Smart Agricultural Technology》的研究应运而生,提出了一种名为“分块全连接神经网络”的全新深度学习架构。
研究者们开展这项工作的核心,是开发并验证一种既能保持高预测精度,又显著降低计算复杂度的新模型。他们将该模型与标准的1D-CNN和基于Transformer的回归模型进行系统比较,评估其在三种重要作物(鹰嘴豆、豇豆、水稻)种子蛋白质含量预测上的性能。研究的关键技术路径包括:首先,采集了来自印度国家基因库的三种作物(鹰嘴豆n=795, 豇豆n=472, 水稻n=985)种子的NIR光谱数据(波长范围1100–2498 nm),并使用杜马斯燃烧法测定其参考蛋白质含量。其次,构建了三种深度神经网络模型:1)分块全连接神经网络:将每条700个特征的光谱分割成固定大小的“块”(chunk, 如50个特征/块),并依次处理。每个块经过全连接层后,其输出会与下一个块的输入拼接,从而实现特征的渐进式融合。2)1D-CNN模型:一个包含7个卷积层的深度网络,用于提取局部光谱特征。3)Transformer模型:将光谱划分为不重叠的块(patch),通过多头自注意力机制捕捉全局光谱依赖关系。所有模型使用TensorFlow/Keras实现,并采用相同的训练协议(70%训练, 15%验证, 15%测试, Adam优化器, MSE损失)。最后,通过决定系数(R2)、偏差(Bias)、校正预测标准误(SEP(C))和残差预测偏差(Residual Prediction Deviation, RPD)等指标全面评估模型性能,并通过综合梯度法(Integrated Gradients, IG)对分块模型的决策依据进行可解释性分析。
分析蛋白质相关的近红外光谱峰
研究分析了三种作物的平均反射光谱,其呈现宽泛、重叠的吸收带,这是NIR数据的典型特征。通过对比已知的光谱归属,研究识别出多个可能与蛋白质相关的特征波长区域,例如~1450-1600 nm(N-H一级倍频)和~2000-2222 nm(涉及N-H、C-H、C=O振动的合频,与肽键相关)。这些区域与后续模型可解释性分析中识别出的高重要性波长区吻合,支持了模型学习到的关系具有化学合理性。
光谱预处理
为消除原始光谱中的基线漂移、散射效应和随机噪声,研究采用了标准正态变量变换(Standard Normal Variate, SNV)、去趋势(Detrending, DT)和Savitzky-Golay平滑的组合预处理方法。这一步骤对于提高模型的鲁棒性和预测准确性至关重要。
模型可解释性:波长和分块水平归因
通过综合梯度分析发现,分块模型在预测时,将最高的注意力集中在~2000–2298 nm波长区域,尤其在2100–2198 nm范围内存在明显最大值。这与已知的蛋白质相关合频带区域高度一致。在分块水平上,覆盖2000–2098 nm和2100–2198 nm的“块”对总归因的贡献最大,证明了这种分块处理机制没有忽略蛋白质相关信息,而是有效地在整个光谱上累积了信息特征。
模型性能评估
在预测性能方面,Transformer模型在三种作物上均取得了最高的R2值(鹰嘴豆0.94, 水稻0.88),表明其具有最优的预测精度。然而,分块全连接神经网络的性能与之相当接近,其R2值在0.90到0.97之间,并且其RPD值在所有作物上都高于1D-CNN模型,表明其预测更可靠。所有模型的偏差值都极低(0.01-0.06),系统误差可忽略不计。
模型复杂性与部署可行性
在计算效率方面,分块模型的优势极为明显。它仅包含约0.07百万个可训练参数,每个训练周期(epoch)仅需约310毫秒。相比之下,1D-CNN模型有0.44百万个参数,耗时约2783毫秒/周期;Transformer模型有0.31百万个参数,耗时约1253毫秒/周期。这意味着分块模型在达到与Transformer媲美的预测精度的同时,参数数量减少了约78%,训练时间缩短了近四倍。这种紧凑的设计使其非常适合于集成到便携式NIR仪器、手持式表型分析工具以及需要快速处理的高通量育种流水线中。
分块神经网络的比较优势
综合来看,分块神经网络在预测性能和计算效率之间取得了最有利的平衡。虽然Transformer在绝对精度上略胜一筹,但其性能提升是以更高的模型复杂性为代价的。分块模型通过其渐进式设计,将光谱分割处理,并在每一步将前一步学习到的表征与新的光谱块输入拼接,从而能够在不依赖计算密集的自注意力或深度卷积操作的情况下,同时捕捉局部和全局的光谱结构。与1D-CNN相比,分块模型在鹰嘴豆和水稻上取得了更高或相当的R2值,同时模型更轻量、训练更快。
分块大小对分块神经网络的影响
研究还探讨了分块大小(chunk size)这一关键超参数的影响。结果显示,分块大小显著影响模型的学习动态和预测性能。在5到140的范围内,分块大小为50时取得了最低的验证均方误差。这意味着适中的分块大小(在本研究2 nm采样间隔下对应约100 nm的光谱窗口)能够在保留局部光谱分辨率和实现渐进式特征融合之间达到最佳平衡。过大或过小的分块都会损害模型性能。
结论与讨论
本研究成功开发并评估了一种用于NIRS无损预测种子蛋白质含量的、计算高效的分块全连接神经网络。该模型通过将光谱处理为固定大小的片段并渐进式整合学习到的表征,在鹰嘴豆、豇豆和水稻三种作物上实现了强大的预测性能。其准确性与Transformer模型相当,但参数数量显著减少,训练时间大幅缩短,在预测性能与计算效率之间展现了更优的平衡。与1D-CNN基线相比,分块模型也以更低的复杂度提供了更高的预测可靠性。研究表明,分块大小是影响该框架学习稳定性和效率的重要设计参数。
这项研究的重要意义在于,它为农业表型分析,特别是资源受限场景下的高通量筛选,提供了一种切实可行的深度学习解决方案。分块模型低复杂度、快训练的特点,使其成为便携式和实时表型分析工作流的理想候选。它可以支持大规模种质资源的快速初筛,优先选择候选品系进行确证性分析,从而加速以营养品质为目标的育种项目的决策过程。总体而言,分块全连接架构为NIR蛋白质预测提供了一个实用且有效的替代方案,有望在未来扩展到其他生化性状、更多作物物种以及不同仪器和操作条件下的应用中。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号