近红外光谱生成与回归建模:采用混合CVAE–1D-CNN框架,应用于土壤有机质估算

《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:Near-infrared spectral generation and regression modeling with a hybrid CVAE–1D-CNN framework: application to soil organic matter estimation

【字体: 时间:2026年02月22日 来源:Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 4.3

编辑推荐:

  利用条件变分自编码器(CVAE)与一维卷积神经网络(1D-CNN)的混合框架解决土壤有机质(SOM)光谱分析中数据稀缺问题,通过生成符合目标SOM值的光谱数据增强样本,显著提升回归模型预测精度,验证CVAE生成光谱的有效性与1D-CNN在SOM估算中的优越性。

  
余白|刘楠|李佳怡|周慧军|宋雅梅|李敏赞|杨伟
中国农业大学教育部智能农业系统重点实验室,北京100083,中华人民共和国

摘要

背景

近红外(NIR)光谱技术与化学计量建模相结合是一种广泛应用的快速、无损分析技术,在估算土壤有机质(SOM)方面具有潜力。然而,获取足够数量的实验光谱及其对应的SOM值既耗时又昂贵,且往往不切实际,这可能会影响回归模型的准确性。因此,迫切需要一种能够在保持估算准确性的同时克服数据稀缺问题的策略。

结果

本研究开发了一个混合框架,将条件变分自编码器(CVAE)与一维卷积神经网络(1D-CNN)相结合,用于光谱数据生成和回归建模。CVAE根据目标SOM含量生成了真实的光谱,这些生成的光谱与测量光谱结合形成增强数据集,用于回归建模。结果表明,CVAE能够准确再现关键的光谱特征,并生成与指定SOM值一致的光谱。增强数据集提高了回归模型的估算性能。在这些模型中,1D-CNN的表现优于偏最小二乘回归(PLSR)和随机森林(RF),显示出其从光谱数据中提取信息特征的优越能力。

意义

本研究建立了一种新的光谱分析方法,有助于缓解数据稀缺问题,并在样本量有限的情况下提升回归性能。通过将数据增强技术与先进的回归模型相结合,该方法推动了快速、无损的土壤分析,并为其他面临采样限制的光谱应用提供了有用的参考。

引言

准确且快速地评估土壤有机质(SOM)对于可持续农业、碳循环研究以及大规模土壤管理至关重要[1]、[2]、[3]、[4]、[5]、[6]。近红外光谱(NIR)提供了一种快速且无损的替代传统物理化学方法的技术,能够捕捉有机分子中含氢官能团(O-H、N-H、C-H)的振动和组合振动,从而有效表征SOM[7]、[8]。结合化学计量方法和机器学习,NIR可以实现SOM的定量评估,支持土壤调查、快速监测、农业管理和碳循环研究。
为了满足对高精度SOM评估日益增长的需求,传统的建模方法如多元线性回归(MLR)和偏最小二乘回归(PLSR)已被广泛用于SOM评估,并能提供可靠的预测[9]、[10]。机器学习算法如随机森林(RF)也被应用于各种场景,以提高预测准确性[11]、[12]。最近,深度学习由于其强大的非线性映射和自动特征提取能力而表现出色。卷积神经网络(CNN)、长短期记忆网络(LSTM)和循环神经网络(RNN)等模型已在土壤参数评估中取得成功应用,在高维光谱数据上超越了传统方法[13]、[14]、[15]、[16]、[17]、[18]、[19]。
尽管取得了这些进展,但由于样本量不足[20]、[21],构建稳健且泛化的模型仍然具有挑战性。有限的采样区域、收集大型数据集的高成本以及精确的实地测量限制了数据的可用性。例如,在中国东北部,由于黑土区的土壤保护政策,大规模采样是不可行的。样本数量有限限制了模型从数据中学习的能力,可能导致实际应用中的显著偏差,这突显了需要能够应对稀疏光谱数据集所带来的挑战的策略。
为了解决光谱数据有限的问题,已经应用了合成少数样本过采样技术(SMOTE)等增强方法来增加样本数量[22]。然而,这些方法主要依赖于简单的线性插值或随机变异机制,无法充分捕捉光谱数据的复杂特征。深度生成模型最近作为增强光谱数据集的强大替代方案出现[23]。其中,生成对抗网络(GANs)可以通过在生成器和判别器之间建立对抗机制来学习潜在分布并生成真实样本,但其训练往往不稳定,容易出现模式崩溃等问题,限制了其在受控样本生成中的可靠性[24]、[25]、[26]。条件GANs(cGANs)引入了标签或属性信息以提高可控性,并在离散变量任务中取得了成功[27],但它们在生成基于连续变量(如SOM含量)的光谱数据方面仍存在局限性[28]。
条件变分自编码器(CVAE)提供了一种通过连续属性控制生成高维数据的稳健解决方案。CVAE基于VAE框架构建,包含编码器和解码器,通过结合条件变量来学习属性和样本特征的联合分布[29]。这使得稳定训练和生成具有特定属性的样本成为可能[30]。CVAE不是对整个数据分布进行建模,而是通过将低维潜在变量与给定属性相结合来捕捉条件潜在结构,从而基于少量真实样本生成合理的样本。通过扩展数据集并保留潜在的属性相关趋势,CVAE有潜力提升模型训练和泛化能力。现有研究表明,CVAE已在视神经健康评估、热物理建模和能源系统故障诊断等领域得到广泛应用[31]、[32]、[33]。然而,CVAE在光谱数据生成中的系统应用仍然有限,特别是在基于特定有机质含量生成土壤NIR光谱的场景中。需要进一步研究来优化网络架构、评估生成样本的质量,并开发具有高准确性和强泛化能力的回归模型。
本研究提出了一种由两个相互连接的组件组成的新型光谱分析框架。第一个组件利用CVAE生成模型,通过生成基于SOM含量的光谱来缓解光谱回归建模中样本量有限的挑战。第二个组件使用由生成光谱和真实光谱组成的增强数据集来构建回归模型,从而在采样条件受限的情况下提高估算性能。具体研究目标如下:
  • 1.
    评估基于CVAE的模型用于土壤光谱数据生成的可行性,并确定有效的网络架构。
  • 2.
    建立适用于不同光谱样本量的高性能SOM估算模型。
  • 3.
    研究光谱样本量对模型性能的影响,并阐明潜在因素。
  • 研究区域和采样

    本研究共收集了423个土壤样本用于后续的实验室分析和模型开发。其中219个样本来自中国东北部,该地区的土壤主要以壤土到粘土质地为主,具有较厚的腐殖质层和高养分含量,是中国主要的农业区域之一。该地区具有寒冷温带大陆性气候,年平均温度约为4–5°C。夏季温暖湿润

    真实样本的统计和定量描述

    表4总结了所研究样本中SOM的统计特征。数据集涵盖了广泛的SOM值范围,其中中国东北部的土壤通常表现出比华北地区更高的有机质水平。这一结果部分反映了区域土壤背景的差异:中国东北部较冷且湿润的气候以及密集的植被覆盖有利于有机质的积累,而相对干燥的条件则不然

    光谱数据生成方法的比较

    高昂的数据收集成本和采集难度推动了生成模型在各个领域的应用。表10总结了将生成模型与不同光谱技术结合的现有研究。
    大多数关于光谱数据生成的研究主要采用了基于GAN的模型,生成的光谱成功支持了下游分类任务。然而,这些模型在回归任务中的应用

    结论

    使用NIR光谱进行准确的定量分析通常依赖于在足够大的数据集上训练的回归模型。然而,在实际应用中,有限的样本可用性常常限制了模型的准确性。本研究开发了一个结合CVAE与1D-CNN的混合框架,用于光谱数据生成和回归建模,并将其应用于SOM估算。结果表明,CVAE可以根据目标SOM值生成真实的光谱

    利益冲突声明

    作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:杨伟报告称获得了中国国家重点研发计划(2023YFD1701000)的财政支持。如果还有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。

    致谢

    本工作得到了中国国家重点研发计划(2023YFD1701000)的支持,同时也得到了中国农业大学2115人才发展计划的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号