一种基于差分进化算法的全过程近红外光谱建模联合优化方法及其在落叶湿度预测中的应用
《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:A differential evolution-based joint optimization method for full-process near-infrared spectral modeling and its application to leaf litter moisture prediction
【字体:
大
中
小
】
时间:2026年03月16日
来源:Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 4.3
编辑推荐:
差分进化算法驱动的全流程联合优化方法在近红外光谱建模中实现多环节协同优化,有效解决传统分步建模的孤立性、人工依赖性强和交互效应缺失等问题。通过混合型决策向量整合异常值剔除、预处理、波长筛选及回归模型参数,结合交叉验证框架实现全局最优解搜索,并采用十模型集成策略提升鲁棒性。实验验证在森林落叶和玉米数据集上均取得高精度预测(RMSE<0.1%)且仅需10个特征波长,为开发低成本专用近红外传感器提供新范式。
作者:陶 Zhu | 建星
东北林业大学计算机与控制工程学院,哈尔滨 150040,中国
摘要
传统的近红外(NIR)光谱建模通常遵循逐步优化的流程,这种流程存在阶段割裂、严重依赖人工经验以及无法捕捉建模组件之间交互效应的问题。这些限制往往导致预测性能不佳和泛化能力差。为了解决这些问题,本研究提出了一种基于差分进化(DE)的全过程联合优化方法,该方法整合了整个NIR建模工作流程。具体而言,异常值去除、光谱预处理、特征波长选择以及回归算法的类型和超参数被共同编码到一个混合类型的决策向量中。该方法在交叉验证框架内通过最小化验证集上的均方根误差(RMSE)来进行全局联合优化。采用了一种简单的集成策略,即通过对十个独立优化的子模型的预测结果进行平均来提高模型的鲁棒性。在三个森林落叶数据集和一个公开的玉米数据集上的实验表明,所提出的方法仅使用不超过10个选定的波长就能实现高预测精度。此外,该方法还具备化学可解释性和在不同数据集及仪器平台上的良好泛化能力。这种方法为开发低成本、特定任务的轻量级NIR传感器提供了实用途径,从而为推动NIR分析向智能化和应用导向的方向发展提供了新的见解。
引言
在NIR定量分析中,构建具有高精度、鲁棒性和可解释性的模型对于实现快速且无损的检测至关重要[1]。传统的建模工作流程通常采用逐步策略[2],包括异常值去除[3]、光谱预处理[4]、波长选择[5]和回归模型构建[6]等步骤。然而,这种串行工作流程存在显著局限性:每个阶段彼此孤立,且一个阶段的决策依赖于前一个阶段的结果,这使得难以评估异常值去除、预处理、波长选择和回归算法之间的相互作用[7]。例如,异常值的去除会改变数据分布,进而影响预处理方法的选择;预处理后的光谱在基线、散射效应和噪声水平上会发生显著变化,这直接影响到特征波长的选择;所选波长子集的变化又进一步改变了回归模型的输入空间,从而导致最佳算法类型和超参数的变化。此外,逐步工作流程高度依赖人工经验,降低了自动化程度和可重复性,并限制了其在不同数据集上的适用性。
近年来,智能优化算法[8]在NIR光谱建模中展现出了巨大的潜力。它们已被广泛应用于单阶段任务,如波长选择[9]和回归模型的超参数调整[10]。然而,现有研究主要集中在这些局部优化上,并仍将建模流程视为一系列孤立的、顺序执行的步骤,未能解决组件之间的动态耦合和协同作用问题。实际上,NIR建模是一个复杂的系统,其中异常值去除、预处理、波长选择和回归模型构建之间存在强烈的相互依赖性。因此,文献中仍缺乏一个将整个建模流程视为一个整体并进行自动化、基于性能驱动的联合优化的智能框架。
为了解决这些挑战,本研究提出了一种基于DE的全过程联合优化方法[11]。其核心创新在于将异常值去除、光谱预处理、波长选择以及回归算法的类型和超参数共同编码到一个混合类型的决策向量中,然后在交叉验证框架内进行全局联合优化,目标是最小化验证集上的RMSE。这种方法代表了从经验性逐步建模向全过程联合优化的转变。所提出的方法在三个森林落叶数据集和一个公开的玉米数据集上进行了验证,表现出优异的预测性能。它仅使用不超过10个关键波长就实现了高预测精度,显著降低了光谱维度和计算复杂性。通过在这些选定波长上集成窄带光源、光学滤波器或微型探测器,可以开发出针对特定任务的传感设备,用于定量化学分析[12]、[13]、真实性验证[14]、质量分级[15]、在线过程监控[16]和地理来源追踪[17]等应用。这些设备显著降低了硬件成本和功耗,并提高了部署灵活性。这项工作促进了NIR光谱学从传统的全谱分析向轻量级、特定应用的智能传感的转变,为开发低成本、专用NIR仪器提供了实用且可扩展的途径。
数据集描述和样本划分策略
数据集描述和样本划分策略
本研究使用了与参考文献[18]中描述的相同的三组落叶样本NIR光谱数据集。详细信息见表1。所有落叶样本均由我们的研究团队于2024年10月至11月在东北林业大学城市林业示范基地收集。光谱数据是使用Ocean Optics Flame-NIR光谱仪在漫反射模式下获取的。所有样本的参考含水量值已记录在...
优化过程分析
差分进化(DE)的性能高度依赖于关键参数的选择,其中最大迭代次数和种群规模尤为重要。参数值不足可能导致算法无法充分收敛,难以找到全局或接近最优的解;而参数值过大则可能导致模型过度拟合验证集,从而影响模型的泛化能力。
为了评估迭代次数...
局限性讨论
尽管所提出的全过程联合优化方法在建模性能和可解释性方面取得了显著改进,但仍存在一些需要进一步研究的局限性。
首先,选择DE作为全局优化器主要是因为其在高维混合编码搜索空间中的优势,包括稳定的收敛性、较少的控制参数以及简单的实现方式。尽管其他元启发式算法(如遗传算法GA[48]和粒子群优化PSO[49])也有类似优势...
结论
本研究提出了一种基于DE的NIR光谱建模全过程联合优化方法,实现了从逐步经验建模向全过程智能优化的转变。该方法的核心在于建立了一个基于性能驱动的、完全集成的优化机制:异常值去除、光谱预处理、特征波长选择、回归算法及其超参数被统一到一个混合类型的决策向量中,并通过全局优化进行优化。
作者贡献声明
陶 Zhu: 数据整理、形式分析、研究调查、初稿撰写、审稿与编辑。
建星: 构思概念、方法设计、监督指导、验证工作。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本研究得到了国家自然科学基金(项目编号:32371864)的支持。
术语表
- 1D
一阶导数
- 2D
二阶导数
- 2D-COS
二维相关光谱(2D-COS)
- CART
分类与回归树
- CNN
卷积神经网络
- DE
差分进化算法
- ELM
极限学习机
- GA
遗传算法
- GRNN
通用回归神经网络
- KS
Kennard-Stone方法
- LSBoost
最小二乘提升算法
- LSSVM 最小二乘支持向量机
- MA 移动平均
- MSC 乘法散射校正
- NIR 近红外
- PLSR 偏最小二乘回归
- PSO 粒子群优化
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号