综述:针对近红外光谱数据分析的局部偏最小二乘分析的逐步教程

《Analytica Chimica Acta》:A step-by-step tutorial to local partial least squares analyses for near-infrared spectroscopic data analysis

【字体: 时间:2026年02月16日 来源:Analytica Chimica Acta 6

编辑推荐:

  偏最小二乘法(PLS)是近红外光谱分析中处理高维共线性数据的关键方法,但传统PLS在复杂非线性数据中表现受限。局部PLS通过为每个新样本选择邻近训练集进行建模,提升预测精度。本文提供R和Julia的完整代码实现,涵盖数据预处理、参数调优及预测流程,并强调该方法在异质光谱数据中的优势。

  
作者:Antoine Deryck、Juan Antonio Fernández Pierna、Vincent Baeten、Matthieu Lesnoff
单位:比利时杰姆布卢瓦(Gembloux)瓦隆农业研究中心(CRA-W)农产品质量与认证部门,邮编5030

摘要

偏最小二乘(PLS)方法是化学计量学中的关键算法,尤其是在近红外光谱分析领域。它们能够处理多重共线性和高维数据,因此成为回归和判别任务的有效工具。然而,在处理高度复杂的数据集时,PLS的性能可能会受到限制。为了解决这个问题,引入了局部PLS分析方法。局部PLS不是在整个数据集上校准模型并忽略局部差异,而是为每个新样本选择一组最近的邻居,然后基于这组邻居来预测和校准PLS模型。这样可以确保每个样本都是使用在更相关的局部上下文中训练得到的模型进行预测的。随着大型光谱数据集的日益普及,这种方法变得尤为重要且易于实施。尽管有这些优势,但由于缺乏可用的资源,局部PLS仍未得到充分应用。本教程旨在通过提供逐步指导来填补这一空白,结合理论讲解和实际应用案例,帮助读者掌握局部PLS的方法。读者将通过详细的解释、示例和避免常见错误的最佳实践获得实用知识。文中还提供了用R语言和Julia语言编写的可直接使用的脚本,以便于将其集成到研究工作中。

引言

近红外光谱(NIRS)是一种快速且无损的分析技术,广泛应用于农学、饲料和食品等领域,用于评估产品的化学成分或营养价值。在典型应用中,使用光谱仪收集一组样本的光谱数据(X),而参考测量值(y),如蛋白质或水分含量(或在判别情境中的类别归属),则是通过标准实验室分析获得的。随后建立统计模型将光谱数据与参考值关联起来,从而可以从新的光谱观测中预测y值。
在各种NIRS建模方法中,偏最小二乘(PLS)因其能够处理高维、共线性和噪声数据而成为标准方法,尤其是在光谱应用中,因为预测变量的数量(p)往往超过样本数量(n)。这使得PLS相比多重线性回归(MLR)等方法具有明显优势,后者在这种数据下表现较差。PLS与光谱学之间的内在联系在科学文献中得到了充分体现。截至2025年12月15日,在Google Scholar上搜索同时包含“spectroscopy”或“spectroscopic”和“partial least squares”的论文大约得到了30万条结果,而Scopus和PubMed分别得到了约6.5万条和8,000条结果。
然而,数据采集的新发展导致了数据集规模不断扩大且复杂性增加,给PLS带来了新的挑战。许多现代数据集由于样本的异质性(产品类别、采集时间、地理区域等)而包含数据簇,这常常会导致X和y之间的非线性依赖关系。由于PLS依赖于线性假设,因此在处理这类数据时其性能会下降。为了解决这一问题,局部PLS方法通过适应局部模式扩展了标准PLS,使其在处理复杂和非线性数据集时更加有效[1][2]。局部PLS方法包括许多已研究的变体,未来也可能会有更多新变体出现。
本教程旨在向更广泛的读者群体介绍局部PLS,介绍一些基本理论点及实际应用技巧。虽然无法全面涵盖所有变体(这超出了本文的范围,相关内容可以在其他地方找到),但文中提供了用R语言和Julia语言编写的脚本,展示了如何在真实数据集上实现这些方法。这些脚本使用了两个专为化学计量学设计的软件包:rchemo(R语言)和Jchemo(Julia语言),它们包含用于局部PLS回归和判别的特定功能。通过本教程的学习,读者将掌握必要的理论背景和技术技能,能够有效地在其数据上应用局部PLS方法。

PLS的基本原理

PLS的核心原理是通过提取正交的潜在变量(LVs)来降低预测变量矩阵X的维度,这些潜在变量总结了预测响应y所需的相关信息。这些潜在变量是原始变量(波长)的线性组合,其构建目的是最大化潜在变量与y之间的协方差。提取一个潜在变量后,相关信息会从X和y中移除(称为“去膨胀”),然后重复这一过程以提取更多的潜在变量。

局部加权(Local Weighting)

将线性回归方法适应于局部模式的做法可以追溯到20世纪70年代和80年代,当时人们提出了用于多重线性回归(MLR)的“局部加权”(LW)方法[16][17]。20世纪90年代,研究人员将这一概念应用于PLS模型[18]。LW方法的特点是根据每个待预测样本x_new来调整模型校准。它们不是平等对待所有训练样本,而是根据每个样本与x_new的相似度为其分配权重。
使用R或Julia将局部PLS应用于数据集
为了演示如何应用局部PLS,我们使用一个经过整理(去除了重复项)和预处理(标准正态变量转换,随后进行了二阶Savitzky-Golay滤波,窗口大小为21点,多项式阶数为3)的数据集challenge2018进行了完整的示例(从初步数据探索到参数调整和最终预测)。该数据集是为CHIMIOMETRIE XIX期间的预测挑战专门创建的。

结论

局部PLS是一类灵活且强大的算法,适用于处理异构数据集。与假设预测变量X和响应y之间存在单一线性关系的全局模型不同,局部PLS能够根据每个新样本的局部特征来调整预测结果,特别适用于光谱数据,尤其是近红外光谱(NIRS)。随着传感器质量和可用性的提升,现在可以获得更高质量的数据。
支持信息:KNN-LWPLS的实现代码(R语言:rchemo;Julia语言:jchemo)
本节提供了用R语言(rchemo包)和Julia语言(jchemo包)实现的代码。以下代码仅涵盖了数据加载、模型调整和最终的KNN-LWPLSR拟合部分。更完整的版本(包括数据探索步骤以及第4节中的所有图表和表格)可在以下链接获取:

作者贡献声明

Vincent Baeten:撰写、审稿与编辑、验证、监督。Juan Antonio Fernández Pierna:撰写、审稿与编辑、验证、监督、研究、概念化。Antoine Deryck:撰写、审稿与编辑、初稿撰写、可视化、验证、软件开发、方法论研究、形式化分析、概念化。Matthieu Lesnoff:撰写、审稿与编辑、可视化、验证、监督、软件开发、方法论研究、形式化分析。
未引用的参考文献
[31], [32]
关于写作过程中使用生成式AI和AI辅助技术的声明
在准备本工作时,作者使用了GPT-4o和GPT-5来提高文本的清晰度。使用这些工具/服务后,作者对内容进行了必要的审查和编辑,并对出版物的内容负全责。
利益冲突声明
作者声明没有已知的财务利益冲突或可能影响本文工作的个人关系。
Antoine Deryck是比利时瓦隆农业研究中心(CRA-W)农产品质量与认证部门的研究科学家,主要从事化学计量学和光谱数据分析在农业食品产品中的应用研究。他还在CRA-W与鲁汶大学(EAVISE研究小组)联合开展深度学习在光谱学中的应用方面的博士学位研究,研究方向包括局部偏最小二乘方法和混合物均匀性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号