《Chemometrics and Intelligent Laboratory Systems》:Optimizing calibration sample selection in infrared spectroscopy
编辑推荐:
化学计量学与红外光谱结合的样本选择算法研究。评估预处理、变量降维和编码对KS和WSP算法的影响,发现降维和编码能提升模型性能,预处理对KS影响更大。建议降维加编码策略,并推荐WSP算法在预处理不确定时的稳定性。
卡尔·查洛托(Carl Charloto)|马克西姆·梅茨(Maxime Metz)|尼古拉·格罗图斯(Nicolas Grotus)|大卫·埃斯特韦(David Esteve)|米歇尔·塞尔让(Michelle Sergent)|玛格丽·克莱斯-布鲁诺(Magalie Claeys-Bruno)
佩伦克ST公司,应用研究组,84120,佩尔蒂斯(Pertuis),法国
摘要
与红外光谱相关的化学计量学在化学分析中已被广泛用于建立预测模型。然而,用户在构建和维护模型时面临的一个挑战是选择校准样本。虽然存在多种选择算法,但许多算法依赖于参考值或对底层模型做出假设。在仅依赖光谱数据的可用算法中,肯纳德-斯通(Kennard-Stone)算法在红外光谱领域被广泛使用。另一种基于距离的选择算法——伍顿-塞尔让-潘-谭-卢(Wootton-Sergent-Phan-Tan-Luu)算法——强调实现均匀选择。然而,这两种有前景的算法最初都是为处理低相关性和特征重叠度小的数据集而设计的。红外光谱数据并不符合这些条件。因此,这引发了直接将这些算法应用于原始光谱的相关性问题。为了解决这个问题,采用了光谱预处理、变量降维和变量编码等转换方法来降低光谱数据的复杂性。本研究评估了当使用KS和WSP从候选集中选择样本时,这三个参数对模型性能的影响。结果表明,降维和编码通常通过减少冗余和促进均匀的光谱覆盖来提供轻微的改进或保持性能。预处理对算法的影响不同:WSP在不同策略下表现稳健,而KS对预处理的敏感度较高。基于这些发现,我们建议对于预处理选择不确定的应用,先进行降维再对线性结构的数据进行编码,并选择WSP。这项工作强调了在样本选择之前进行数据转换的重要性。
引言
红外(IR)光谱技术被广泛应用于许多行业和科学领域[1,2],包括制药[3,4]、农业和食品加工[5,6]以及回收[7]。这项技术因其能够快速且非破坏性地提供关于光谱特征的信息而脱颖而出,这些特征与浓度、纯度或成分等感兴趣的属性相关。然而,要有效使用红外光谱,必须将其与化学计量模型[1,8,9]结合使用,以便解释光谱信息并提供感兴趣属性的预测。校准和模型更新依赖于将红外光谱与通过实验室分析获得的感兴趣属性的参考值配对的数据集。由于需要专业知识、昂贵的技术和劳动密集型程序,获取参考数据通常需要大量的努力和高成本[10]。因此,构建校准数据集对用户来说可能是一个重大挑战,并可能限制某些应用的可行性。相比之下,光谱测量容易且成本低廉,可以无限制地收集大量光谱。然而,在当前的许多实践中,所有收集的光谱都会系统地进行参考分析,无论它们对模型开发的贡献如何。这种方法可能导致获取到冗余的信息,从而造成资源浪费。当明确考虑样本选择问题时,大多数化学计量应用将其视为一个初步步骤,其中预先选择固定比例的可用数据并假设这已经足够。相比之下,本研究采用了不同的视角。我们不是指定固定数量的校准样本来确保模型的满意性能,而是专注于确定实现目标预测精度所需的最小样本数量。为了尽可能接近这个最小值,我们将样本选择直接集成到训练过程中。这自然引出了哪种样本选择策略最有效的问题。
存在各种样本选择算法,大致可以分为监督学习和无监督学习方法。监督学习方法依赖参考值来选择样本。例如,简单区间计算(Simple Interval Calculation,SIC)[11]使用参考值的区间预测来评估有影响力的样本。同样,基于Y的样本集划分(Sample set Partitioning based on Y,SPY)[12]和基于X和Y的SPXY[13]及其变体也在选择过程中使用参考值。因此,这些方法适用于从已有参考测量的候选集中选择子集。然而,它们没有解决在最小化所需参考分析次数的同时构建新模型的问题。相比之下,无监督学习方法仅依赖X来提供光谱空间的代表性覆盖。在这个组中,D-最优设计(D-optimal design,[14])是一种经典方法,它只需要X。尽管如此,它基于对底层模型的假设,这些假设在新应用环境中可能不成立。其他无监督学习方法纯粹基于光谱,包括因其简单性和有效性而广受认可的肯纳德-斯通(Kennard-Stone,KS)[15]算法、强调均匀覆盖的伍顿-塞尔让-潘-谭-卢(Wootton-Sergent-Phan-Tan-Luu,WSP)[16]算法,以及使用马氏距离(Mahalanobis distances)来考虑光谱变量之间相关性的普赫韦因(Puchwein)[17]算法。聚类策略[18]通过将光谱分组并从每个簇中选择代表性样本进一步扩展了这一想法。这些无监督方法为减少昂贵的参考分析提供了实用的解决方案,尽管尽管红外数据具有特定挑战,但它们直接应用于原始光谱的情况很少受到质疑。
虽然无监督学习方法的优势在于仅依赖于光谱变量,但它们的性能很大程度上取决于数据的特性。光谱的特点是变量高度冗余、相关且异质,具有特定的关注区域。这可能导致某些光谱区域在选择过程中占据主导地位。因此,无监督选择算法可能优先考虑信号更强或方差较大的区域,这可能不利于模型的校准。此外,有研究表明[19],光谱不仅受到目标化合物的光谱特征的影响,还受到其他物质的化学干扰和温度波动或光散射等物理现象的影响。因此,光谱可以概念性地分解为两部分:一部分包含来自目标分析物的预测信息,另一部分由噪声、干扰或无关变异性组成。区分这两部分对于提高选择过程的质量和结果校准模型的可靠性至关重要。
通常会应用各种转换来减轻有害变异并促进模型校准。例如,降维或光谱预处理等技术被广泛用于消除混淆效应,帮助模型捕捉光谱与感兴趣属性之间的关系。多项研究调查了这些转换在样本选择中的作用。例如,一篇论文[10]研究了四个参数的影响,包括通过主成分分析(PCA)[20]进行降维、选择算法、样本大小和模型复杂性(基于Vapnik的理论框架)。研究表明,对于固定样本大小,输入维度和模型复杂性降低了选择算法对模型性能的影响。然而,模型复杂性是在训练之前定义的,这在实践中具有挑战性,并可能限制模型避免欠拟合或过拟合的能力。另一项研究[21]关注了预处理与肯纳德-斯通算法结合的效果。结果表明,预处理对选择有不同的影响,进而影响模型性能。虽然这项工作仅关注肯纳德-斯通算法,但它提出了其他无监督选择算法是否会对预处理策略产生类似响应的问题。
最后,本文的结构如下:第一部分旨在系统评估PCA和编码对两种广泛使用的选择算法KS和WSP性能的影响。这通过两种情景进行了研究。本文的第二部分旨在评估预处理、PCA和编码对涉及牛奶和粪便数据集的实际案例中这两种算法性能的影响。最终目标是为数据转换如何影响选择算法识别信息丰富校准样本的能力提供实际见解。
小节片段
影响样本选择的参数
在这项研究中,我们调查了三个参数对选择的影响:使用PCA进行变量降维、预处理和编码。每种参数组合产生了一种特定的配置。对于模拟数据集,配置遵循以下模式:变量降维 – 编码。对于真实数据集,配置遵循以下模式:预处理 – 变量降维 – 编码。
预处理参数涉及评估两种预处理策略的效果,
结果
本结果部分分为两部分。第一部分展示了在模拟数据集上获得的结果,见图1、图2、图3。第二部分关注牛奶和粪便数据集的结果,见图4、图5、图6、图7、图8、图9。
结论
本研究考察了降维、变量编码和预处理策略对样本选择算法性能的影响,特别是KS和WSP。在所有测试的数据集和配置中,这两种选择算法的性能都优于随机选择。这突显了在模型训练期间选择光谱的必要性,以较低的成本实现良好的预测性能。此外,选择的相对收益与难度成正比。
CRediT作者贡献声明
卡尔·查洛托(Carl Charloto):撰写 – 审稿与编辑、撰写 – 原稿、可视化、验证、监督、软件、资源管理、方法论、研究、资金获取、正式分析、数据管理、概念化。马克西姆·梅茨(Maxime Metz):撰写 – 审稿与编辑、可视化、验证、监督、资源管理、方法论、研究、资金获取、正式分析、概念化。尼古拉·格罗图斯(Nicolas Grotus):概念化、正式
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
本工作获得了IDRIS的HPC资源的访问权限,该权限由GENCI根据分配号2023-[AD010114820]授予。