利用拓扑集成框架改进基于傅里叶变换红外光谱(FTIR)的食物 authenticity 分类方法

《Current Research in Food Science》:Improved FTIR-based classification for food authentication using a topological ensemble framework

【字体: 时间:2026年05月16日 来源:Current Research in Food Science 7

编辑推荐:

  许新春|陈宇凯 台湾东海大学信息管理系 摘要 确保食品产品的真实性和质量是食品科学技术中的一个关键挑战,尤其是在成分差异微妙且无法通过视觉区分的情况下。傅里叶变换红外(FTIR)光谱学为食品鉴定提供了一种有前景的分析工具,然而实际光谱常常存在基线漂移、散射效应和重叠

  许新春|陈宇凯
台湾东海大学信息管理系

摘要
确保食品产品的真实性和质量是食品科学技术中的一个关键挑战,尤其是在成分差异微妙且无法通过视觉区分的情况下。傅里叶变换红外(FTIR)光谱学为食品鉴定提供了一种有前景的分析工具,然而实际光谱常常存在基线漂移、散射效应和重叠的吸收带,这些因素使得可靠区分变得复杂。因此,这些非线性和重叠的光谱信号会限制传统化学计量方法(如主成分分析和偏最小二乘回归)的性能,而这些方法通常用于降维和回归分析,但往往无法泛化到非线性光谱数据。为了解决这些限制,本研究引入了一个框架,该框架结合了滑动窗口嵌入和拓扑数据分析(TDA)来捕捉局部、中观和全局的光谱结构,然后通过基于装袋的集成学习使用透明的基础学习器进行稳健预测。从UCR时间序列分类档案中选取了六个与食品相关的FTIR基准数据集,在官方固定的训练-测试划分下进行了全面评估,无需额外的数据集特定预处理。结果表明,与20种广泛使用的时间序列分类器相比,所提出的方法在标准化UCR基准设置下表现出一致的稳健性能,无论是在基于距离的方法、基于特征的方法、集成方法还是深度学习方法中,都实现了高分类准确率和高的Macro-F1分数,这基于文献中的报告结果。分析进一步说明了多尺度拓扑描述符如何增强可解释性,并提供了对光谱变异性的洞察。总体而言,该框架平衡了透明度、稳健性和计算效率,为后续研究提供了一个可复制的基于基准的参考,这些研究在受控采集设置下评估测量特定效应。

1. 引言
尽管分析技术和数据驱动方法不断进步,但保持食品的真实性和一致的质量仍然是食品科学技术中最持久的挑战之一。复杂的全球供应链以及频繁发生的掺假、替代和错误标签事件,强烈需求快速且可靠的分析方法。在光谱工具中,傅里叶变换红外(FTIR)光谱学变得不可或缺,因为它是非破坏性的,每样本的成本效益高,并且能够生成反映微妙成分差异的可重复分子指纹。在油类、蜂蜜、乳制品、咖啡和肉类中,FTIR已被广泛用于验证品种、地理来源和收获年份。例如,FTIR数据的化学计量分析成功区分了土耳其橄榄油的品种和年份(Gurdeniz等人,2008年),实现了牛奶掺假的监测(Oliveira等人,2019年;Ceniti等人,2023年),支持了蜂蜜的鉴定(Valand等人,2020年;Damto等人,2023年),并区分了咖啡种类(Briandet等人,1996年;Barbin等人,2014年)。最近的综述进一步强调了FTIR在质量保证和真实性工作流程中的日益重要作用(Haider等人,2024年;Fodor等人,2024年)。

尽管取得了这些进展,技术挑战仍然存在。FTIR光谱常常表现出非线性变异、重叠的吸收带、基线漂移、散射效应和成分异质性,这使得在类别差异微妙时难以区分。传统的化学计量方法(如主成分分析(PCA)和偏最小二乘回归(PLSR)长期以来一直是FTIR流程中的参考工具,因为它们具有可解释性和效率。然而,这些方法主要依赖于全局线性投影和方差驱动的表示,这可能会减弱局部或尺度依赖的光谱模式,并在存在非线性结构和测量噪声的情况下限制泛化能力。这些限制促使开发出保留可解释性同时提高稳健性的结构感知表示方法。

食品欺诈对公共卫生和经济的影响已有充分记录。橄榄油稀释、蜂蜜错误标签和牛奶污染等高调事件突显了可靠鉴定的紧迫性。国际机构如食品法典(Codex Alimentarius)和ISO强调需要经过验证且可重复的分析方法,这些方法应在市场上被接受(Valand等人,2020年;Oliveira等人,2019年)。虽然光谱测量结合机器学习(ML)提供了一个有前景的方向,但传统流程仍然面临着准确性、可解释性和可扩展性之间的持续权衡。解决这一权衡是基于FTIR的食品鉴定研究中的核心方法论挑战。

从应用测量的角度来看,FTIR经常被讨论作为质量评估的候选工具,因为它产生的分子指纹是可重复的,可以存档和审查。然而,证明操作适用性和符合监管要求需要超出基准研究的仪器和过程特定验证。当与适当的计算分析结合时,FTIR能够实现高通量筛选,同时保持透明度。然而,将先进的分析表示转化为应用测量设置需要在标准化条件下进行仔细的方法论验证,然后才能声称特定领域的部署。

时间序列分类(TSC)的进步与FTIR分析直接相关,因为波数排序的光谱可以被视为序列信号。基于距离的方法,如动态时间弯曲(DTW),对于小型或噪声较大的数据集仍然是强有力的基线(Berndt和Clifford,1994年)。基于特征的方法提供了可解释性,但通常难以处理高维或非线性信号(Fulcher和Jones,2014年)。深度学习模型,包括卷积神经网络(CNN),经常实现最先进的准确性(Wang等人,2017年;Fawaz等人,2019年),但其数据要求和有限的透明度可能与强调可解释性和可审计性的设置不太匹配。因此,可解释性和数据效率在应用食品鉴定背景下仍然是未解决的约束。

拓扑数据分析(TDA)为捕捉复杂序列数据中的结构信息提供了一种数学上基于的方法。滑动窗口嵌入将光谱转换为点云,持久同调描述了多个观测尺度上拓扑特征的生成和消失(Perea和Harer,2015年;Perea,2019年)。向量化技术,如持久性景观(Bubenik,2015年)和持久性图像(Adams等人,2017年),使得这些描述符能够集成到ML流程中,产生对噪声具有鲁棒性的表示,同时保持可解释性。TDA在生物医学、运动和工业监测领域展示了其价值(Seversky等人,2016年;Rucco等人,2016年;Khasawneh等人,2016年;Uray等人,2024年),表明其在具有挑战性的光谱分类问题中的潜在相关性。

本研究的动机主要是方法论上的。科学上,需要评估拓扑表示是否能够解决传统化学计量学和标准ML在应用于非线性和结构复杂的FTIR光谱时的局限性。因此,这项工作被定位为一个基于基准的方法论研究,使用标准化的公共数据集评估滑动窗口TDA和集成学习框架,而不是一个面向操作的FTIR鉴定设置的研究。所有实验都是在加州大学河滨分校(UCR)时间序列分类档案中的食品相关数据集上进行的(Dau等人,2018年;Dau等人,2019年),优先考虑数据集覆盖范围和可重复性,而不是选择性案例研究。

本研究的目标有四个。首先,通过滑动窗口嵌入和持久同调提取拓扑特征来推进基于FTIR的分类。其次,通过将TDA特征与集成ML策略(如装袋)相结合来评估稳健性和可解释性。第三,在标准化基准条件下系统地评估UCR档案中所有公开可用的基于FTIR的食品数据集的性能。第四,提供方法论洞察,了解多尺度拓扑表示如何捕捉光谱变异,为未来旨在将先进的光谱分析方法转化为应用食品鉴定背景的研究提供参考框架。

本文的其余部分组织如下。第2节回顾了有关FTIR分类挑战和TDA基础的相关文献。第3节介绍了所提出的方法论。第4节报告了实验、比较评估以及窗口大小效应和Macro-F1的分析。第5节总结了关键发现和未来研究的方向。

2. 文献回顾
2.1. 作为有序时间序列的FTIR光谱数据
FTIR光谱学因其快速性、非破坏性和捕捉分子指纹的能力而在食品鉴定中得到广泛应用。当波数排序的光谱被视为序列信号时,它们可以与时间序列数据相比较,并使得原本在信号处理中开发的先进分类方法得以应用。

在不同产品类别中,FTIR结合化学计量学或ML已被验证用于品种区分、来源分类和掺假检测。在橄榄油中,早期工作建立了地理和年份差异(Tapp等人,2003年;Gurdeniz等人,2008年),最近的研究使用了无目标光谱和化学计量建模(Skiada等人,2023年;De Angelis等人,2025年)。对于咖啡,FTIR可以区分种类并评估质量特征(Briandet等人,1996年;Barbin等人,2014年)。蜂蜜鉴定在来源和掺假方面实现了高准确性,包括糖浆(Valand等人,2020年;Damto等人,2023年;Prata和da Costa,2024年;Dimakopoulou-Papazoglou等人,2025年)。在乳制品中,FTIR光谱学已被系统地评估为一种强大的高通量工具,用于检测掺杂物、污染物和毒素,所需的样品准备最少,并且与化学计量分析兼容性强(Saji等人,2024年)。它越来越多地被用于牛奶及其衍生产品的常规监测和欺诈预防(Oliveira等人,2019年;Ceniti等人,2023年;Du,2024年)。对于食用油和人造黄油,FTIR支持质量评估和掺假检测(Khodabakhshian等人,2023年;Tachie等人,2024年)。在肉类中,FTIR可以区分种类并验证真实性(Al-Jowder等人,2002年;Dimitriou等人,2025年)。

除了个别产品之外,最近的综述阐述了将FTIR与先进数据分析结合用于食品真实性工作流程的更广泛机会和挑战,强调了稳健性、可解释性和可扩展性的重要性(Haider等人,2024年;Zhang等人,2024年;Nadimi和Paliwal,2024年)。这些例子表明,当应用适当的预处理流程时,有序光谱包含足够的结构信息用于监督分类。然而,大多数现有努力仍然基于化学计量学或传统ML,这突显了需要更加稳健和可解释的方法。在本研究中,食品鉴定被操作化为一个分类任务,其中FTIR光谱序列用于根据来源、质量或掺假状态区分产品。这一视角激发了下一节中对TSC方法的探索。

2.2. TSC方法
食品光谱的分析受益于TSC的进步,该领域产生了几种方法论家族。基于特征的方法将序列转换为描述符集,如统计摘要、自相关或频率系数。Fulcher和Jones(2014年)创建了一个大型特征库,使得在许多领域中进行可解释的分类成为可能,尽管噪声数据会降低其有效性。基于距离的方法仍然具有影响力,因为DTW及其衍生物已在许多基准数据集上得到验证(Berndt和Clifford,1994年;Bagnall等人,2017年)。当对齐至关重要时,DTW表现良好,但它对于大型数据集的扩展性较差,并且可解释性有限。

表示学习方法,如shapelets,通过识别区分性子序列提供了中间解决方案。Lines等人(2012年)和Grabocka等人(2014年)证明基于shapelet的分类器可以捕捉序列数据中的局部区分性模式。深度学习方法进一步推进了TSC。CNN和循环架构(如长短期记忆模型)在基准数据集上实现了最先进的准确性(Wang等人,2017年;Fawaz等人,2019年)。然而,它们需要大量数据并且对解释性不透明,这限制了它们在需要监管验证和可重复性的领域中的使用。这些挑战在食品科学中尤其相关,因为可解释性不是可选的,而是监管批准的基本要求。

尽管取得了这些成功,传统TSC方法在直接应用于FTIR数据时仍面临限制。食品光谱常常表现出重叠的峰值和非线性变异,这降低了线性特征提取和距离度量的有效性。虽然深度学习模型可以提高准确性,但它们会牺牲可解释性和可重复性。这些限制促使探索结合稳健性、透明度和可扩展性的数学上基于的替代方法。

这些方法论家族,包括基于距离的、基于特征的、集成和深度学习方法,代表了本研究中采用的典型时间序列分类器类别(详见表2)。

表2. 所提出方法与UCR时间序列分类档案中六个基于FTIR的食品数据集上的二十种代表性时间序列分类器的分类准确性比较。

方法
牛肉
咖啡
肉类
橄榄油
草莓
葡萄酒
DTW
0.63
3
1.00
0.93
3
0.83
3
0.94
1
0.57
4
TSF
0.76
7
0.96
4
0.93
3
0.86
7
0.96
5
0.63
0
TSBF
0.56
7
1.00
0.93
3
0.83
3
0.95
4
0.61
1
ST
0.90
0
0.96
4
0.85
0
0.90
0.96
2
0.79
6
LS
0.86
7
1.00
0.73
3
0.16
7
0.91
1
0.50
0
BOSS
0.80
0
1.00
0.90
0.86
7
0.97
6
0.74
1
EE
0.63
3
1.00
0.93
3
0.86
7
0.94
6
0.57
4
COTE
0.86
7
1.00
0.91
7
0.90
0.95
1
0.64
8
MLP
0.83
3
1.00
0.93
3
0.40
0
0.96
7
0.79
6
FCN
0.75
0
1.00
0.96
7
0.83
3
0.96
9
0.89
0
ResNet
0.76
7
1.00
1.00
0.86
7
0.95
8
0.79
6
Catch2
2
0.47
3
0.98
0
0.94
3
0.74
6
0.92
3
0.70
0
TS-CHIEF
0.70
6
1.00
0.88
8
0.88
8
0.96
6
0.89
1
DMS-CNN
0.73
3
1.00
0.94
4
2
0.96
9
0.55
6
GRAE-ESN
0.93
3
1.00
0.93
3
0.86
7
0.97
3
0.87
0
TSCaps
0.90
1.00
1.00
0.96
7
0.98
6
0.85
2
TSC-F
0.76
7
1.00
--
0.93
3
----
AFFNet
0.83
3
1.00
0.95
0.76
7
0.97
6
0.72
2
TSCF
0.78
0
1.00
1.00
0.92
0
0.96
5
0.68
5
ECRIC
0.70
0
1.00
--
0.73
----
Ours
0.93
3
1.00
1.00
0.96
7
0.97
8
0.92
6

注:粗体表示每个数据集上取得的最佳准确性。“--”表示相应方法在先前的研究中未在该数据集上进行评估。

2.3. 带有滑动窗口的TDA
拓扑数据分析(TDA)提供了一个描述数据形状的数学框架。其主要工具,持久同调,量化了多个尺度上拓扑特征的生成和消失。持久性图、Betti曲线及相关描述符捕捉了在数据扰动下保持稳定的结构属性(Cohen-Steiner等人,2007年;Edelsbrunner和Harer,2010年)。这些表示方法可以被向量化为持久性景观(Bubenik,2015年)、持久性图像(Adams等人,2017年)和基于核的拓扑描述符(Reininghaus等人,2015年;Kusano等人,2016年),从而能够将它们整合到机器学习工作流程中。最近的综述强调了基于持久同调的表示方法在数据驱动建模和分类中的日益广泛应用(Pun等人,2022年)。拓扑深度学习的发展进一步将这些概念扩展到了具有几何感知性和可解释性的学习框架中(Zia等人,2024年)。滑动窗口技术将一维信号转换为高维点云。实证研究表明,在周期性检测和抗噪声能力方面有显著改进,尽管这也揭示了错过长程动态的风险(Perea和Harer,2015年;Gakhar和Perea,2023年)。Perea和Harer(2015年)正式化了这种方法,后续研究证实了其对各种序列数据的鲁棒性。Perea(2019年)扩展了对该技术的理论理解,而Seversky等人(2016年)和Rucco等人(2016年)使用基准数据集验证了其分类性能。Gidea和Katz(2018年)将TDA应用于动态系统,增强了其通用性。在生物医学应用中,Flammer(2024年)表明,滑动窗口嵌入结合持久同调能够有效区分EEG信号中的癫痫事件。Wang等人(2022a)回顾了TDA在生物医学中的用途,并确认了其对序列数据和光谱数据的适应性。这些发现表明,由于生物医学和食品光谱之间的结构相似性,TDA提供了可转移的方法论优势,可以扩展到食品科学领域。超出理论设置的应用进一步说明了TDA的方法论可转移性。Khasawneh和Munch(2016年)将持久同调应用于制造环境中的振动信号以检测颤动。Uray等人(2024年)回顾了TDA在预测性维护和异常检测中的应用,强调了其在过程监控研究中的分析作用。Zia等人(2024年)引入了将TDA与现代机器学习架构相结合的拓扑深度学习,强调了可解释性和结构化表示学习。总体而言,这些研究表明,TDA已在纯数学之外的应用领域得到了成功探索,支持了其适应结构复杂光谱数据的潜力。然而,TDA在食品科学中的系统应用仍然很少。大多数现有的FTIR认证流程依赖于化学计量学或传统机器学习,只有少数研究考虑了更先进的框架。尽管TDA已在生物医学和工业领域得到验证,但其对食品相关FTIR数据的适应仍然有限。诸如重叠峰、成分变化以及可解释性的监管要求等关键挑战从拓扑角度来看仍需进一步探索。这一差距突显了需要专门的研究来适应食品光谱数据,以确保方法论的严谨性和真实性验证的实际意义。

2.4. 对本研究的启示
回顾的文献强调了三个关键见解,这些见解直接为本研究的设计提供了信息。尽管FTIR和化学计量学流程已广泛应用于橄榄油、蜂蜜、乳制品和咖啡,但很少有研究系统地整合了先进的TSC或TDA方法进行食品相关FTIR分类。TDA的现有应用主要集中在生物医学和工业领域,而在食品科学中,可解释性和监管验证是必不可少的,因此存在一个空白。解决这一空白需要将方法论的严谨性扩展到直接影响食品认证的数据集。首先,FTIR光谱可以被视为适合高级分类方法的有序时间序列。其次,虽然传统的TSC方法(如基于特征的、基于距离的和深度学习模型)提供了有价值的基线,但在应用于食品光谱数据时,它们在鲁棒性、可扩展性和可解释性方面面临持续挑战。第三,结合滑动窗口嵌入的TDA提供了一种数学上有根据的替代方案,已在生物医学和工业领域取得了成功。这些见解为本研究奠定了基础。通过将FTIR光谱学、TDA和机器学习整合到一个统一的框架中,所提出的方法解决了现有技术的局限性,同时符合食品认证研究中普遍讨论的优先事项,如鲁棒性、透明度和可重复性。这种定位不仅推进了方法论创新,还确保了实际相关性,从而为第3节描述的方法论发展提供了坚实的基础。尽管如此,TDA在食品科学中的系统应用仍然有限,特别是对于FTIR光谱序列,这正是本研究试图解决的空白。

3. 方法论
本研究开发了一个分类框架,将TDA与集成机器学习结合用于食品相关FTIR光谱序列。工作流程包括四个阶段:(1)时间延迟嵌入以重建点云,(2)持久同调以提取拓扑特征,(3)特征工程,(4)集成分类。提供了明确的数学定义和参数选择以确保可重复性。

3.1. 时间延迟嵌入和点云
TDA需要将单变量FTIR光谱转换为结构化的点云。使用Takens的嵌入定理(Takens,1981年),可以重建动态系统的相空间。给定一个长度为n的单变量时间序列,时间延迟嵌入定理允许将其嵌入到m维欧几里得空间中:
\[ \text{嵌入} = \text{原始时间序列} \times \text{时间延迟矩阵} \]
其中n表示嵌入维度,d表示时间延迟参数。这种方法已成功应用于生物医学信号(Emrani等人,2014年)、振动监测(Khasawneh和Munch,2016年)和非线性时间序列(Seversky等人,2016年;Karan和Kaygun,2021年)。对于FTIR光谱,嵌入有助于揭示原始数据中不易观察到的周期性和局部结构,从而为后续的拓扑分析提供了基础。

3.2. TDA和持久同调
TDA捕捉了在连续变形下保持不变的结构不变量,如连通分量、循环和空洞。与强调统计特性的线性化学计量学方法不同,TDA关注数据的几何和拓扑组织,使其非常适合复杂和非线性的食品光谱数据集。特别是,TDA捕捉了传统化学计量学模型线性化掉的局部曲率和多尺度同调信号,从而保留了在降维过程中经常丢失的非线性光谱关系。

3.2.1. 单纯复形和过滤
点云可以表示为单纯复形。0-单纯形对应于一个顶点,1-单纯形对应于一条边,2-单纯形对应于一个填充的三角形,3-单纯形对应于一个四面体。更高维的单纯形遵循相同的原则。在本研究中,使用Vietoris–Rips复形,因为它们在计算上是可行的,同时仍然能够捕捉到基本的拓扑结构。给定一组顶点集和距离阈值δ,如果顶点之间的所有成对距离都小于或等于δ,则包含该单纯形。逐渐增加δ会连接点形成更大的结构,创建一系列称为过滤的复形。简单来说,过滤的概念描述了点云或其他数据集在不同距离尺度上经历的拓扑变化。图1展示了从一组无序点构建Vietoris–Rips复形的过滤过程,其中距离参数满足δ ≤ r。随着δ的增加,点变得连接起来,形成更高阶的单纯形,揭示了数据集的拓扑演化。当δ = 0时,有0个连通分量;当δ = 1时,有1个连通分量;当δ = 2时,有2个连通分量和1个空洞;最后,当δ → ∞时,只剩下1个连通分量和1个空洞。

3.2.2. 持久同调和持久性图
同调通过解决矩阵降维和秩识别的代数问题来识别向量空间的拓扑特征。一旦获得过滤序列,就可以在每个距离尺度上计算单纯复形的同调群。同调通过代数构造来识别空间的拓扑特征。嵌入的向量形成一个点云。对于拓扑空间X,可以使用线性代数方法提取不同维度的拓扑结构:\( \beta_0(X) \)表示连通分量,\( \beta_1(X) \)表示一维空洞,\( \beta_2(X) \)表示二维空洞,\( \beta_k(X) \)表示k维空洞。在得到同调群后,可以使用Betti数进一步量化给定距离尺度上的特征数量。具体来说,\( \beta_0(X) \)表示连通分量的数量,\( \beta_1(X) \)表示一维空洞的数量,\( \beta_k(X) \)表示k维空洞的数量。持久性是一个重要概念,它量化了过滤过程中拓扑特征在距离尺度上的寿命。特征的寿命(持久性)定义为其出现和消失尺度之间的差异。随着尺度的增加,如连通分量和一维空洞这样的特征在特定阈值(出现)出现,在其他阈值(消失)消失。简而言之,TDA中的持久同调分析了拓扑结构如何跨尺度演化,记录了特征何时出现和消失,并评估了它们的重要性。持久性图在二维平面上可视化了持久同调的结果,其中每个点对应于一个拓扑特征的诞生和消失。位于对角线附近的点通常代表不重要的噪声,而远离对角线的点表示数据中有意义和稳定的拓扑结构。图2用一个例子说明了这一点:一组30个高斯噪声值首先通过时间延迟嵌入转换为二维点云,然后从中得出相应的持久性图。

3.3. 研究框架
整个工作流程如图3所示。每个输入光谱(在图中示意性地表示为S)代表来自训练集或测试集的单个FTIR样本。工作流程包括三个阶段:数据预处理、分类和评估。预处理阶段包括分割、TDA计算和特征提取。

3.3.1. 数据分割
虽然第3.1节介绍了适用于任意长度n的时间序列的时间延迟嵌入的一般公式,但本研究中的实际工作流程首先应用窗口长度为w和步长为h的滑动窗口分割。然后将每个窗口视为独立的时间序列(即S_w)再进行嵌入步骤。其目标是:
1. 捕捉局部周期性和重复行为(Perea和Harer,2015年)。
2. 减少局部噪声的影响(Karan和Kaygun,2021年)。
3. 与分析整个序列相比降低计算成本(Karan和Kaygun,2021年)。
4. 解决全序列中由于拓扑等价性导致的不可区分性问题。这一需求源于实证观察,据我们所知,之前没有明确报道过。关于最后一个目标,本研究提出了与以往工作不同的观点。我们观察到,滑动窗口方法不仅保留了时间序列数据的顺序,还捕捉了足够区分信号的细粒度局部拓扑结构。这些属性有效地缓解了由于拓扑等价性导致的不可区分性问题。如图4所示,我们展示了两个示例,每个示例包含25个数据点:(1)具有相位移动的正弦和余弦信号,以及(2)时间顺序相反的两个序列。每个序列首先使用延迟坐标嵌入转换为点云,然后进行TDA流程以计算持久同调。结果表明,在没有分割的情况下,正弦和余弦信号的点云大部分重叠,而时间顺序相反的序列表现出对角对称性。因此,它们的持久性图几乎无法区分。为了解决这个问题,我们应用了窗口大小为5、步长为1的滑动窗口分割。对于每个序列,提取并分别分析了前三个窗口。这种策略产生的持久性图不再重叠,从而使信号之间的差异清晰可辨。这些结果表明,当应用于序列数据时,滑动窗口分割可以显著提高TDA的区分能力。

3.4. 对本研究的意义
回顾的文献强调了三个关键见解,这些见解直接为本研究的设计提供了信息。尽管FTIR和化学计量学流程已广泛应用于橄榄油、蜂蜜、乳制品和咖啡,但很少有研究系统地整合了先进的TSC或TDA方法进行食品相关FTIR分类。TDA的现有应用主要集中在生物医学和工业领域,而在食品科学中,可解释性和监管验证是必不可少的,因此存在一个空白。解决这一空白需要将方法论的严谨性扩展到直接影响食品认证的数据集。首先,FTIR光谱可以被视为适合高级分类方法的有序时间序列。其次,尽管传统的TSC方法(如基于特征的、基于距离的和深度学习模型)提供了有价值的基线,但在应用于食品光谱数据时,它们在鲁棒性、可扩展性和可解释性方面面临持续挑战。第三,结合滑动窗口嵌入的TDA提供了一种数学上有根据的替代方案,已在生物医学和工业领域取得成功。这些见解为本研究提供了理由。通过将FTIR光谱学、TDA和机器学习整合到一个统一的框架中,所提出的方法解决了现有技术的局限性,同时符合食品认证研究中通常讨论的优先事项,如鲁棒性、透明度和可重复性。这不仅推进了方法论创新,还确保了实际相关性,从而为第3节描述的方法论发展提供了坚实的基础。尽管如此,TDA在食品科学中的系统应用仍然有限,特别是对于FTIR光谱序列,这正是本研究试图解决的空白。在这项研究中,“多尺度”一词指的是在不同层次上分析光谱模式:小窗口捕捉局部变化,中等窗口反映中观尺度的片段结构,大窗口揭示全局光谱形状。由于窗口大小决定了嵌入点云的几何配置,改变这一参数会导致结果持久性图中的尺度依赖性拓扑特征。这种方法建立在标准的滑动窗口策略之上,系统地研究多个尺度上的光谱模式。

3.3.2. TDA
每个分割的窗口都使用特定的参数嵌入到点云中,然后构建Vietoris–Rips复形和过滤,并计算持久同调以获得持久性图。图的数量等于窗口的数量,确保了整个数据集的一致表示。参数的选择平衡了计算效率与保留足够结构信息的能力。

如第1节“引言”和第2节“文献综述”所讨论的,FTIR光谱通常包含重叠峰、非线性变化和测量噪声,这些都对传统的化学计量方法构成了挑战。TDA提供的描述符既抗噪声又易于解释,特别适合于与食品相关的FTIR数据。

3.3.3. 特征提取
在每个序列转换为持久性图之后,进行特征提取。衍生出三种类型的特征:瓶颈距离、Wasserstein距离和持久熵。
瓶颈距离和Wasserstein距离是常用的TDA度量方法,用于测量持久性图之间的相似性(Kerber等人,2017年)。先前的研究强调了它们的稳定性和抗噪声能力,使它们能够有效地区分有意义的结构和伪影(Bollen等人,2023年)。它们已成功应用于神经退行性疾病分类(Yan等人,2020年)和生理信号分析(Karan和Kaygun,2021年)等领域。
瓶颈距离的核心思想是识别两个持久性图之间的最大差异。假设有两个持久性图P1和P2,并且它们之间存在双射关系,即P1 ? P2。形式上,P1和P2之间的瓶颈距离D(P1, P2)在方程(1)中定义:
(1)
在本研究中,PD2对应于PD1的对角投影Δ。
实际上,每个持久性图都与仅包含对角线的图进行比较。需要强调的是,在本研究中没有对不同序列之间的样本对样本持久性图进行比较。所有拓扑计算都限制在每个序列的单独滑动窗口内进行。
对于每个窗口,独立计算持久同调以获得持久性图。在方程(1)和(2)中定义的瓶颈距离和Wasserstein距离是计算该窗口的持久性图与其对应的对角投影之间的差异。这种对角线比较量化了拓扑特征与拓扑无意义状态(即对角线)的偏离,从而总结了窗口内特征的结构显著性。
不进行跨序列图匹配或样本间最优传输。这种设计选择确保了特征提取保持序列独立性,并避免了将样本间耦合引入表示中。相反,从每个窗口提取的描述符按时间顺序连接起来,形成每个数据集中长度一致的特征向量。
拓扑特征的生命周期定义为其死亡时间和出生时间之间的差异,分别用t1和t2表示。在本研究中,最大生命周期max(t1 - t2)被提取作为特征集的一个组成部分,以表征最持久的拓扑结构。
与仅使用最大生命周期来总结持久性信息不同,本研究从每个持久性图中衍生出几个互补的拓扑描述符。具体来说,瓶颈距离、Wasserstein距离和持久熵共同用于形成特征表示(见图3)。
同样,在测量持久性图与对角线参考的偏差时,Wasserstein距离提供了更全面的评估。与仅关注最大差异的瓶颈距离不同,Wasserstein距离考虑了图之间的整体差异。直观地说,Wasserstein距离可以理解为将一个持久性图的分布转换为另一个持久性图所需的最小工作量。在本工作中,这种最优传输是在每个持久性图与其对角投影之间计算的。形式上,P1和P2之间的-Wasserstein距离D(P1, P2)在方程(2)中定义:
(2)
与瓶颈距离相比,Wasserstein距离考虑了整个生命周期的分布。这确保了捕获多个重要特征,而不仅仅是单个最持久的特征。
持久熵在TDA中用于量化持久性图的不确定性和复杂性(Rucco等人,2017年)。当图中的点集中时(例如,当大多数拓扑特征快速消失时),熵值相对较低;相反,当点更分散时,熵值较高。
持久熵也被用作先前机器学习研究中的输入特征,与其他拓扑描述符结合使用以捕获额外的结构信息。Atienza等人(2019年)进一步探讨了持久熵的概念,并确认了其在拓扑表示中的稳定性。
给定任何持久性图P,持久熵在方程(3)中正式定义:
(3)
其中t1是点i的生命周期,Σti是所有点的生命周期之和。
特征提取后,所有特征按时间顺序连接起来,并为每个序列重塑成一维向量。这些向量构成了机器学习分类器的输入。
选择Wasserstein距离和对角线相关的基于持久性的摘要是因为它们能够在FTIR光谱数据中常见的小扰动下提供稳定且计算效率高的拓扑特征表示(Cohen-Steiner等人,2007年)。与持久性图像或持久性景观(Adams等人,2017年;Bubenik,2015年)等替代表示方法相比,这些描述符提供了相对于对角线的特征重要性的更直接表征,便于在滑动窗口段之间进行可解释的比较。虽然其他持久性表示可能提供更丰富的嵌入,但当前的选择反映了在以基准为导向的评估设置中优先考虑可解释性、鲁棒性和计算效率的设计权衡。未来的工作可能会探索其他持久性表示方法,以进一步增强区分能力。

3.3.4. 机器学习模型
在本研究中,我们采用了基于装袋的集成方法作为主要的机器学习(ML)方法来评估所提出的拓扑表示,而不依赖于过于复杂的分类器。具体来说,使用了逻辑回归(LR)和K最近邻(KNN)作为透明的基础学习器,并通过自助聚合和多数投票相结合,提供了方差减少、重采样下的稳定性以及与研究以表示为中心的目标一致的可解释性。
装袋方法最初由Breiman(1996年)引入,非常适合噪声较大和维度较高的数据,如FTIR光谱,其中必须可靠地区分微妙的组成差异。最近的综述和理论分析(例如,Biau和Scornet,2016年;Soloff等人,2024年),以及关于高维集成分类和数据融合应用的实证工作(例如,Zhao等人,2024年;Wang等人,2023年)表明,装袋风格的集成可以在异构、高维条件下保持稳健的性能。与基于提升的方法(Friedman等人,2000年;Chen和Guestrin,2016年)相比,后者强调减少偏差但可能增加训练复杂性和过拟合风险,装袋方法在基准设置下提供了稳定和透明的学习策略。
随机森林通过特征子采样扩展了装袋方法,并且通常能够实现较高的准确性;然而,特征级别的随机性可能会掩盖本研究关注的细粒度拓扑描述符的贡献。在装袋框架内使用LR和KNN允许更直接地检查提取的拓扑特征的影响,而不受复杂模型架构的混淆效应的影响。
重要的是要强调,集成配置的引入不是为了人为地最大化预测性能,而是为了稳定所提出的拓扑表示在互补的归纳偏差下的评估。逻辑回归捕捉全局线性可分性,而KNN保留了持久性派生描述符中固有的局部几何关系。如果表示本身具有区分性,其有效性不应严重依赖于单一的决策偏差。因此,集成作为一种鲁棒性稳定机制,而不是性能放大策略,确保观察到的改进主要归因于表示结构而不是分类器特定的优化。
性能评估使用了准确率和Macro-F1(见第4.4节中的度量定义)。准确率衡量整体正确性,而Macro-F1通过平均每个类别的F1分数来考虑类别不平衡,确保在少数类和多数类之间进行平衡评估。
总体计算成本主要由持久同调阶段主导,其中计算嵌入点之间的成对距离以构建Vietoris–Rips复形,这大约与嵌入点的数量成二次方关系。因此,运行时间因数据集和窗口大小设置而异。尽管如此,对于这里研究的UCR基准数据集,该流程在计算上是可管理的,观察到的变化与序列长度、窗口大小和点云密度的差异一致。
最后,所提出的框架在标记的训练数据上进行了训练,并与代表性的基于距离的、基于特征的、集成的和深度学习时间序列分类器进行了比较。基线的完整列表及其来源在表2中提供,并在第4.2节中讨论。PCA和PLSR在引言中作为经典的化学计量参考被提及,但没有包括在这个基准比较中。

3.4. 实施细节和可重复性
为了确保可重复性并便于独立验证,本节总结了所提出框架的所有实现细节。
所有实验都使用了UCR时间序列分类档案中公开可用的数据集进行,这些数据集提供了固定的训练和测试分割。严格遵循了这些官方分割,在数据集级别没有进行重采样、交叉验证或重复随机分割,以保持与使用相同基准的先前时间序列分类研究的直接可比性。
每个FTIR光谱被视为按波数索引的一维有序序列。除了方法论中明确描述的操作外,没有应用任何额外的光谱预处理,如基线校正、平滑或导数变换。这种设计确保了性能差异源于表示和学习策略,而不是数据集特定的预处理。
滑动窗口分割独立应用于训练集和测试集中的每个序列。具体来说,首先在完整的FTIR光谱序列级别应用官方的UCR训练-测试分割,然后仅在每个分割内的原始光谱顺序上进行滑动窗口分割。因此,从给定FTIR光谱派生的所有窗口始终保持在同一分区内,训练集和测试集之间不会发生窗口级别的混合。这严格保证了序列级别的分离,并消除了潜在的窗口级别信息泄漏。步长固定为1,评估了窗口大小{5, 10, 45, 50, 95, 100},以研究尺度效应,如第4节所述。
对于每个窗口,分割的光谱序列被视为局部信号表示,以保留特定于尺度的结构信息。然后使用固定参数m = 2和τ = 1进行时间延迟嵌入,接着构建Vietoris–Rips复形并计算持久同调直到一维同调(H0和H1)。根据第3.3.3节中引入的生命周期定义,提取最大生命周期max(t1),以及Wasserstein距离和持久熵,以表征持久性图中的互补结构信息。
所有提取的特征按时间顺序连接起来,为每个原始序列形成一个特征向量。这些向量作为集成分类器的输入。
集成模型使用scikit-learn框架中的BaggingStrategy实现,以LogisticRegression(LR)和KNeighborsClassifier(KNN)作为基础学习器。特征缩放在Pipeline中使用StandardScaler进行,确保规范化参数仅从训练数据中估计并应用于测试数据,没有泄漏。
自助聚合使用BaggingClassifier实现。超参数使用GridSearchCV选择,内部交叉验证严格在训练分割内进行。自助估计器数量(n_estimators)的候选范围根据数据集大小在10到200之间变化。在适用的情况下,还包含了max_samples和max_features。
对于基于LR的集成,迭代次数根据数据集特征在1800到3500之间变化,以确保数值收敛。选定的配置包括对Beef、Meat和OliveOil数据集的正则化参数C = 0.01,以减轻高维拓扑特征空间中的潜在过拟合,而对于Coffee和Wine数据集则保留了默认的正则化设置。求解器选择包括lbfgs(一种基于有限内存的Broyden–Fletcher–Goldfarb–Shanno方法的准牛顿优化算法)和sag(一种适用于大规模问题的方差减少的随机优化算法),根据数据集规模和收敛行为进行指定。对于草莓数据集,我们使用了KNN基础学习器,其中k=1,采用曼哈顿距离(p=1)和ball_tree算法,并设置叶节点大小为20,以更好地捕捉拓扑特征空间中的局部几何结构。每个数据集都固定了随机种子,以确保行为的确定性。预测结果是通过聚合各个自助模型的输出来获得的,使用了多数投票算法。没有应用概率校准、提升或堆叠等程序,以保持透明性和可解释性。所有实验都是使用Python和scikit-learn以及用于持久同调计算的标准库来实现的。整个实验流程在固定的随机种子下是确定性的,确保在相同条件下可以独立重现实验结果。

4. 实验结果
4.1. 数据集和评估协议
本研究中使用的所有数据集均来自加州大学河滨分校(UCR)的时间序列分类档案。在七个被归类为Spectro类型的食物数据集中(分别是牛肉、咖啡、火腿、肉类、橄榄油、草莓和葡萄酒),有六个数据集(牛肉、咖啡、橄榄油、葡萄酒、肉类和草莓)包含一维傅里叶变换红外(FTIR)吸收光谱序列,因此被纳入分析。这些数据集捕捉了与食物成分相关的波数依赖性吸收变化,并且在各个类别之间显示出高度相似的光谱模式。剩余的数据集火腿被排除在外,因为它不是基于FTIR测量得到的,而是基于反映蛋白质模式信号的图像强度轮廓,这与光谱序列数据有根本的不同。这些数据集的特点是类别内相似性高且吸收峰重叠,这对可靠分类构成了重大挑战。它们的主要特征总结在表1中。

表1. UCR档案中七个与食物相关Spectro数据集的特征。六个数据集基于FTIR,被用于本研究,而火腿因为其非FTIR来源而被排除。

根据UCR档案的定义,每个数据集都提供了一个固定的训练集和一个独立的测试集。本研究中的所有实验严格遵循标准化的UCR训练-测试协议,其中预定义的数据分割得到保持,所有预处理、嵌入和特征提取步骤都仅使用训练数据进行。这种设计确保在模型构建过程中不会引入测试集的任何信息,从而有效防止任何形式的数据泄露。在这种基准设置下,性能仅在预定义的测试分割上进行评估,并直接报告,不进行任何额外的重采样程序。这种评估协议在基于UCR的时间序列分类研究中被广泛采用,旨在确保不同方法之间的可重复性和一致性(Dau等人,2019;Bagnall等人,2017)。

图5展示了本研究中使用的六个数据集的FTIR吸收光谱。原始光谱在各个类别之间有显著的重叠,突显了视觉区分的难度,而偏移表示揭示了特定波数区域中细微但一致的类别依赖性变化。这些特征强调了分类任务的挑战性,并激发了使用结构感知特征表示的必要性。

下载:下载高分辨率图像(1MB)
下载:下载全尺寸图像
图5. 来自UCR档案的六个与食物相关数据集的FTIR吸收光谱,每个数据集以配对视图显示(左:原始光谱;右:偏移视图)。(A) 牛肉,(B) 咖啡,(C) 肉类,(D) 橄榄油,(E) 草莓,(F) 葡萄酒。原始光谱显示了整体吸收分布,而偏移视图突出了类别间的光谱差异。

4.2. 与基线分类器的比较
为了展示我们方法在食物相关分类任务上的有效性,我们将其与文献中报告的20种广泛使用的时间序列分类器进行了比较,如表2所示。这些基线涵盖了五个主要类别:(1) 基于距离的分类器,如DTW(Berndt和Clifford,1994);(2) 基于特征的分类器,如TSF(Deng等人,2013)、TSBF(Baydogan等人,2013)、Catch22(Lubba等人,2019)、ST(Hills等人,2014)、LS(Grabocka等人,2014)和BOSS(Sch?fer,2015);(3) 基于集成的分类器,如EE(Lines和Bagnall,2015)、COTE(Bagnall等人,2015)和TS-CHIEF(Shifaz等人,2020);(4) 深度学习模型,如MLP、ResNet、FCN(Wang等人,2017)、DMS-CNN(Qian等人,2020)、GRAE-ESN(Wang等人,2021)、TSCaps(Xiao等人,2021)、AFFNet(Wang等人,2022b)和TSC-TF(Ji等人,2022);以及(5) 2024-2025年提出的新框架,代表了基于集成和早期分类学习的新兴范式,包括TSCF(Dai等人,2024)和ECRIC(Chen等人,2025)。这些方法已成为时间序列分类文献中的标准基准,为比较提供了公平的基础。正如UCR基础比较研究中常见的做法,表2中报告的所有基线结果都直接引用自相应的文献,除了提出的方法,因为许多最先进分类器的源代码没有公开。因此,不同实现之间的精确数值再现并不总是可行的,而在标准化的UCR评估协议下进行基准级比较是时间序列分类社区中广泛采用的实践。应当注意的是,引言中提到的PCA和PLSR仅作为经典的化学计量学参考,并未包含在基线评估中。因此,比较分析仅关注反映当前方法学水平的时间序列分类器。

表2中呈现的比较结果表明,提出的TDA-集成框架在UCR档案中的六个与食物相关光谱数据集上实现了具有竞争力的分类准确性。与包括DTW、TSF和BOSS等传统模型以及FCN、ResNet和TSCaps等最新深度学习架构在内的二十种代表性时间序列分类器相比,提出的方法在标准化的UCR基准设置下表现出一致的有竞争力和稳健的性能。这些结果表明,将拓扑描述符与集成学习相结合提供了一种有效的方法,用于捕捉传统统计或基于卷积的方法可能无法充分表示的非线性光谱特征。在评估的方法中,TSCaps表现出了可比的性能,在多个数据集上实现了几乎相同的分类准确性。尽管如此,提出的TDA-集成框架表现出稳定且可解释的行为,即使在光谱重叠的数据集(如牛肉和葡萄酒)上也能稳健运行。这一观察进一步表明,将拓扑描述符与集成学习相结合提供了一种在准确性和透明度之间取得平衡的方法。

对于牛肉数据集,提出的方法达到了0.933的准确率,这是所有评估模型中观察到的最高值之一。观察到的改进表明,提出的拓扑表示捕捉到了可能反映区分肉类类别的微妙光谱变化。在咖啡数据集中,所有分类器都获得了接近1的高准确率,反映了数据集独特的光谱可分性。尽管几种方法的表现相似,但提出的框架在不需要深度模型调整的情况下实现了与最佳结果相当的性能,表明了其计算效率和泛化能力。肉类数据集也显示了类似的模式,其中提出的模型在官方UCR分割下达到了完美的准确率,其性能与文献中报告的集成和卷积网络的结果相当。在橄榄油数据集中,TDA-集成框架的准确率为0.967,与传统分类器的结果相当,并且与深度学习模型的结果具有竞争力。这一结果表明,拓扑描述符可以捕捉到可能反映潜在成分差异的细微光谱变化,而这些差异通过纯统计特征难以表示。对于草莓数据集,0.978的准确率也属于最高值之一,表明拓扑嵌入保留了有助于类别区分的微妙光谱变化。最具挑战性的是葡萄酒数据集,许多方法的性能显著下降。提出的方法实现了0.926的准确率,与报告的基准结果相当,表明在较高的类别间光谱相似性和较强的噪声干扰下仍能保持稳定的性能。

总体而言,这些特定于数据集的观察结果表明,TDA-集成框架不限于某种特定的食物类型,可以泛化到以蛋白质、碳水化合物和多酚为主的材料。其在标准化UCR基准设置下的一致竞争力表明,拓扑描述符提供了对光谱动态的结构化有意义的表示,而集成学习有助于稳定的决策边界和改进的可解释性。综合来看,这些结果支持将提出的方法作为食物鉴定的方法论基础,特别是在数据质量、光谱分辨率和类别平衡可能因测量条件而变化的情况下。

所有六个数据集均来自UCR时间序列分类档案,其中训练和测试分割是预先定义的。遵循TSC文献中广泛采用的标准评估协议,我们在官方分割上对每个模型进行了一次训练和测试,以确保与以往研究的直接可比性。这种评估协议确保观察到的差异源于方法论设计,而不是数据分割或样本大小的变化。

4.3. 窗口大小的影响
图6展示了特定于数据集的分类准确率轨迹,其中最佳点用红星标记。不同数据集对窗口大小有不同的偏好。牛肉和草莓在小窗口下表现最佳,而肉类在所有窗口大小下都实现了完美的准确率,包括大窗口,表明最佳嵌入尺度取决于每个光谱序列的内部频率模式。橄榄油在不同尺度上保持了相对稳定的准确率,表明其化学成分产生了无论窗口大小如何都一致的光谱响应。咖啡显示出单峰模式,在小窗口下达到最大值,而葡萄酒则表现出U形趋势,在最小和最大尺度下准确率较高。这些发现证实了提出的TDA和集成框架能够适应不同的时间和光谱结构,从多样化的食物矩阵中提取出具有区分性的拓扑信息。

下载:下载高分辨率图像(324KB)
下载:下载全尺寸图像
图6. 在不同滑动窗口大小下评估的六个基于FTIR的食物数据集的分类准确率。颜色表示三个窗口大小组:小(5, 10)、中(45, 50)和大(95, 100)。红星标记了每个数据集的最高准确率尺度。

4.4. Macro-F1和鲁棒性分析
Macro-F1通过平均每个类别的F1分数来提供在类别不平衡情况下的平衡评估。类别的精确度和召回率的定义见方程(4):
(4)
其中,分别表示类别的真实阳性数、假阳性数和假阴性数。方程(5)定义了类别的F1分数:
(5)
Macro-F1通过平均所有类别的F1分数来总结整体分类性能(方程(6):
(6)
图7比较了在不同滑动窗口大小下六个基于FTIR的食物数据集的Macro-F1性能。观察到的模式与图6中的分类准确率模式非常相似。在各个数据集中,准确率和Macro-F1之间存在强相关性(Pearson’s r = 0.987,p < 0.001)。这种强相关性表明,提出的框架在类别间保持了平衡的区分能力,解决了食物鉴定任务中常见的类别级性能变化问题。

下载:下载高分辨率图像(324KB)
下载:下载全尺寸图像
图7. 在不同滑动窗口大小下同一六个基于FTIR的食物数据集的Macro-F1性能。颜色表示三个窗口大小组:小(5, 10)、中(45, 50)和大(95, 100)。红星表示每个数据集获得的最高Macro-F1值。

除了这些特定于数据集的观察结果外,这些结果还为基于FTIR的食物鉴定提供了方法论上的见解。提出的流程提供了一个可复制和标准化的光谱序列分类框架,减少了对手动预处理的依赖,同时实现了跨数据集的一致评估。使用拓扑描述符支持可解释的结构表示,而集成学习策略有助于在评估设置中保持稳定的分类行为。Macro-F1结果进一步表明,提出的框架在不同类别间保持了相对平衡的分类性能。这一观察结果,加上准确率和Macro-F1之间的强相关性,表明模型不依赖于少数主导类别,而是捕捉了在各个数据集中一致表示的结构模式。同时,需要认识到,本研究中考虑的几个数据集(如牛肉和橄榄油)涉及的训练样本量相对较小。在这种条件下,使用多阶段特征提取框架可能会引入过拟合的风险。在这项工作中,所有实验都是按照标准化的UCR训练-测试协议进行的,确保训练数据和测试数据严格分离,并防止在模型构建过程中出现任何不必要的信息泄露。值得注意的是,尽管针对特定数据集的参数调整可能会提高性能,但本研究采用了统一的窗口大小配置。实际上,不同的数据集对窗口大小的选择可能具有不同的敏感性;然而,引入特定数据集的调整会破坏评估设置的一致性。因此,这种设计选择优先考虑了数据集之间的可比性,并避免了由于数据集依赖的优化而导致的性能膨胀。从这个角度来看,报告的结果应该被视为在标准化基准条件下的保守评估。所提出的框架旨在为结构感知的光谱表示学习提供一种方法论参考,而不是声称可以直接推广到大规模或特定应用的部署场景。

4.5. 选定的超参数和实现细节
超参数的选择仅在官方UCR训练分区内使用内部交叉验证进行,从而保持了训练数据和测试数据之间的严格分离。对于每个数据集和每个窗口大小配置,使用GridSearchCV评估了一个预定义的装袋参数网格,并选择了具有最高交叉验证准确性的配置,然后在固定的UCR测试分割上再次进行评估。交叉验证的折叠次数遵循我们实验中使用的实现(Beef使用五折交叉验证,其他数据集使用三折交叉验证),并且所有搜索都在训练分割内进行。
在不同数据集中,选定的集成大小(n_estimators)从10到200不等,反映了数据集规模和在自助重采样下学习到的决策边界稳定性的差异。在大多数配置中,自助采样使用了整个训练集(max_samples = 1.0),尽管在某些窗口大小设置中也选择了部分重采样(max_samples低至0.6)。特征子采样(max_features)要么被选为1.0,要么不包括在搜索网格中,这与保持透明、以表示为中心的学习目标一致,而不是引入额外的随机特征选择。
对于基于逻辑回归的集成模型,Beef、Meat和OliveOil选择了更强的正则化(C = 0.01),而Coffee和Wine则使用默认的正则化设置,这表明正则化强度对数据集具有依赖性。求解器配置遵循实现的设置,对于需要可扩展优化的数据集使用了sag,否则保留了默认求解器。最大迭代次数从1800到3500不等,以确保在不同数据集上的数值收敛。

对于Strawberry,选择了在其最佳窗口大小配置下的K-最近邻基础学习器,这反映了局部邻域建模对该数据集特征几何结构的适用性。每个数据集都固定了随机种子,以确保行为确定性和可重复性。没有引入概率校准、提升或堆叠程序,以保持与本研究以表示为中心的目标一致的可解释性。
为了便于复制表2中总结的结果,最终选定的超参数在表3中呈现。超参数是在官方UCR训练-测试分割下进行网格搜索后报告的,没有跨数据集重新调整。对于多个窗口大小达到相同测试准确性的数据集,相应的最佳超参数以范围形式报告。交叉验证仅用于训练分割内的超参数选择;所有报告的结果都基于官方UCR测试分区,以确保严格的基准可比性。

表3. 在官方UCR训练-测试分割下选定的集成超参数。
LR = LogisticRegression; KNN = KNeighborsClassifier
数据集 | 基础学习器 | 配置 | n_estimators | max_samples | max_features | Seed
--- | --- | --- | --- | --- | --- | ---
Beef | LR | scikit-learn默认值 | 10 | 0 | 2 | 1.0 | 1.0 | 14
Coffee | LR | scikit-learn默认值 | 100 | 200 | 0.8 | 1.0 | 14
Meat | LR | LR = 0.01, sag | 10 | 1.0 | 1.0 | 4
OliveOil | LR | LR = 0.01, sag | 10 | 30 | 0.6 | 1.0 | 0.8 | 1.0 | 14
Strawberry | KNN | k=1 (p=1) | 20 | 1.0 | 1.0 | 1.0 | 14
Wine | LR | scikit-learn默认值 | 30 | 1.0 | 3 | 1

注:“–”表示该参数未包含在网格搜索中,因此保持scikit-learn的默认值。

5. 结论
本研究开发了一个框架,该框架结合了滑动窗口嵌入、TDA和集成学习,以使用FTIR光谱技术改进食品鉴定。在UCR档案中的六个基准数据集上进行评估,该方法与基于距离的、基于特征的、集成的和深度学习基线相比,始终实现了具有竞争力的准确性和高Macro-F1分数,表明其在不同食品类别中的鲁棒性。
一个关键的见解是多尺度分析的价值。小窗口捕获局部变化,中等窗口揭示中观结构,大窗口代表全局光谱模式。最佳窗口大小在不同数据集中有所不同,表明判别信息分布在多个时间尺度上。该框架在类别不平衡的情况下保持了平衡的性能,这是食品鉴定研究中的一个重要考虑因素。
方法论上,将TDA衍生的描述符与基于装袋的集成分类器相结合,提供了稳定性和可解释性,同时保持了计算效率。与高度参数化的深度学习模型相比,这种透明度提高了方法论的清晰度,并便于在标准化基准条件下进行可重复的评估。这些发现还表明了适应性、尺度感知的集成策略的机会,这些策略可以根据数据集特定的结构特征动态调整分析。
除了数值性能之外,所提出的流程还为FTIR光谱序列分类提供了一个可复制的基准级框架。通过限制辅助预处理步骤并使用透明的基础学习器,该框架支持将性能提升明确归因于所提出的表示方法,并便于在不同数据集之间进行一致比较。未来的工作可以将该框架扩展到多模态光谱、更大的真实世界数据集以及将数据特征与最佳窗口策略系统地联系起来的分析。

5.1. 限制
本研究有几个局限性需要承认。所有实验都是在UCR时间序列分类档案中公开可用的FTIR基准数据集上进行的,这些数据集不包括应用实验室环境中遇到的仪器特定设置、校准程序或样品制备协议。因此,目前的工作并不声称具备部署准备就绪,而是专注于在标准化和可重复的基准条件下的方法论验证。
未来的工作应该将所提出的框架扩展到真实的FTIR采集场景、特定领域的数据集和仪器依赖的变异性。这样的调查对于在实际测量约束下评估性能以及进一步将方法论发展与应用食品鉴定研究联系起来是必要的。

未引用的参考文献
Zhao和Ye, 2024。

CRedI作者贡献声明
Hsin-Chun Yu:概念化、方法论、写作——原始草稿、形式分析、验证、监督。
Yu-Kai Chen:方法论、调查、资源、数据管理、软件、可视化、写作——审阅与编辑。

利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系,这些关系可能会影响本文报告的工作。

数据可用性
本研究分析的数据集可以从UCR时间序列分类档案(https://www.cs.ucr.edu/~eamonn/time_series_data_2018/)公开获取。
所提出的TDA-集成框架的Python实现,包括数据预处理和分类脚本,可以根据合理请求从相应作者处获得。

手稿准备过程中生成式AI和AI辅助技术的声明
在准备这项工作时,作者使用ChatGPT来提高英语文本的清晰度和流畅性。使用该工具后,作者仔细审查、验证并根据需要编辑了内容,并对最终版本的手稿负全责。

资金
这项研究没有从公共、商业或非营利部门的资助机构获得任何特定资助。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号