核化线性主成分判别分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

核化线性主成分判别分析

《Neural Networks》：Kernelized Linear Principal Component Discriminant Analysis

【字体：大中小】 时间：2026年01月08日 来源：Neural Networks 6.3

编辑推荐：

　　基于核化线性判别分析（KLPCDA）的联合优化框架在RKHS中融合了方差保留、类间分离和类内紧凑性，解决了传统分阶段方法（如PCA+LDA）的结构碎片化问题，提供七种可调参数的变体，适用于小样本至大规模数据的高效分类。

林晓桥 | 裴燕

日本会津大学计算机科学与工程研究生院，福岛县鹤冈市上岩濑一町90，鹤冈市，965-8580

摘要

在本文中，我们提出了核化线性主成分判别分析（KLPCDA），这是一个结构化且统一的判别分析框架，它克服了现有多阶段方法（如PCA+LDA或KPCA+GDA）中的碎片化问题。KLPCDA没有将特征提取和类别判别视为相互独立的步骤，而是在再生核希尔伯特空间（RKHS）中构建了一个联合优化模型，将整体方差保持、类间分离和类内紧凑性整合到一个融合目标中。该框架支持七种KLPCDA变体，通过可调的融合系数灵活控制每个标准的影响。我们提出了一种系统的参数优化策略，包括核参数选择、子空间维度调整和融合平衡，以及另一种核参数优化方法。通过对图像、表格和信号数据集的广泛实验（从小样本量（SSS）到大规模设置），验证了KLPCDA的适应性。结果表明，在小样本量设置下，KLPCDA在识别准确性和效率方面始终优于基准方法和卷积神经网络，同时在计算复杂性和存储需求方面也具有竞争优势。最后，我们提供了与我们的提案相关的扩展研究主题和未来工作的建议。

引言

降维和判别分析是模式识别中的基本工具，能够实现高效的特征提取和增强的类别分离。经典技术如主成分分析（PCA）（H?rdle等人，2024年）；Wold等人（1987年）和线性判别分析（LDA）（Fukunaga等人，2013年；Zhao等人，2024b年）通过优化数据表示和可区分性将高维数据转换为低维子空间。PCA通常用于无监督学习，最大化投影数据的总方差（Abdi和Williams，2010年；Franc，2025年），而LDA是一种监督方法，旨在最大化类间可分性和最小化类内散布（Izenman和Izenman，2008年；Zhou，2021年）。这些方法是面部识别等典型方法的基础，例如特征脸（Belhumeur等人，1997年；Ho等人，2024年；Swets和Weng，1999年；Turk和Pentland，1991年）和Fisherfaces（Belhumeur等人，1997年；Gururaj等人，2024年；Zhao等人，1998年）。这些经典技术随着新的方法论和应用驱动的进步而不断发展。最近关于PCA的研究包括鲁棒形式，如用于抵抗异常值的广义球形PCA（Leyder等人，2024年），用于特征选择的监督变体（Rahmat等人，2024年），以及用于多视图或高阶数据建模的基于张量的扩展（Liang等人，2023年；Xu等人，2024年）。应用也显示了PCA在多个领域的持久实用性，包括医学诊断（Sudharsan和Thailambal，2023年）。对于判别分析，最近的工作增强了LDA的稀疏性和适应性，例如广义鲁棒多视图判别分析（GRMDA）（Lin等人，2023年）和用于高维数据特征选择的稀疏迹比LDA（Li等人，2023b年）。进一步的扩展将LDA应用于量子计算和故障诊断（Liu等人，2023b年；Yu等人，2023年），突显了其在现代机器学习应用中的持续相关性。

为了解决线性不可分数据的挑战，核方法（Hofmann等人，2008年；Pinheiro Jr和Dral，2023年）将输入映射到高维的再生核希尔伯特空间（RKHS）（Gretton，2013年；Stepaniants，2023年），使得在非线性环境中可以进行线性建模。核PCA（KPCA）（Marukatat，2023年；Sch?lkopf等人，1998年）和广义判别分析（GDA）（Baudat和Anouar，2000年；Johnston，2024年；Zhao等人，2024b年；Jerbi等人，2023年；Liu等人，2023a年；Müller等人，2018年）利用核技巧扩展了线性模型的应用范围，改善了面部识别结果（Liu等人，2024年；Yang，2002年；Zhao等人，2024b年）。核方法的最新进展使其在各个领域的实用性得到扩展。对于KPCA，已经开发了与深度网络（例如CNN-LSTM）结合的混合模型用于条件监测（Zhu等人，2023年），以及像Deep KPCA这样的层次化框架增强了多级表示学习（Tonin等人，2024年）。基于最优传输的非线性泛化（Gunsilius和Schennach，2023年）和用于高维替代建模的监督KPCA（Zhao等人，2024a）也被提出。对于核LDA，最近的努力集中在提高特征判别能力和鲁棒性上，包括基于距离约束的公式（Li等人，2023a）、基于散布差异的方法（Liu等人，2024年）以及与神经网络的混合架构（Ouyang等人，2020年）。核判别器在应用任务中也取得了显著成果，例如高光谱质量分级（Zhang等人，2023年）。尽管最近的研究在方法和应用上扩展了PCA和LDA，但它们仍然倾向于采用模块化设计。尽管取得了成功，现有的判别分析方法仍存在结构碎片化的问题。常见的范式是依次应用降维进行特征提取，然后进行监督判别分析进行分类。许多方法采用两阶段流程，例如PCA后接LDA（PCA+LDA）（Belhumeur等人，1997年；Feng等人，2023年；Hammouche等人，2022年；Mohammadi等人，2024年；Zhu等人，2024年），或KPCA后接LDA（Nguyen等人，2025年；Yang等人，2005年），其中特征提取和判别被视为相互独立的步骤。这种分阶段的融合策略在诸如完整的PCA加LDA（Dubey和Kumar，2023年；Esteki等人，2022年；Kwon等人，2024年；Yang和Yang，2003年；BDPCA+LDA（Ren和Dai，2010年；Zuo等人，2006年；IDAface（Zhuang和Dai，2007年）等技术中很普遍，但在初始降维过程中可能会丢失主要的判别信息，从而限制了下游分类性能（Qu和Pei，2024年）。这些方法还倾向于依赖于固定的结构假设，降低了它们对新领域或数据分布的适应性。

为了克服这些限制，最近的工作提倡将多个目标（如方差保持、类间分离和类内紧凑性）整合到统一的优化框架中。Pei（2015年）提出了线性主成分判别分析（LPCDA），作为在联合公式下结合PCA和LDA目标的理论尝试。然而，LPCDA仍然仅限于线性设置，并且在控制每个目标的影响方面缺乏灵活性。

在本文中，我们提出了核化线性主成分判别分析（KLPCDA），这是一个模块化且结构化的框架，它在RKHS中统一了经典和基于核的判别标准。我们的动机是提供一个通用的、可调节的判别分析架构，能够适应不同的数据结构，而无需依赖深度模型或结构先验。KLPCDA在RKHS中构建了一个融合的多目标优化问题，包括：

1. 全局方差保持，

2. 类间均值分离，

3. 类内局部紧凑性。

我们引入了融合系数来控制每个组分的贡献，从而实现任务适应性灵活性。该框架包括七种KLPCDA变体，在相同的理论公式下提供了多种实现方式。我们进一步开发了一种系统的参数配置策略，包括核类型选择、子空间维度调整和融合平衡。与现有方法相比，KLPCDA提供了：

• 结构统一：联合优化而不是独立阶段；

• 模块化设计：灵活适应不同任务；

• 无需结构先验：适用于噪声较大、不平衡或非线性数据；

• 鲁棒泛化：在小样本量和大规模设置中都有效。

通过对图像、表格和信号数据集的广泛实验（从小样本量到大规模设置），证明KLPCDA在准确性和效率方面始终优于经典判别方法和轻量级CNN。这项工作建立在我们之前的提案（Qu等人，2023年）的基础上，在理论公式、模块化设计和跨领域适应性方面进行了显著改进。

本文的其余部分组织如下。第2节介绍了KLPCDA的背景知识和框架及其基本和理论实现。第3节展示了我们的实验和评估。第4节提供了计算复杂性和存储需求的分析。第5节探讨了参数优化问题。最后，我们在第6节总结了本文，并提出了未来研究的潜在领域。

部分片段

初步介绍：中心化KPCA和GDA

中心化核主成分分析。 对于样本 x_i，核函数将原始空间映射到更高维的特征空间。对于数据 x₁, x₂, ???, x_n?∈?R^d 在原始空间中，核函数 k(x) 计算更高维空间中两点的内积为 $k (x_{i}, x_{j}) = < ? (x_{i}), ? (x_{j})$

实验设置

我们使用两种核函数评估KLPCDA的性能：高斯核

k (x, z) = exp ? | x?z|^{2}/2σ^{2}

和多项式核

k (x, z) = {(〈 x, z 〉 + 1)}^{r}

。使用最近邻（NN）分类器来评估识别性能。实验在三种类型的数据上进行：(1) 来自MNIST手写数字数据集的图像数据（LeCun和Cortes，2005年），(2) 来自Breast Cancer Wisconsin（Diagnostic）数据集的表格数据（Wolberg等人，1993年），以及(3) 来自77个样本的信号数据

计算复杂性和存储需求

从表11可以看出，KLPCDA的计算和存储成本主要由矩阵运算和特征值分解决定。线性空间版本随特征维度 d 的增加而性能下降，而核化版本则随样本量 n 的增加而性能下降。这表明核方法克服了数据维度的限制，仅依赖于样本数量。在实际应用中，如图像识别等高维问题中，这是必要的

通过内积和曲线拟合优化核参数

除了我们在第3节中介绍的核参数优化过程外，本节还提出了一种利用核函数和内积之间的几何关系来优化高斯核参数的新方法。具体来说，我们基于这种关系建立目标函数，并将它们可视化为参数-响应曲线，以极值确定最优值。

结论、讨论和未来工作

在本文中，我们介绍了核化线性主成分判别分析（KLPCDA），这是一个结构化且通用的框架，它在再生核希尔伯特空间（RKHS）中统一了判别分析目标。KLPCDA将方差保持、类间分离和类内紧凑性重新表述为一个基于核的多目标模型，从而避免了传统多阶段方法（如PCA+LDA或KPCA+GDA）的结构碎片化问题。

CRediT作者贡献声明

林晓桥：撰写 – 原始草稿，可视化，验证，方法论，调查，形式分析。裴燕：撰写 – 审稿与编辑，监督，概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号