用于改进多类分类的组合特征增强方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

用于改进多类分类的组合特征增强方法

《Neural Networks》：Compositional feature augmentation for improving multi-class classification

【字体：大中小】 时间：2026年01月01日 来源：Neural Networks 6.3

编辑推荐：

　　针对多类分类中存在的准确性不足、计算成本高及特征表示不足的问题，本文提出了一种名为CFA（Compositional Feature Augmentation）的特征增强方法。该方法通过将原始特征转换到单形空间，并引入投票机制整合多组增强特征，有效提升分类性能。实验表明，CFA在合成与真实数据集上均优于传统方法，尤其在原始特征不完善时效果显著，同时保持较低的计算成本。

Jie Gu|Shan Lu

中国农业银行，北京，100005，中国

摘要

最近在多类分类方面的研究取得了显著进展。然而，许多方法仍然存在准确性不令人满意、计算成本高以及类别特定特征表示不足的问题。为了解决这些问题，我们提出了一种简单而有效的多类分类框架，称为组合特征增强（Compositional Feature Augmentation，简称CFA）。通过将每个原始特征转换为按类别划分的后验组合，CFA以模型独立和边际学习的方式捕获了区分信息。为了提高鲁棒性，我们引入了一种投票机制，该机制汇总了通过随机子采样生成的多个增强特征集的预测结果。这种集成方法稳定了结果并减少了边际学习中的噪声。CFA与标准分类器兼容，包括逻辑回归、SVM、神经网络等。在结构化和深度嵌入数据集上的广泛实验表明，当原始特征未经处理时，CFA可以提高准确性；而在已有强嵌入的情况下，CFA仍能保持竞争力。

引言

多类分类是模式分析中的一个普遍课题。长期以来，它一直是模式识别和机器学习领域的一个活跃研究方向（Gao, Fang, Gao, Luo, Medhin, 2021; Jumutc, Suykens, 2014; Pang, Xu, Xu, 2024; Zhang, Wang, Yeung, Dai, Lochovsky, 2010）。随着人工智能系统越来越多地集成到现实世界的决策过程中，对可靠的多类分类模块的需求显著增加，这些模块应用于医疗诊断、生物信息学和安全监控等领域（Damoulas, Girolami, 2009; Guo, Zhang, Tang, 2021; Liu, Yu, Luo, Dou, Heng, 2020; Milosevic, Ciric, 2022）。这激发了开发更有效和高效分类技术的需求。与二元分类相比，多类分类更为复杂，因为必须找到一个最优的决策边界来区分多个类别。

尽管已经提出了各种方法，但当现实世界的数据集规模和复杂性增加时，多类分类仍然面临准确性不令人满意和高训练成本等持续挑战（Pereira-Ferrero et al., 2023）。解决这些挑战的一个关键方法是提高特征的信息质量（Farid, Zhang, Rahman, Hossain, Strachan, 2014; Lin, 2012; Ram, Kayastha, Sha, 2022）。在入侵检测等应用中，这一点尤为重要，因为高维、大规模的数据通常会导致信息稀疏和训练速度慢。因此在分类之前增强特征的信息量至关重要，尤其是在单个特征的相关性未知的情况下（Damoulas, Girolami, 2009; Kent, Jacob, Kinney, Zhou, Liu, Chen, 2023; Yin, Zheng, Pan, Gu, Chen, 2023）。数据增强需要谨慎的设计，且仅能在增强数据中提供有限的多样性（Alomar et al., 2023）。相比之下，特征增强在细化信息、减少噪声、提高学习算法解决多类问题的能力以及降低计算时间和资源需求方面更具前景（Antwarg, Galed, Shimoni, Rokach, Shapira, 2023; Jia, Zhang, 2022; Zhang, Wang, Sun, Zurada, Pal, 2020）。

在本文中，我们提出了一种用于多类分类的组合特征增强（CFA）方法。该方法创新地提取了所有特征的相对分类信息，并利用这些信息来增强多类分类。具体来说，该方法首先将原始特征转换为高质量的训练数据，然后应用支持向量机、神经网络和多项式逻辑回归等代表性分类算法来构建多类分类模型。我们通过基于合成数据和真实数据分析的实证实验证明了该方法的有效性。结果表明，该方法总体上取得了良好的性能，并降低了计算成本。

本研究的贡献可以总结如下：

•
首先，我们提出了一种新的CFA操作符（CFAO）。该操作符具有两个关键特性：（1）遵循边际学习的思路，它将欧几里得空间中的原始特征转换为单纯形空间中的组合特征；（2）通过提取与类别相关的相对信息来构建性地利用每个特征中的信息，从而提高数据质量。据我们所知，这是首次尝试将组合数据与多类分类联系起来的研究，预计将激发后续的研究。
•
其次，我们使用中心对数比率（clr）变换来进一步聚合组合特征中嵌入的相对信息，同时放宽了组合数据的非负约束。这为后续的分类器模型提供了一种CFA的变体，具有益处。
•
第三，所提出的多类分类框架与所涉及的分类器模型无关，使我们能够根据实际情况灵活选择合适的学习算法。
•
第四，为了提高鲁棒性，我们引入了一种投票机制，该机制汇总了通过随机子采样生成的多个增强特征集的预测结果。这种集成方法稳定了结果并减少了边际学习中的噪声。

需要澄清的是，CFAO特指将原始特征映射到按类别划分的后验组合的变换。其核心思想是将欧几里得空间中的原始特征映射到单纯形空间中的组合特征。这些组合特征具有增强的区分能力，使得后续模型可以轻松解释原始特征与类别之间的关系。CFA方法代表了完整的特征增强流程，包括应用CFAO以及通过随机子采样的集成投票机制，从而提高了稳定性和性能。

本文的其余部分安排如下：第2节介绍相关工作。第3节详细描述了所提出的CFA方法和基于CFA的多类分类框架的整个流程。第4节给出了实验结果。第5节讨论了几个相关问题。第6节提出了限制和未来工作。最后，第7节给出了结论。

提出的CFA方法

在本节中，我们详细介绍了所提出方法的背景和算法流程。

数值研究

我们在多个合成数据和真实世界数据集上进行了实验，以评估所提出的方法。实验的详细信息如下。

数据分割

为了更深入地研究CFA方法，我们进一步探讨了CFA算法中数据分割比例（即

\frac{n_{1}}{n_{2}}

）的效果，并讨论了如何适当选择它。第4节中的D1和D4用于演示数据分割比例对分类准确性的影响。数据分割比例从0.1变化到0.9，每次增加0.1。对于每个比例值，数据生成和建模重复了30次。这里，我们将分类器设置为SVM。

限制和未来工作

尽管所提出的CFA框架在多个多类分类任务中表现出有希望的性能，但仍存在一些限制，这也为未来的研究指明了重要方向。首先，CFA依赖于单变量多项式逻辑回归来估计类别后验，这可能对类别不平衡和高噪声水平敏感。尽管多项式逻辑回归支持类别加权，但极端不平衡仍可能影响模型的稳定性

结论

我们提出了一种新的多类分类框架，通过引入一种新的特征增强方法来提高数据质量。在这种方法中，应用CFA操作符（CFAO）来转换原始特征并提取其中包含的与类别标签相关的有价值信息。通过这种转换，欧几里得空间中的每个原始特征被转换为单纯形空间中的组合数据向量，从而捕获了类别之间的相对信息。

CRediT作者贡献声明

Jie Gu：撰写 – 审稿与编辑，撰写 – 原稿，可视化，验证，软件，方法论，调查，形式分析，数据整理，概念化。Shan Lu：撰写 – 审稿与编辑，撰写 – 原稿，可视化，监督，方法论，资金获取。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本工作得到了国家自然科学基金（资助编号：72371257）的财政支持。LS感谢中央财经大学高性能计算平台的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作