多类分类是模式分析中的一个普遍课题。长期以来,它一直是模式识别和机器学习领域的一个活跃研究方向(Gao, Fang, Gao, Luo, Medhin, 2021; Jumutc, Suykens, 2014; Pang, Xu, Xu, 2024; Zhang, Wang, Yeung, Dai, Lochovsky, 2010)。随着人工智能系统越来越多地集成到现实世界的决策过程中,对可靠的多类分类模块的需求显著增加,这些模块应用于医疗诊断、生物信息学和安全监控等领域(Damoulas, Girolami, 2009; Guo, Zhang, Tang, 2021; Liu, Yu, Luo, Dou, Heng, 2020; Milosevic, Ciric, 2022)。这激发了开发更有效和高效分类技术的需求。与二元分类相比,多类分类更为复杂,因为必须找到一个最优的决策边界来区分多个类别。
尽管已经提出了各种方法,但当现实世界的数据集规模和复杂性增加时,多类分类仍然面临准确性不令人满意和高训练成本等持续挑战(Pereira-Ferrero et al., 2023)。解决这些挑战的一个关键方法是提高特征的信息质量(Farid, Zhang, Rahman, Hossain, Strachan, 2014; Lin, 2012; Ram, Kayastha, Sha, 2022)。在入侵检测等应用中,这一点尤为重要,因为高维、大规模的数据通常会导致信息稀疏和训练速度慢。因此在分类之前增强特征的信息量至关重要,尤其是在单个特征的相关性未知的情况下(Damoulas, Girolami, 2009; Kent, Jacob, Kinney, Zhou, Liu, Chen, 2023; Yin, Zheng, Pan, Gu, Chen, 2023)。数据增强需要谨慎的设计,且仅能在增强数据中提供有限的多样性(Alomar et al., 2023)。相比之下,特征增强在细化信息、减少噪声、提高学习算法解决多类问题的能力以及降低计算时间和资源需求方面更具前景(Antwarg, Galed, Shimoni, Rokach, Shapira, 2023; Jia, Zhang, 2022; Zhang, Wang, Sun, Zurada, Pal, 2020)。
在本文中,我们提出了一种用于多类分类的组合特征增强(CFA)方法。该方法创新地提取了所有特征的相对分类信息,并利用这些信息来增强多类分类。具体来说,该方法首先将原始特征转换为高质量的训练数据,然后应用支持向量机、神经网络和多项式逻辑回归等代表性分类算法来构建多类分类模型。我们通过基于合成数据和真实数据分析的实证实验证明了该方法的有效性。结果表明,该方法总体上取得了良好的性能,并降低了计算成本。
本研究的贡献可以总结如下:
- •
首先,我们提出了一种新的CFA操作符(CFAO)。该操作符具有两个关键特性:(1)遵循边际学习的思路,它将欧几里得空间中的原始特征转换为单纯形空间中的组合特征;(2)通过提取与类别相关的相对信息来构建性地利用每个特征中的信息,从而提高数据质量。据我们所知,这是首次尝试将组合数据与多类分类联系起来的研究,预计将激发后续的研究。
- •
其次,我们使用中心对数比率(clr)变换来进一步聚合组合特征中嵌入的相对信息,同时放宽了组合数据的非负约束。这为后续的分类器模型提供了一种CFA的变体,具有益处。
- •
第三,所提出的多类分类框架与所涉及的分类器模型无关,使我们能够根据实际情况灵活选择合适的学习算法。
- •
第四,为了提高鲁棒性,我们引入了一种投票机制,该机制汇总了通过随机子采样生成的多个增强特征集的预测结果。这种集成方法稳定了结果并减少了边际学习中的噪声。