组合数据通常用于描述由多种成分构成的整体,并可以通过相应的比例或百分比来表示。由于组合数据包含结构信息这一优势,它在实际应用中得到了广泛应用(Alenazi, 2023),例如行业层面的国内生产总值(GDP)(Wang et al., 2009)、水资源消耗结构(Wei et al., 2018)以及社交媒体中的情绪结构(Lu et al., 2021)。近年来,组合数据的统计建模发展迅速,其中组合数据的聚类分析受到了越来越多的关注。
特别是,组合数据与常见的标量数据有所不同。从数学表达的角度来看,组合数据样本由多个正数分量组成,这些分量的总和为一个常数(如1、100%或其他常数)。在这种情况下,直接对组合数据计算欧几里得距离可能会导致误解和不合理的聚类结果(Wang et al., 2021c),因此大多数传统的聚类方法无法直接应用于受限的组合数据。一些文献对此进行了有效探索。例如,基于Aitchison几何学,Wang et al.(2021b)将稀疏凸聚类的理论框架推广到了组合数据分析中,从而解决了组合数据的高维性和稀疏性问题(Chi and Lange, 2015; Wang et al., 2018)。然而,这种方法可能不适用于符合特定分布假设的数据。假设数据来自概率分布的混合,Piancastelli et al.(2024)提出了一种基于模型的组合数据聚类方法,该方法将狄利克雷混合模型与聚类分配的Potts分布相结合。这种方法可以在无需预处理的情况下有效划分遵循特定分布的组合数据。然而,这种方法难以准确划分具有复杂流形结构的数据(Nie et al., 2020)。
尽管上述方法在组合数据聚类方面取得了显著进展,但它们仍存在两个主要局限性。一方面,大多数研究仅关注单个组合数据变量,而多变量组合数据的方法论尚未得到充分研究。实际上,在经济、管理、工程等多个领域中都包含多个组合数据指标(Chen et al., 2021),这促使我们开发一种高效的多变量组合数据聚类方法。例如,为了观察中国的发展状况,我们可以选择三个组合数据变量,这些数据来自《中国统计年鉴2024》。这三个组合数据变量分别是按行业划分的GDP构成、按行业划分的员工数量以及能源消耗的构成。每个变量中的所有分量都大于0,且它们的总和等于1。这个例子如图1所示。多变量组合数据的优势在于它能够从多个结构角度反映样本的特征,提供的更丰富的信息有助于后续的学习过程。此外,区分不同组合数据变量的重要性对于获得更有效的聚类结果也非常重要(Wang et al., 2021)。
另一方面,大多数方法无法同时利用组合数据的分布信息和复杂流形结构信息,这些信息也被称为全局结构和局部结构(Kou et al., 2023; Zhou et al., 2025)。全局结构描述了数据的整体分布,而局部结构反映了数据内部的邻域关系(Liu et al., 2025)。大量研究表明,同时利用数据的全局和局部结构可以提高聚类性能(Jiang et al., 2025; Kong, Liu, Shang, Zhang, Xu, Li, 2025; Kong, Chang, Fu, Wang, Wang, Zhao, 2023; Wang et al., 2024)。特别是,结合图正则化的子空间聚类方法表现出很好的有效性和鲁棒性(Jia et al., 2023; Zhou et al., 2025c),其中利用自表达性质来捕获全局结构,并使用一些图约束项来保持局部结构。然而,对于组合数据的研究较少。根本挑战在于如何将自表达性质扩展到多变量组合数据并构建适当的图约束项。
为了解决上述局限性,我们提出了一种新颖的自加权低秩表示(SWLRR)方法来聚类多变量组合数据。具体来说,我们采用变量加权策略来为不同的组合数据变量自适应地分配适当的权重,从而增强信息变量的重要性并抑制非信息变量的重要性。同时,为了保留数据的全局和局部结构信息,我们利用了多变量组合数据的自表达性质,并基于Aitchison几何学(Aitchison, 1982)和组合数据的等距对数比率(ilr)变换(Egozcue et al., 2003)构建了有效的图约束项。此外,将这些方法整合到一个联合框架中以获得相似性矩阵,并对相似性矩阵施加核范数以寻找对原始数据中的噪声和异常值不敏感的最低秩表示(Liu et al., 2012)。然后使用交替方向乘子法(ADMM)有效地解决上述优化问题。最后,相似性矩阵作为输入用于谱聚类,以得到多变量组合数据的聚类结果。本文的主要贡献如下:
•基于Aitchison几何学和ilr变换,将自表达性质和图约束项理论推广到多变量组合数据。因此,可以同时捕获多变量组合数据的全局和局部结构,利用更多有用信息来提高聚类性能并促进组合数据变量的加权。
•我们采用变量加权策略来自适应地学习所有组合数据变量的适当权重。对捕获多变量组合数据的全局和局部结构贡献较大的变量被赋予较大的权重。由此可见,变量加权和结构捕获是相互促进的,使得获得的表示更具区分性。
•我们引入ADMM优化方法来解决所提出的聚类模型,并证明了其收敛性。在合成数据和真实数据集上的广泛实验结果验证了所提出方法的有效性。
本文的其余部分安排如下。第2节和第3节分别总结了相关工作和相关前期工作。第4节详细阐述了所提出的SWLRR方法,包括模型构建、优化过程及收敛性分析。第5节进行了实验结果和讨论,第6节给出了结论。