用于多变量组合数据的自加权低秩表示方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

用于多变量组合数据的自加权低秩表示方法

《Neural Networks》：Self-weighted Low-rank Representation for Multivariate Compositional Data

【字体：大中小】 时间：2026年03月16日 来源：Neural Networks 6.3

编辑推荐：

　　多元复合数据聚类分析中，本文提出自加权低秩表示（SWLRR）方法，通过变量加权策略突出有效变量，结合Aitchison几何和ilr变换实现全局与局部结构联合捕捉，并采用ADMM优化算法提升鲁棒性。实验验证该方法在合成与实际数据集上的有效性。

刘正彦|王慧文|赵青|王丽红

北京航空航天大学经济与管理学院，中国北京100191

摘要

组合数据能够有效捕捉整体不同部分之间的相对信息，近年来在许多实际应用中得到了广泛使用。然而，由于复杂的组合结构和非信息变量的存在，目前针对多变量组合数据的聚类研究仍然较少。在本文中，我们提出了一种自加权低秩表示（SWLRR）方法来聚类多变量组合数据。具体而言，我们引入了一种变量加权策略，以学习不同组合数据变量的适当权重，从而突出信息变量并抑制非信息变量。同时，为了探索数据的分组结构，我们在加权数据空间中同时捕获了数据的全局和局部结构，这是通过推广自表达性质和添加图约束项来实现的。此外，为了提高鲁棒性，我们对表示进行了低秩约束。基于此，我们构建了一个统一的优化框架，并利用交替方向乘子法（ADMM）提出了求解算法。在合成数据和真实数据集上的实验结果表明，与其它方法相比，所提出的聚类方法具有明显优势，能够有效识别不同组合数据变量对聚类过程的贡献。

引言

组合数据通常用于描述由多种成分构成的整体，并可以通过相应的比例或百分比来表示。由于组合数据包含结构信息这一优势，它在实际应用中得到了广泛应用（Alenazi, 2023），例如行业层面的国内生产总值（GDP）（Wang et al., 2009）、水资源消耗结构（Wei et al., 2018）以及社交媒体中的情绪结构（Lu et al., 2021）。近年来，组合数据的统计建模发展迅速，其中组合数据的聚类分析受到了越来越多的关注。

特别是，组合数据与常见的标量数据有所不同。从数学表达的角度来看，组合数据样本由多个正数分量组成，这些分量的总和为一个常数（如1、100%或其他常数）。在这种情况下，直接对组合数据计算欧几里得距离可能会导致误解和不合理的聚类结果（Wang et al., 2021c），因此大多数传统的聚类方法无法直接应用于受限的组合数据。一些文献对此进行了有效探索。例如，基于Aitchison几何学，Wang et al.（2021b）将稀疏凸聚类的理论框架推广到了组合数据分析中，从而解决了组合数据的高维性和稀疏性问题（Chi and Lange, 2015; Wang et al., 2018）。然而，这种方法可能不适用于符合特定分布假设的数据。假设数据来自概率分布的混合，Piancastelli et al.（2024）提出了一种基于模型的组合数据聚类方法，该方法将狄利克雷混合模型与聚类分配的Potts分布相结合。这种方法可以在无需预处理的情况下有效划分遵循特定分布的组合数据。然而，这种方法难以准确划分具有复杂流形结构的数据（Nie et al., 2020）。

尽管上述方法在组合数据聚类方面取得了显著进展，但它们仍存在两个主要局限性。一方面，大多数研究仅关注单个组合数据变量，而多变量组合数据的方法论尚未得到充分研究。实际上，在经济、管理、工程等多个领域中都包含多个组合数据指标（Chen et al., 2021），这促使我们开发一种高效的多变量组合数据聚类方法。例如，为了观察中国的发展状况，我们可以选择三个组合数据变量，这些数据来自《中国统计年鉴2024》。这三个组合数据变量分别是按行业划分的GDP构成、按行业划分的员工数量以及能源消耗的构成。每个变量中的所有分量都大于0，且它们的总和等于1。这个例子如图1所示。多变量组合数据的优势在于它能够从多个结构角度反映样本的特征，提供的更丰富的信息有助于后续的学习过程。此外，区分不同组合数据变量的重要性对于获得更有效的聚类结果也非常重要（Wang et al., 2021）。

另一方面，大多数方法无法同时利用组合数据的分布信息和复杂流形结构信息，这些信息也被称为全局结构和局部结构（Kou et al., 2023; Zhou et al., 2025）。全局结构描述了数据的整体分布，而局部结构反映了数据内部的邻域关系（Liu et al., 2025）。大量研究表明，同时利用数据的全局和局部结构可以提高聚类性能（Jiang et al., 2025; Kong, Liu, Shang, Zhang, Xu, Li, 2025; Kong, Chang, Fu, Wang, Wang, Zhao, 2023; Wang et al., 2024）。特别是，结合图正则化的子空间聚类方法表现出很好的有效性和鲁棒性（Jia et al., 2023; Zhou et al., 2025c），其中利用自表达性质来捕获全局结构，并使用一些图约束项来保持局部结构。然而，对于组合数据的研究较少。根本挑战在于如何将自表达性质扩展到多变量组合数据并构建适当的图约束项。

为了解决上述局限性，我们提出了一种新颖的自加权低秩表示（SWLRR）方法来聚类多变量组合数据。具体来说，我们采用变量加权策略来为不同的组合数据变量自适应地分配适当的权重，从而增强信息变量的重要性并抑制非信息变量的重要性。同时，为了保留数据的全局和局部结构信息，我们利用了多变量组合数据的自表达性质，并基于Aitchison几何学（Aitchison, 1982）和组合数据的等距对数比率（ilr）变换（Egozcue et al., 2003）构建了有效的图约束项。此外，将这些方法整合到一个联合框架中以获得相似性矩阵，并对相似性矩阵施加核范数以寻找对原始数据中的噪声和异常值不敏感的最低秩表示（Liu et al., 2012）。然后使用交替方向乘子法（ADMM）有效地解决上述优化问题。最后，相似性矩阵作为输入用于谱聚类，以得到多变量组合数据的聚类结果。本文的主要贡献如下：

•

基于Aitchison几何学和ilr变换，将自表达性质和图约束项理论推广到多变量组合数据。因此，可以同时捕获多变量组合数据的全局和局部结构，利用更多有用信息来提高聚类性能并促进组合数据变量的加权。

•

我们采用变量加权策略来自适应地学习所有组合数据变量的适当权重。对捕获多变量组合数据的全局和局部结构贡献较大的变量被赋予较大的权重。由此可见，变量加权和结构捕获是相互促进的，使得获得的表示更具区分性。

•

我们引入ADMM优化方法来解决所提出的聚类模型，并证明了其收敛性。在合成数据和真实数据集上的广泛实验结果验证了所提出方法的有效性。

本文的其余部分安排如下。第2节和第3节分别总结了相关工作和相关前期工作。第4节详细阐述了所提出的SWLRR方法，包括模型构建、优化过程及收敛性分析。第5节进行了实验结果和讨论，第6节给出了结论。

前期工作

在本节中，我们首先回顾了组合数据的Aitchison几何学和等距对数比率（ilr）变换。然后，我们介绍了一些多变量组合数据的矩阵表达式。最后，介绍了一些子空间聚类的基本概念。

提出的方法

在本节中，我们首先定义了多变量组合数据的自表达性质。然后，我们详细介绍了SWLRR方法，并对其进行了描述。最后，我们介绍了优化过程并分析了SWLRR的复杂性和收敛性。

实验

在本节中，我们在两个合成数据集和两个真实数据集上评估了SWLRR的性能。实验设置、数据集描述和聚类结果的详细信息分别在以下小节中提供。实验是在配备3.2GHz AMD Ryzen 7 6800H CPU和16GB RAM的计算机上进行的。

结论

本文提出了一种用于多变量组合数据的新颖自加权低秩表示方法，称为SWLRR。SWLRR可以自适应地为不同的组合数据变量学习适当的权重，从而突出信息变量并抑制非信息变量，使加权数据空间更具聚类区分性。同时，通过Aitchison几何学和ilr变换，将自表达性质进行了推广

CRediT作者贡献声明

刘正彦：撰写——原始草稿、可视化、软件实现、方法论设计、数据分析、形式化分析。王慧文：监督、项目管理、资金获取、概念构思。赵青：撰写——审稿与编辑、验证、监督、概念构思。王丽红：验证、监督、资源协调。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

本工作得到了国家自然科学基金（项目编号72021001）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究