基于递归二分分割和最大MMD（Max-MMD）的近乎完美聚类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月12日 来源：IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6

编辑推荐：

　　基于最大均值分歧的未知和已知聚类数功能数据分析算法研究。提出递归二分策略分割数据，未知聚类数时通过验证子群同质性自动确定K值，已知时合并相似子群。理论证明在Oracle场景下实现完美聚类和顺序保持特性，实证分析显示优于现有方法。

摘要：

我们开发了新的聚类算法，用于处理功能数据。这些算法适用于簇的数量未指定（即K）或已指定的情况。这些算法基于两组观测值所对应的经验分布之间的最大均值差异（MMD）度量进行设计。算法通过递归使用二分分割策略将数据集划分为两个子组，使得这两个子组在适当的加权MMD度量下达到最大程度的分离。当簇的数量未指定时，所提出的聚类算法会增加一个步骤，以检查通过二分分割技术得到的观测值组是否来自同一总体。我们还利用该算法直接从数据中学习簇的数量（即K）。当簇的数量已指定时，我们对原始算法进行了改进，增加了合并在加权MMD距离上相似的子组的步骤。在需要知道来自不同总体的观测值经验分布的“神谕”场景下，我们对所提算法的理论特性进行了研究。结果表明，当簇的数量未指定时，所提出的算法能够实现完美聚类；而当簇的数量已指定时，该算法具有保持原始数据顺序（POP）的特性。通过使用具有位置差异和尺度差异的各种模型进行的广泛真实数据和模拟数据分析表明，这两种算法的聚类性能接近完美，优于现有的功能数据聚类方法。

联系信箱：

粤ICP备09063491号

摘要：

热点排行