在噪声高斯混合模型中改进聚类质量评估

《Neurocomputing》:Improving clustering quality evaluation in noisy Gaussian mixtures

【字体: 时间:2026年03月16日 来源:Neurocomputing 6.5

编辑推荐:

  提出特征重要性重标(FIR)方法,通过调整高维或噪声数据集中特征权重,增强聚类验证指标(如平均轮廓宽度、Calinski-Harabasz、Davies-Bouldin)与真实标签的相关性,实验证明FIR在提升评估鲁棒性和减少性能波动方面效果显著。

  
雷纳托·科代罗·德·阿莫林 | 弗拉基米尔·马卡连科夫
埃塞克斯大学计算机科学与电子工程学院,英国威文霍

摘要

聚类是机器学习和数据分析中一种成熟的技术,在各个领域得到了广泛应用。当没有外部真实标签时,聚类有效性指标(如平均轮廓宽度、卡林斯基-哈拉巴兹指数和戴维斯-博尔丁指数)在评估聚类质量方面起着关键作用。然而,这些指标可能会受到特征相关性的影响,从而在高维或噪声数据集中导致不可靠的评估结果。
我们提出了一种基于理论的特征重要性重新缩放(FIR)方法,通过根据特征的分散程度调整其特征贡献来提高聚类评估的质量。该方法可以减弱噪声特征的影响,明确聚类的紧凑性和分离度,从而使聚类评估结果更接近真实情况。通过对不同配置下的合成数据集进行广泛实验以及对真实世界数据的案例研究,我们证明了FIR能够一致性地提高聚类有效性指标值与真实标签之间的相关性,尤其是在存在噪声或不相关特征的情况下。
实验结果表明,FIR增强了聚类评估的稳健性,减少了不同数据集之间的性能差异,并且即使在聚类之间存在显著重叠时也能保持有效性。这些发现突显了FIR作为聚类评估改进方法的潜力,使其成为在没有标记数据的无监督学习任务中的实用工具。

引言

聚类是机器学习和数据分析中的基本技术,是许多探索性方法的核心。它的目标是根据选定的相似性度量形成同质的数据组(即聚类),而无需依赖标签进行学习。聚类算法已成功应用于解决来自多个应用领域的许多实际问题,包括数据挖掘、社区检测、计算机视觉和自然语言处理[1]、[2]、[3]、[4]。
聚类算法可以采用不同的方法。例如,划分聚类算法生成不重叠的聚类,这些聚类共同覆盖所有数据点(即数据的分割)。层次聚类算法通过迭代合并(聚合)或分割(分裂)聚类,生成一种树状结构,可以用树状图来表示聚类及其之间的关系。在这种情况下,一个数据点可以属于多个聚类,只要这些成员关系发生在层次结构的不同层级上。模糊聚类算法允许每个数据点属于多个聚类,其成员度通常加起来为一。有关这些和其他方法的更多详细信息,我们建议感兴趣的读者参考相关文献(例如[5]、[6]及其中的引用)。
在这里,我们关注的是对数据集的不重叠划分(有时称为清晰聚类)的内部评估。内部评估不依赖于外部因素(如真实标签),而是仅考虑数据本身的属性和生成的聚类结果。关键方面包括聚类内的凝聚性(聚类的紧凑性)和聚类间的分离度(聚类之间的区分度)。这与现实世界的聚类应用非常吻合,因为在实际应用中通常无法获得标签。内部评估在文献中已被广泛研究[7]、[8]、[9]。
本文的贡献是一种基于理论的方法,通过考虑特征相关性来增强内部评估指标。我们的方法称为特征重要性重新缩放(FIR),它认识到不同特征可能具有不同的相关性,并据此重新调整数据集。我们证明了我们的重新缩放方法能够提高四种流行的内部评估指标与真实标签之间的相关性。

相关工作

-均值算法[10]可以说是目前最流行的聚类算法[11]、[12]。给定一个数据集,其中每个数据点都由若干特征描述,-均值算法通过迭代最小化聚类内平方和(WCSS)来生成聚类结果。算法1详细说明了具体步骤。

算法1

-均值

聚类结果是数据的一个划分。因此,-均值算法随机初始化其质心,并进行局部最优调整。

特征重要性重新缩放

在本节中,我们介绍了我们的特征重要性重新缩放(FIR)方法。该方法旨在通过量化特征的相关性并据此重新调整数据集,从而改进第2节讨论的聚类质量评估指标以及WCSS(1)的效果。这种方法特别适用于划分聚类算法,如K-means算法,这些算法假设数据遵循某种分布规律。

实验设置

我们的主要目标是公平评估我们测试的各个指标的有效性(详情见2相关工作和3特征重要性重新缩放部分)。我们通过评估这些指标与真实标签之间的相关性(或反相关性,具体取决于指标类型)来实现这一目标,尽管我们并没有真实标签。
为此,我们首先使用调整后的Rand指数(ARI)[25]来衡量聚类的恢复情况,这是一种经过机会校正的Rand指数版本。我们进行了200次实验。

结果与讨论

在本节中,我们评估了我们的数据重新缩放方法对四种内部聚类评估指标的影响:平均轮廓宽度(ASW)、卡林斯基-哈拉巴兹指数(CH)、戴维斯-博尔丁指数(DB)以及WCSS。更具体地说,我们评估了重新缩放是否增强了这些指标与真实标签之间的相关性,从而提高了它们在无监督环境中的可靠性。为此,我们使用了具有不同特征相关性的合成数据集进行了大量实验。

结论

在本文中,我们介绍了特征重要性重新缩放(FIR),这是一种基于理论的数据重新缩放方法,旨在通过考虑特征相关性来增强内部聚类评估指标。FIR动态调整特征的比例,以更好地反映每个特征对聚类结构的贡献,从而提高常用内部评估指标的可靠性。通过对合成数据集的广泛实验,我们证明了FIR能够一致性地提高这些指标的效果。
作者贡献声明
雷纳托·科代罗·德·阿莫林:撰写 – 审稿与编辑、撰写 – 原稿、软件开发、数据分析、概念化 弗拉基米尔·马卡连科夫:撰写 – 审稿与编辑、数据分析、概念化
利益冲突声明
作者声明他们没有已知的财务利益冲突或个人关系可能会影响本文所述的工作。
雷纳托·科代罗·德·阿莫林是埃塞克斯大学计算机科学与人工智能专业的高级讲师。他发表了许多论文,介绍了基于无监督和半监督学习框架的新方法,这些方法应用于安全、生物信号处理和一般数据挖掘等领域。他的研究得到了英国皇家学会和创新英国(Innovate UK)的资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号