论文标题：通过K部分集合提高作业完成的信心（“Confidence in Assignments via K-partition Ensembles”）

《Machine Learning with Applications》：CAKE: Confidence in Assignments via K-partition Ensembles

【字体：大中小】 时间：2026年05月15日 来源：Machine Learning with Applications 4.9

编辑推荐：

　　阿格洛斯·塞莫格鲁（Aggelos Semoglou）| 约翰·帕夫洛普洛斯（John Pavlopoulos）希腊雅典经济与商业大学信息学系 **摘要** 聚类在无监督结构发现中得到了广泛应用，但它对每个数据点的分配可靠性提供的洞察有限。诊断方法，如收敛行为或目

　　阿格洛斯·塞莫格鲁（Aggelos Semoglou）| 约翰·帕夫洛普洛斯（John Pavlopoulos）
希腊雅典经济与商业大学信息学系

**摘要**
聚类在无监督结构发现中得到了广泛应用，但它对每个数据点的分配可靠性提供的洞察有限。诊断方法，如收敛行为或目标值，可能反映了整体质量，但它们并不能指示特定实例是否被可靠地分配，尤其是对于像k-means这样的对初始化敏感的算法。这种分配级别的不稳定性可能会削弱精确性和鲁棒性。集成方法通过聚合多次运行来提高整体一致性，但它们通常缺乏量化逐点置信度的工具，这些工具能够结合跨运行的共识和从学习到的聚类结构中获得的几何支持。本研究介绍了CAKE（通过K-分区集成评估分配置信度的方法），该框架使用两个互补的统计量来评估每个点：分配稳定性和局部几何拟合的一致性。这两个统计量被结合成一个介于[0,1]之间的单一、可解释的分数。理论分析表明，CAKE在噪声存在的情况下仍然有效，并能够区分稳定和不稳定的点。在合成数据和真实世界数据集上的实验表明，CAKE能够有效地突出显示模糊点和稳定的核心成员，提供了一个可用于下游聚类工作流中的选择或优先级排序的置信度排名。

**1. 引言**
聚类是无监督机器学习中的一个基本任务，广泛用于揭示未标记数据中的结构（Aggarwal和Reddy，2013；Jain等人，1999）。它在模式发现、探索性分析和科学及应用领域的决策制定中都有核心应用（Kaufman & Rousseeuw，2009）。然而，与监督学习不同，在监督学习中，置信度估计技术（如共形预测（Shafer & Vovk，2007）或校准概率（Guo等人，2017）很常见，而聚类方法通常不能为单个数据点的分配提供可靠的置信度分数。这使得评估分配的可靠性变得困难，特别是在下游决策依赖于聚类结果时。

在实践中，聚类算法常常对初始化敏感，容易陷入局部最优解，并且容易受到噪声或模糊数据的影响（Xu & Wunsch，2005）。因此，即使在固定的算法设置下，不同执行的结果也可能有所不同。例如，尽管k-means（MacQueen，1967）非常流行，但由于随机初始化，其结果也可能在不同运行中产生差异（Bubeck等人，2012）。实践者通常通过多次运行算法并使用不同的随机种子来缓解这个问题，并根据内部验证指标选择最佳结果。然而，这种方法只解决了全局变异性问题，并没有提供关于单个数据点分配可靠性的见解。在异常检测或科学发现等场景中，这种分配级别的不稳定性尤其成问题，因为不可靠的分配可能会误导解释或掩盖重要模式。此外，大多数现有的评估方法都是在全局或聚类级别上评估聚类质量的，使用目标值或内部验证指标（如Silhouette分数或Davies–Bouldin指数（Arbelaitz等人，2013；Vendramin等人，2009））。

基于集成的技术，如共识聚类（Aktas等人，2024；Strehl和Ghosh，2002；Zhang，2022），也通过聚合多个分区来提高鲁棒性。然而，它们仍然缺乏可解释的逐点置信度分数，这些分数能够同时捕捉跨运行的标签分配一致性和几何拟合。作为回应，许多集成式不确定性启发式方法主要关注一致性，例如计算每次运行中每个点标签的对齐“投票”数量或测量分配的离散度，以识别不稳定的样本（Inkaya，2023；Zhang等人，2025）。虽然这些方法有用，但仅凭一致性无法判断一个点是否在其分配的聚类中得到良好的几何支持，因为一个点可能由于系统偏差或过于严格的决策边界而被一致地分配，即使它与聚类结构的连接较弱。相反，仅在单次运行中计算的纯几何信号（如Silhouette分数）在模糊区域可能过于乐观：一个点在某次运行中的几何位置看起来很好，但由于它位于边界附近或在多个分区中几乎被同等好地解释，因此在不同的运行中可能会交换聚类（Liu等人，2022）。这些互补的失败模式（图1）促使人们开发出一个融合稳定性和几何信息的置信度信号。

**图1. 分配稳定性和几何一致性可能会以互补的方式失败。** P1（稳定的异常值；左）尽管与其分配的聚类结构的整合较弱，但分配始终一致（高稳定性），而P2（不稳定的边界；右）在单次运行中在某个聚类中具有更高的内部拟合度，但在不同运行中会在边界附近交换标签。这些情况表明，可靠的逐点置信度应该同时考虑这两种信号。

**如何为每个数据点分配一个置信度分数，使得该分数在不同运行中既反映分配的稳定性，又反映其在学习到的聚类结构下的几何支持的一致性？**

为了解决这个问题，引入了CAKE（通过K-分区集成评估分配置信度的方法），作为一个框架，它通过结合两个来自聚类分区的互补统计量来量化每个点的置信度：（i）成对分配一致性，使用匈牙利算法（Kuhn，1955；Meila，2007）计算；（ii）局部几何一致性，通过聚合的Silhouette统计量测量。这两个组件被整合成一个介于[0,1]之间的单一置信度分数，表示其聚类成员身份的支持强度，并提供了一个细粒度的排名，突出显示模糊点和稳定的核心成员。本文为CAKE分数的统计可靠性提供了理论保证，并在合成数据和真实世界数据集上证明了CAKE能够有效地区分高置信度和低置信度的分配。这使得可以选择性地移除或优先处理点，从而在全无标签的设置中提高聚类质量和可解释性。从经验上看，CAKE在少量运行后就能稳定下来，无需大型集成即可产生可靠的置信度排名。这使得该方法在迭代、探索性的聚类工作中既轻量又实用。CAKE为聚类中的每个实例引入了一个基于原则的置信度估计框架，将集成多样性与逐点分配质量的评估相结合。更广泛地说，CAKE将聚类集成转变为一个实用的、逐点的诊断工具，补充了全局验证。

CAKE的实现和实验代码可在以下链接公开获取：
https://github.com/semoglou/cake
Python包可在PyPI上获取：
https://pypi.org/project/cake-ensemble/

**图2. CAKE框架概述。** 在一系列R次聚类运行（分区）中，CAKE将Silhouette统计量聚合为几何组成部分，将（对齐的）标签分配聚合为稳定性组成部分，然后将两者融合为每个数据点的置信度分数。

**2. 相关工作**
评估聚类结果的质量一直是大量先前研究的重点。经典的验证指标，如Silhouette分数（Dudek，2020；Pavlopoulos等人，2025；Rousseeuw，1987；Davies–Bouldin指数（Davies & Bouldin，1979）和Calinski–Harabasz准则（Calinski & Harabasz，1974），提供了紧凑性和分离性的全局或聚类级别评估，但它们并不是为了量化单个分配的可靠性或隔离分区内的不稳定或模糊样本而设计的（Arbelaitz等人，2013）。

聚类集成旨在通过聚合多个分区来提高鲁棒性，使用的技术包括共关联矩阵或共识函数（Fred和Jain，2005；Inkaya，2023；Strehl和Ghosh，2002）以及更近期的集成选择方法（Golalipour等人，2021）。虽然这些方法在稳定全局结构方面有效，但它们通常不提供逐点置信度分数（Boongoen和Iam-On，2018；Zhang，2022）。它们的重点在于产生一个单一的共识聚类，而不是量化每个点在不同运行中的分配可靠性（Topchy等人，2005）。因此，共识输出可能会掩盖聚类边界附近或数据异质区域中的局部分歧，使得识别不稳定点变得困难。当有逐点信息可用时（例如，通过共关联计数），它通常被用作形成共识的中间工具，而不是用于诊断分配的明确置信度分数。此外，集成聚合通常由分区一致性驱动，并没有将逐点几何证据纳入置信度信号中。

将不确定性纳入聚类的努力包括模糊聚类（Bezdek，1981；Bezdek等人，1984）、概率混合模型和基于自举的稳定性分析（Ben-Hur等人，2002；Hennig，2007；Lange等人，2004；Liu等人，2022）。在相关的集成稳定性工作中，通常通过跨运行的对齐标签“投票”的离散度来总结逐点不确定性（例如，熵）（Ayad & Kamel，2008）。最近的深度聚类研究也研究了校准的聚类置信度，例如通过专门为置信度校准而训练的深度聚类网络（Jia等人，2025）。这些方法提供了软分配或概率估计，但在应用于硬聚类结果时可能较难解释；特别是，专注于一致性的重采样或标签对齐启发式方法只能量化逐点一致性，但忽略了局部几何拟合。此外，基于模型的技术（如高斯混合模型（Reynolds，2009）需要分布假设，而自举方法可能在计算上密集且对采样变异性敏感。

另一个相关领域涉及比较聚类结果时的标签对齐挑战，通常使用匈牙利算法进行最优排列匹配（Kuhn，1955；Meila，2007）。虽然这种对齐步骤在集成聚类中是标准的，但它较少用于系统地量化集成中每个点的分配稳定性。

CAKE扩展了这些方法，将最优标签对齐与局部几何分析结合起来，为每个数据点提供了一个有原则的、可解释的置信度分数，将基于集成的鲁棒性与逐点可靠性相结合，并将集成共识建立在几何证据的基础上。CAKE借鉴了监督集成技术的灵感，在这些技术中，分类器之间的不一致性提供了不确定性（Beluch等人，2018；Gal和Ghahramani，2016；Lakshminarayanan等人，2017）。这些方法利用独立训练的模型或随机传递之间的变化（例如，dropout）来估计预测置信度。相比之下，CAKE在无监督环境下操作，使用聚类集成的多样性和聚类内的几何一致性来推断置信度分数，而无需标签。

**3. 方法论**
**3.1. 设置与符号**
假设有一个由n个数据点组成的数据集X=xii=1n?Rd。让C=C(1)，C(2)，…，C(R)表示通过重复应用相同的聚类算法获得的R个聚类结果集合，每次使用相同数量的簇k，但使用不同的随机种子。这个集合通过捕捉数据集在随机变化下的多个分区形成了一个聚类集成。尽管所有运行都使用相同的算法和参数，但随机初始化引入了结果分区中的有意义差异，反映了数据点分组方式的不确定性。更一般地，集成可以使用重采样策略（例如，对X的自助子集进行聚类）或通过聚合不同聚类算法的分区来构建，从而提供对分配变异性的更广泛视角（图4）。虽然所提出的框架与此类（异构）集成构建策略（图10）兼容，包括重采样和多算法聚类集成，但这里的重点是使用单一流派聚类方法的重复应用形成的（同质）集成，允许量化分配级别的置信度，而不受其他变异源的干扰。

为了定量使用这些分区，让L=L(1)，L(2)，…，L(R)表示相应的分配集合。每个标签L(r)∈L为每个数据点xi∈X分配一个簇标签，使得L(r)=L1(r)，L2(r)，…，Ln(r)，其中Li(r)∈1,2,…，k：xi在聚类运行r中的标签。

**3.2. 集成Silhouette统计量**
对于每个数据点xi∈X，让si(r)表示其在聚类运行r∈1,2,…，R下的Silhouette分数，(1)si(r)=bi(r)?ai(r)max(ai(r)，bi(r)∈[?1,1]，这通过将其平均簇内距离ai(r)与其最小平均簇间距离bi(r)进行比较来量化其分配的质量。计算所有si(r)在每次聚类运行中的成本为O(n2d)。当基础方法是基于中心点的（例如，k-means，k-means++）且n较大时，可以使用基于中心的Silhouette近似（Wang等人，2017）来替代，即a?i(r)=‖xi?μCi(r)‖和b?i(r)=minC≠Ci‖xi?μC(r)‖，其中μC(r)是运行r中簇C的中心点，Ci表示xi在运行r中的簇索引（即Ci=Li(r)）。这将在保持精确分数的同时将每次运行的成本降低到O(nkd)。

在集成上聚合。对于集合中的每个数据点xi，计算平均值Silhouette分数和标准差（std）：
(2)μi=1R∑r=1Rsi(r)，σi=1R∑r=1Rsi(r)?μi2
这两个量用于定义基于Silhouette的可靠性度量。较高的平均值μi表明xi在聚类运行中的几何位置较好，而较低的标准差σi表明这种质量是一致的。从μi中减去σi可以惩罚那些在不同运行中Silhouette值变化较大的点，同时强调质量和几何拟合的稳定性。为了确保非负性，结果分数在零处进行了阈值处理：
(3)S?i=μi?σi+=max0,(μi?σi)∈[0,1]。Si 奖励的点不仅具有高的平均轮廓值（良好的聚类适配性），而且在多次运行中的变异性也很低（几何位置稳定）。然而，高 Si 并不能保证一个点在多次运行中始终被分配到同一个聚类中。它仅仅表明该点在其分配的聚类中保持了一致的强适配性。为了捕捉实际的分配稳定性，引入了一个基于集合中聚类一致性的补充指标。3.3. 集合分配稳定性标签对齐。给定来自两次运行 r1, r2 的两个聚类标签 L(r1),L(r2)∈L，这些标签可能不对齐：即 L(r1) 和 L(r2) 中的聚类标签 j 可能对应于不同的点组。为了将 L(r2) 对齐到 L(r1)，定义了一个 contingency 矩阵 M∈Nk×k，其中每个条目 Mi,j 计算了在 L(r1) 中分配到聚类 i 和在 L(r2) 中分配到聚类 j 的点数：(4)Mi,j=∑p=1n1Lp(r1)=i∧Lp(r2)=j，其中 1(?) 是指示函数。找到最优对齐对应于找到一个排列 π?，使得 π?:1,…,k→1,…,k，最大化一致性：(5)π?=argmaxπ∑i=1kMi,π(i)，其中 π(i) 表示在 L(r2) 中与 L(r1) 中的标签 i 匹配的标签。这种优化等同于解决一个线性分配问题，可以使用匈牙利算法在 O(k3) 时间内解决。在对齐 L(r2) 到 L(r1) 之后，对齐后的标签表示为 L(r2→r1)，两次运行 (r1,r2) 之间对于数据点 xi∈X 的逐点一致性定义为：(6)Ai(r1,r2)=1Li(r1)=Li(r2→r1)∈0,1。实例成对稳定性。给定 R 次聚类运行，有 (R2)=R(R?1)2 个不同的无序分区对。对于每个点 xi∈X，成对稳定性得分 ci 定义为在所有无序运行对中 xi 被分配到相同聚类的比例：(7)ci=2R(R?1)∑r10，它成立：(10)EAi(r1,r2)≥EAj(r1,r2)+γ?Prciτ|xiuniform-noise]≤exp?R2τ?1k2?thresholdτ>1k。更一般地，对于任何具有预期一致性 θi=E[Ai(r1,r2) 的标签分布：Pr[ci>τ]≤exp?R2(τ?θi)2，（?τ>θi），因此概率仍然随 R 指数衰减（详细分析在附录 A.2 中）。5. 实证验证5.1. 合成与真实世界数据集 CAKE 在合成和真实世界数据集上进行了评估。接下来描述了合成数据集（图 5 中的可视化）。S1 有 4000 个点，来自三个标准差为 2.0 的高斯簇；S2 有 3000 个点，来自三个标准差分别为 2.0、2.5 和 1.5 的簇。S3 有 4500 个点，其中 3000 个属于标准差为单位的标准差的高斯簇，1500 个是均匀分布的噪声点。S4 有 3000 个点，分布在四个宽高斯簇中，位于一个正方形的四个角上。S5 有 4000 个点，来自三个标准差分别为 0.2、3.0 和 1.5 的簇。S6 有 4000 个点，来自三个标准差分别为 0.4、2.5 和 0.4 的簇，其中一个稀疏的中心簇与每侧的密集簇重叠。S7 有 4000 个点，分布在三个标准差分别为 0.3、1.5 和 2.5 的簇中。真实世界数据集可通过 OpenML（Vanschoren 等人，2014）、scikit-learn（Pedregosa 等人，2011）或 TensorFlow（Abadi 等人，2015）公开获得，涵盖了广泛的领域和结构（大小、维度和预处理在表 1 中总结）：Iris（Ir）、乳腺癌（Bc）、Pendigits（Pd）、Letter（Lt）、Digits（Dg）、Fashion MNIST（Fm）、Satimage（Sa）和 20 Newsgroups（Ng）。下载：下载高分辨率图像（587KB）下载：下载全尺寸图像表 1. 真实数据集。n：样本数量；d：预处理后的维度；k：类别（簇）数据集（缩写）模态ndk预处理/表示Iris（Ir）表格15043无标准化；PCA乳腺癌（Bc）表格569102标准化；Pendigits（Pd）表格10,9921610无Letter（Lt）表格20,0001626标准化Digits（Dg）图像1,7976410展平 8 × 8 灰度图像Fashion MNIST（Fm）图像60,00078410展平 28 × 28 灰度图像Satimage（Sa）遥感6,435306PCA20 Newsgroups（Ng）文本18,84610020全部MiniLM-L6-v2嵌入；PCA5.2. 评估设置根据它们的 CAKE 分数对实例进行排名（第 3.4 节），然后选择最高置信度的子集，以评估保留最可靠点对下游聚类质量的影响。对于每个数据集，使用 20 次独立的 k-means 运行计算 CAKE 分数，这些运行的真类数为 k（合成数据集随机初始化；真实数据集使用 k-means++）。选择 k-means 是因为它被广泛使用，易于解释，并且已知对初始化敏感，因此它是评估分配级置信度的自然候选者；CAKE 本身是与模型无关的，适用于任何硬分配聚类集合（见图 4、10 和附录 C）。在这种设置中，CAKE 主要被视为一个逐点置信度分数，该分数对实例进行排名，而过滤则被认为是在该排名下的应用，保留指定的比例。因此，实验旨在评估在固定聚类分辨率下，所诱导的排名是否能够区分更可靠和不太可靠的实例。随后的子集选择分析提供了下游测试，以确定高置信度实例是否也是那些其分配更受局部簇结构支持的实例。对于每个数据集，形成六个大小相等的子集，每个子集保留 70% 的点，m=?0.7n?，根据不同的标准：随机（均匀抽取 m 个点），共识（通过对所有运行对齐到参考中心点后标签一致性最高的 m 个点，即最具代表性的运行），S?（根据轮廓组件排序的 m 个点；公式（3）），C（根据稳定性组件排序的 m 个点；公式（7）），CAKE(PR）（根据乘积排序的 m 个点；公式（8a）），以及 CAKE(HM）（根据调和平均值排序的 m 个点；公式（8b））。虽然这个特定的阈值不一定是最优的，但它提供了合理的覆盖率-置信度权衡（见图 7；附录图 13）。在附录 D 中报告了一种自适应阈值方法，其中保留的比例是从数据中自动选择的。聚类性能在完整数据集及其过滤后的子集上使用新的 k-means 运行进行比较（与 CAKE 集合分开），使用真类数 k。性能通过调整后的 Rand 指数（ARI）、调整后的互信息（AMI）和聚类准确性（ACC）进行衡量，在匈牙利对齐到真实标签后。为了评估变异性，使用多次独立运行重复评估，并报告具有（Student’s t）95% 置信区间的平均值（表 2；见附录 B 表 11、表 12 对 MiniBatchKMeans 和 GMM 的评估）。另外，附录 B（表 7）报告了轮廓、标准化互信息（NMI）以及 CAKE 分数百分位数和聚类准确性之间的相关性的结果。收敛性。研究了 CAKE 分数随着集合大小 R 的增加而稳定化的情况。对于每个 R∈{5,…,70}，抽取 B=10 个大小为 R 的子集合，使用基于质心的轮廓代理（第 3.2 节）重新计算 CAKE 分数，并报告了 B 个估计值的每个点的标准差（图 6）。较低的变异性表明随着聚类集合的增长，CAKE 分数正在稳定（收敛）。覆盖率-准确性评估。CAKE 作为一种点级可靠性评分，用于集成聚类的评估，通过测量聚类准确性作为保留覆盖率的函数来评估。对于每个数据集，从 R=20 个 k-均值分割的集成中计算每个实例的 CAKE(PR) 和 CAKE(HM) 分数。在完整的数据集上拟合一个参考 k-均值解决方案，并在标签对齐后将其准确性与真实值进行比较。对于覆盖水平 c∈[0.1,1.0] 的网格，实例按 CAKE 进行排名，并测量前 c% 的实例的参考准确性。绘制准确性作为覆盖率的函数，可以得到覆盖率-准确性曲线，这显示了每种 CAKE 变体如何将实例从简单到困难排序，并允许直接比较 CAKE(PR) 和 CAKE(HM)（图 7）。更陡峭的曲线（在较低覆盖率下具有更高的准确性）表明 CAKE 将正确分配的点集中在较高分数中（另见附录 B 图 13 中的基于百分位的聚类准确性视图）。垂直虚线标记了真实的k值。
下载：下载高分辨率图像（316KB）
下载：下载全尺寸图像
图12. 在合成数据上使用CAKE(HM)（方程（8b）的运行时间（秒）与...的对比。左图（a）：运行时间作为集成大小R的函数（n=10,000, d=20, k=10；确切的运行时间在表5中报告）。右图（b）：运行时间作为样本数量n的函数（d=20, k=10, R=20；确切的运行时间在表6中报告）。实验在具有约51 GB RAM的云托管笔记本上运行。

表5. 运行时间（秒）与集成大小R的对比（图12(a)）；精确和基于质心的Silhouette代理CAKE分数之间的皮尔逊相关性和平均绝对误差。

| 集成构建时间（秒） | CAKE精确时间（秒） | CAKE近似时间（秒） | 皮尔逊相关系数 | 平均绝对误差 |
|----------------|--------------|--------------|------------|-------------|
| 100 | 0.06 | 0.16 | 0.972 | 0.06 |
| 200 | 0.067 | 0.972 | 0.160 | 0.069 |
| 300 | 0.069 | 0.56 | 0.975 | 0.062 |
| 400 | 0.062 | 0.253 | 2.13 | 0.955 |
| 500 | 0.066 | 0.374 | 8.71 | 0.944 |
| 600 | 0.061 | 0.496 | 7.32 | 0.936 |
| 700 | 0.063 | 0.638 | 6.69 | 12.91 |
| 800 | 0.063 | 10.91 | 0.914 | 0.063 |

表6. 运行时间（秒）与样本数量n的对比（图12(b)；精确和基于质心的Silhouette代理CAKE分数之间的皮尔逊相关性和平均绝对误差。

| 集成构建时间（秒） | CAKE精确时间（秒） | CAKE近似时间（秒） | 皮尔逊相关系数 | 平均绝对误差 |
|----------------|--------------|--------------|------------|-------------|
| 100 | 0.02 | 0.53 | 0.06 | 0.977 |
| 200 | 0.05 | 0.051 | 0.989 | 0.068 |
| 400 | 0.065 | 0.14 | 0.974 | 0.077 |
| 100 | 0.07 | 0.17 | 0.972 | 0.069 |
| 150 | 0.08 | 0.18 | 0.22 | 0.994 |
| 200 | 0.06 | 0.638 | 0.869 | 12.91 |
| 300 | 0.06 | 0.638 | 10.91 | 0.914 |
| 400 | 0.06 | 0.638 | 10.91 | 0.063 |

实证结果表明，在合成和真实世界数据集中，基于CAKE保留的子集进行聚类能够显著提高ARI、AMI和ACC（与使用所有点相比；表2；附录D中的自适应阈值方法在表13中报告），同时在Silhouette和NMI上也获得了类似的提升（附录表7）。这些改进通常伴随着更小的置信区间，表明运行间的变异性降低。尽管最强的过滤标准可能依赖于数据集，特别是当几何形状（方程（3））或稳定性（方程（7）起主导作用时，但CAKE（方程（8）作为一个基于置信度的排名标准提供了最佳的总体权衡：在大多数数据集-指标组合中表现最佳或接近最佳，并且即使在给定数据集上基线标准是最优的，CAKE仍然保持领先（表2、表7）。

当其中一个信号具有高度信息性时，组件基线（S?,C）也可以具有竞争力。例如，在局部分离是聚类分配主要决定因素的数据集中，仅几何组件就非常强大（例如在S3和Sa中，S?分别达到了0.795和0.710的ARI），而在跨运行一致性最为重要的情况下，以一致性为中心的信号可能更有效（例如在Bc中，Consensus/C在ARI/AMI方面表现最佳）。然而，这些信号也可能以互补的方式失败：一个点在每次运行中可能在几何上位置恰当，但在不同运行中切换聚类，或者被一致分配但在几何上支持较弱（图1）。CAKE通过要求在学习到的聚类结构下既有稳定的分配又有统一的几何支持来减少这些失败模式，从而产生比单个组件更稳健的置信信号。CAKE在几个合成数据集（S4–S6）上的表现优于这两个组件，并且在大多数真实数据集的ARI/AMI/ACC指标上也是最佳选择（例如，在Dg、Fm、Pd和Lt上的CAKE(HM）；在Ng上的CAKE(PR））。总体而言，这些趋势进一步支持了将稳定性和几何形状结合起来能产生比单独使用任一组件更可靠的置信排名的中心观点。

CAKE产生了一个有信息量的逐点排名。覆盖度-准确率曲线显示，当点按CAKE分数排名时，聚类准确率随着保留覆盖度的增加而提高（图7），表明CAKE将正确聚类的实例集中在得分最高的那些点中。这种行为在百分位/十等分分析中也很明显：在合成和真实数据集上，准确率几乎随CAKE分数百分位数单调上升（附录图13）。总体而言，CAKE从模糊/边缘点排序到稳定核心成员提供了一个可靠的排序。

CAKE能够进行逐点正确性预测和有效的错误发现。在预测共识分配是否正确（经过匈牙利匹配与真实值对齐之后），CAKE在AUPRC和AUROC方面表现出很强的区分能力，通常优于基于熵的一致性和基于自举的稳定性基线（表3）。当比较扩展到基于软性和密度的置信信号时，也出现了类似的情况（表4）。CAKE(HM)在7个合成数据集中的4个和8个真实数据集中的5个上仍然是最强的方法之一。Fuzzy C-Means分数FCM(1)和FCM(2)也具有竞争力，表明当模糊性被单一的模糊划分很好地捕捉时，软性成员资格已经能够提供有信息量的逐点置信度。基于密度的基线总体上较弱。特别是，基于集合的簇局部得分LOF(2)始终比全局得分LOF(1)更强，表明（集合平均的）簇感知局部密度比数据集级别的异常值更具有信息量，但两者在总体排名质量上仍然低于CAKE(HM)。在附录E中报告的基于GMM的额外比较中也观察到了类似的趋势，其中CAKE(HM)在考虑的大多数数据集上都优于基于GMM的置信信号（附录表14）。CAKE还产生了比基于集合的基线更单调的可靠性排序：得分百分位数与箱内聚类准确率有很强的相关性（图8）。在错误发现实验中，按CAKE排名比GMM后验置信pmax更有效地集中了错误聚类的点，而这两种信号的简单融合通常也具有竞争力（图9）。

随着集成大小的适当增加，CAKE的得分变得稳定。随着集成大小R的增加，每个点的得分变异性稳步降低，诱导的排名变得基本稳定，超过大约R≈30–40后收益递减（图6）。这表明相对较小的集成就足以获得可靠的置信排序。在聚类计数指定错误的情况下，CAKE的排名质量也与聚类质量紧密相关。在各种数据集中，调整后的Rand指数（ARI）通常在真实聚类数量k处（或非常接近k处）达到峰值，AURC也在相同的k处（或附近）最小化；同样，产生最准确聚类的k值也产生了最清晰的CAKE排名（图11）。

CAKE是模型不可知的。在 homogeneous k-means、GMM以及 heterogeneous k-means & GMM聚类集成（以及用于非凸几何形状的谱聚类集成；图4）中，CAKE的得分分布质量相似，并且保持信息性和良好的形状（图10），支持CAKE在纯粹的k-means集成之外的行为一致性。附录C中对集成多样性进行了更详细的分析，表明CAKE在广泛的homogeneous和heterogeneous集成构建中仍然具有信息性（附录图14），而额外多样性的影响取决于它是否提供了有用的互补变化，或者仅仅引入了不太稳定的聚类行为。正如预期的那样，对于任何基于集成的置信度分数，CAKE反映了基础聚类算法的归纳偏差，因为它旨在根据该程序衡量实例的可靠性，因此可以在不同的集成构建中进行比较。

CAKE在计算上是可行的。其运行时间遵循预期的扩展趋势（第3.4节）。它随着集成大小R的增加而大致线性增长，当使用基于质心的Silhouette代理时，与数据集大小大致线性相关（图12）。这种近似与精确计算非常匹配（高相关性和低MAE；表5，表6），同时大幅降低了成本，使得CAKE可以用于大型数据集。

6. 结论
CAKE通过融合跨运行的分配稳定性和局部几何匹配，提供了一个可解释的、无标签的逐点置信度分数。它可以从一个适度的标准聚类运行集合中简单计算出来，并为每个实例生成一个[0,1]范围内的标量。更广泛地说，CAKE表明，长期以来用于监督学习中不确定性估计的集成多样性可以转移到无监督聚类中：运行间的变异性提供了一个实用的逐点置信度信号。

有前景的方向包括校准置信度（例如，使用一个小标记集）、集成到半监督和自我监督流程中（例如，考虑不确定性的伪标记/每个样本加权）、通过分数分布指导k的选择，以及将CAKE扩展到k在运行中变化的多k聚类集成。通过明确实例级别的不确定性，CAKE为聚类分配提供了一个可解释的逐点置信度分数，使得聚类的排名、优先级以及下游在标记、异常检测和决策流程中的使用更加可靠。

**CRediT作者贡献声明**
Aggelos Semoglou：概念化、方法论、软件、形式分析、写作——原始草稿。
John Pavlopoulos：概念化、方法论、监督、写作——评审与编辑。

热点排行