
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一项关于结合多重插补技术的聚类集成算法在处理含有缺失数据的聚类问题上的比较模拟研究
《BMC Medical Research Methodology》:A comparative simulation study of cluster ensemble algorithms integrated with multiple imputation for clustering with missing data
【字体: 大 中 小 】 时间:2026年06月03日 来源:BMC Medical Research Methodology 3.4
编辑推荐:
摘要由于聚类分析方法通常不能直接应用于包含缺失值的数据,因此人们研究了多种方法来解决这一问题。多重插补是处理缺失数据的标准方法之一。在聚类分析中,人们提出了将聚类集成方法与多重插补相结合的方法,以替代Rubin规则。然而,目前尚未明确哪种聚类集成算法在与多重插补结合使用时能够获得
由于聚类分析方法通常不能直接应用于包含缺失值的数据,因此人们研究了多种方法来解决这一问题。多重插补是处理缺失数据的标准方法之一。在聚类分析中,人们提出了将聚类集成方法与多重插补相结合的方法,以替代Rubin规则。然而,目前尚未明确哪种聚类集成算法在与多重插补结合使用时能够获得更好的性能。因此,我们对几种算法进行了数值比较,以整合k-means++聚类对多重插补数据集的处理结果,并将这些组合方法应用于两个真实数据集。我们的结果表明,非负矩阵分解算法可能适用于类别平衡的情况,而贪心聚类和凝聚聚类算法可能更适合类别不平衡的情况。在实际数据集应用之前,我们仍然建议在反映数据集特征和缺失值机制假设的模拟环境中进行实验。
由于聚类分析方法通常不能直接应用于包含缺失值的数据,因此人们研究了多种方法来解决这一问题。多重插补是处理缺失数据的标准方法之一。在聚类分析中,人们提出了将聚类集成方法与多重插补相结合的方法,以替代Rubin规则。然而,目前尚未明确哪种聚类集成算法在与多重插补结合使用时能够获得更好的性能。因此,我们对几种算法进行了数值比较,以整合k-means++聚类对多重插补数据集的处理结果,并将这些组合方法应用于两个真实数据集。我们的结果表明,非负矩阵分解算法可能适用于类别平衡的情况,而贪心聚类和凝聚聚类算法可能更适合类别不平衡的情况。在实际数据集应用之前,我们仍然建议在反映数据集特征和缺失值机制假设的模拟环境中进行实验。