编辑推荐:
本文提出R包dpGMM,优化高斯混合模型(GMM)的EM算法,通过动态规划初始化和稳定性增强处理1D/2D分箱及连续数据,支持自动选择组件数,并对比其他工具,证明其在生物医学数据中的优越性。
乔安娜·齐拉(Joanna Zyla)| 卡米拉·苏马拉(Kamila Szumala)| 安杰伊·波兰斯基(Andrzej Polanski)| 乔安娜·波兰斯卡(Joanna Polanska)| 米哈尔·马尔奇克(Michal Marczyk)
波兰格利维采西里西亚工业大学数据科学与工程系
摘要
高斯混合模型(GMM)是一种强大的聚类和密度估计方法,在数据分析中有多种应用。我们介绍了一个R语言包dpGMM,它是一套完整的工具/程序,用于分析一维或二维数据(分箱或连续数据),包括通过递归期望最大化(EM)算法拟合GMM数据的最有效方法。dpGMM包的有效性在于利用了EM递归的优势:(i) 通过基于动态规划的数据划分方法精确选择初始混合参数;(ii) 在每一步M过程中增加额外的条件,以防止不稳定/发散并加快迭代收敛速度。dpGMM被实现为一个封装器,可以在高斯混合组件数量未知的情况下使用各种信息标准进行最佳分解搜索,也可以在组件数量固定的情况下使用。我们使用合成和真实的生物数据集将dpGMM与其他三个R语言包进行了比较,通过大规模计算评估了这些GMM实现的性能。
引言
高斯混合模型(GMM)是一种强大的聚类方法,因其有利的统计特性而受到重视,这些特性使得它可以实现软聚类并帮助确定分析数据集中的最佳簇数。GMM在许多研究领域有广泛应用,如语音识别[1]、视频分析[2]、超像素分割[3]、网络流量分析[4]等。随着高通量分子生物学的发展,GMM也对生物和医学数据分析产生了重要影响。以下是一些GMM在医学数据分析中的应用示例:在质谱(MS)中,GMM被用于分解虚拟MS数据,以估计代表蛋白质和肽的质量和丰度的信号峰的位置[5];这种方法进一步扩展到通过复杂的质量谱划分技术高效分析具有数百甚至数千个峰的真实数据[6];GMM还用于在MALDI-TOF MS数据中检测稳定同位素[7],并应用于其他高通量分子生物学数据的分解[8][9];在[10]中,作者使用GMM对微阵列测量的基因表达数据进行自适应过滤;而在[11]中,作者创建了GMMchi包用于相同类型数据的聚类。其他GMM的应用示例包括在测序数据分析中,例如在[12]中,作者使用GMM检测纳米孔测序中的核苷酸修饰数量;在[13]中,作者将GMM与深度自编码器结合在工具scGMAI中,并将其应用于scRNA测序数据的聚类;在[14]中,作者展示了GMM在流式细胞术数据中检测罕见细胞亚型的优势。最后,GMM也在生物医学图像分析中得到了广泛应用[15][16]。
以上所有示例表明,GMM在生物信息学中非常常用,不仅限于聚类,还用于密度估计。GMM实现广泛存在于R和Python编程语言中;然而,它们存在多种局限性,其应用通常仅限于一维或二维数据,且不支持分箱数据分析。此外,一些工具在期望最大化(EM)过程中使用随机参数初始化,这可能导致结果不稳定,或者没有提供最佳组件数量的搜索功能。为了填补这一空白,我们提出了一个高效且稳健的新GMM R语言包dpGMM。该包可以应用于一维和二维数据。dpGMM可以处理两种类型的变量/测量值:定义在连续轴上或分箱的,后者常见于光谱(例如质谱)或图像分析任务(例如医学图像)中。此外,我们的包被设计为一个封装器,可以针对给定数量的簇进行分解,或者使用各种标准(如AIC、AICc或BIC)搜索最佳解决方案。最后,我们回顾了现有的GMM R语言工具,并展示了我们方法的优势。
dpGMM 描述与实现
所提出的R语言包包含作者在使用各种生物数据进行GMM实验时开发的几种算法。dpGMM的实现和可用功能概述见图1。具体来说,该方法适用于一维或二维信号(分箱或连续数据),并使用EM算法来找到GMM的参数。高斯组分的混合可以定义为:
聚类评估
对于每种算法,我们使用已知预期K组分的合成数据(范围从2到8)和一个K=20的案例进行了评估。首先,我们分析了四种聚类指标(ARI、NMI、MMM和簇数偏差),并在图2中展示了每种测试的GMM实现的结果。此外,为了支持观察结果,还计算了dpGMM与其他实现之间的差异,并在补充图2中展示。
结论
在本文中,我们提出了一个新的R语言包dpGMM,并对R语言中的四种不同GMM实现进行了基准测试。我们证明,该包在使用具有不同特征的合成数据以及真实数据时的表现与其他测试解决方案相当或更好。它的Gaussian混合模型参数估计效果优于mixtools。然而,mixtools实现不支持搜索大量簇(K>17)。此外,从我们的
资助
本工作得到了西里西亚工业大学提供的研究和开发潜力维护与开发资助[KS, AP, JP]、西里西亚工业大学卓越计划——研究型大学项目下的校长资格认证资助(授权号02/070/SDU/10-07-01 [JZ],以及波兰国家科学中心(授权号2023/50/E/NZ2/00583 [MM])的资助。
CRediT 作者贡献声明
米哈尔·马尔奇克(Michal Marczyk):写作——审稿与编辑、原始草稿撰写、可视化、验证、监督、软件开发、资源管理、项目管理、方法论研究、资金获取、形式分析、概念化。乔安娜·波兰斯卡(Joanna Polanska):写作——审稿与编辑、监督、资金获取。安杰伊·波兰斯基(Andrzej Polanski):写作——审稿与编辑、原始草稿撰写、监督、方法论研究、资金获取、概念化。卡米拉·苏马拉(Kamila Szumala):可视化、软件开发。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
致谢
不适用
术语表
- AIC
赤池信息量准则
- AICc
校正后的赤池信息量准则
- ARI
调整后的Rand指数
- BIC
贝叶斯信息量准则
- CND
簇数偏差
- DP
动态规划
- EM
期望最大化
- GAM
脑胶质瘤相关的小胶质细胞和巨噬细胞
- GMM
高斯混合模型
- HE
染色组织学图像
- ICL-BIC
综合完成似然贝叶斯信息量准则
- LRT
似然比检验
- MAP
最大后验概率
- MMM
最大匹配度量
- MS
质谱
- NMI
标准化