《ANALYTICAL AND BIOANALYTICAL CHEMISTRY》:Automated separation of overlapping fingermarks by non-negative matrix factorization of DESI mass spectrometry imaging data
编辑推荐:
潜指纹是法医调查中最具价值的物证形式之一。当多个个体的指纹在犯罪现场重叠时,传统的光学检查方法难以分离叠加的脊纹图案,其证据价值会受到严重损害。本研究提出了一种计算方法,利用非负矩阵分解(NMF)通过其质谱成像(MSI)所确定的独特化学特征来分离重叠指纹。解吸
潜指纹是法医调查中最具价值的物证形式之一。当多个个体的指纹在犯罪现场重叠时,传统的光学检查方法难以分离叠加的脊纹图案,其证据价值会受到严重损害。本研究提出了一种计算方法,利用非负矩阵分解(NMF)通过其质谱成像(MSI)所确定的独特化学特征来分离重叠指纹。解吸电喷雾电离质谱成像(DESI-MSI)因其能够同时获取空间脊纹细节和分子组成而特别适用于法医应用。其原理是带电溶剂液滴喷洒到样品表面,解吸出分子物种,随后根据其质荷比(m/z)进行分析。每个DESI-MSI数据集像素包含一个完整的质谱,形成了一个丰富的、高维的数据集,其中空间位置与MS信号本质关联。分离重叠指纹的基本原理在于,每个人的指纹残留物都具有独特的化学谱,这包括通过汗腺分泌的内源性化合物以及通过环境接触获得的外源性化合物。个体间在腺体活性、皮肤化学、饮食和生活方式上的差异,创造了即使在脊纹图案重叠时也能持续存在的独特分子指纹。此前的研究已证明,MSI可以利用这些化学差异来可视化重叠沉积物中的个体指纹。对于包含数十万像素且每个像素在数千个m/z值上具有强度测量值的DESI-MSI数据集,提取有意义的模式需要复杂的计算方法。主成分分析(PCA)已被广泛应用于MSI数据,但其正交性约束和允许负值限制了其对非负强度测量数据的可解释性。因此,需要一种无监督的方法,该方法尊重质谱数据的非负性,并能产生可解释的、空间相干的组分及相关的分子特征。NMF提供了一种原则性的解决方案。它将数据矩阵分解为两个非负因子矩阵:一个描述分子特征,另一个描述空间权重。其非负性约束与分子丰度不可能为负的物理现实相一致,产生的组分代表分子源的加性混合物,而非偏离均值。对于重叠指纹,这意味着NMF能够识别每个贡献者的独特化学特征,并将重叠区域表示为这些特征的加权和,直接反映了共同沉积的物理过程。NMF的几个特点使其特别适用于法医指纹分析:基于部分的分解天然处理空间局部化的重叠模式;每个m/z值的非负载荷直接可解释;NMF优雅地处理稀疏数据;加性模型对应于指纹残留物由多个腺体和环境源贡献混合的生物现实。尽管有这些理论优势,NMF在法医MSI应用中应用很少。在本研究中,我们将NMF应用于潜指纹的DESI-MSI数据,并将其性能与作为广泛使用基线的PCA进行了比较。评估内容包括空间相干性和边界定义、与每个组分相关的分子特征的可解释性,以及识别不同化学环境(包括独立的指纹贡献者)的能力。完全无监督的分析成功地识别了不同的指纹贡献者及其相关的分子特征,而无需关于贡献者数量或化学特征的先验知识。
本研究的核心背景在于法医学领域长期面临的一个关键挑战:当来自多个个体的潜指纹在犯罪现场相互重叠时,传统的光学检查方法无法有效分离这些叠加的脊纹图案,从而严重削弱了此类物证的证据价值。潜指纹不仅包含用于身份识别的脊纹细节,更蕴含了丰富的化学信息,能够揭示有关遗留者的生活方式、药物使用及环境暴露等细节。质谱成像(MSI)技术的出现,特别是解吸电喷雾电离质谱成像(DESI-MSI),因其能在单次测量中同时捕获空间脊纹细节与分子组成,已成为变革性的指纹分析工具。DESI-MSI数据集通常包含海量像素(10万至20万)和高维质谱特征(约5000个m/z通道),如何从中提取出代表不同贡献者的、空间相干的化学特征模式,是亟待解决的计算难题。主成分分析(PCA)等传统降维方法因其正交性约束和允许负值载荷,其结果在可解释性和物理意义上存在局限。为此,研究人员引入并系统评估了一种基于非负矩阵分解(NMF)的无监督计算方法,旨在利用指纹残留物中个体特有的化学特征差异,实现对重叠指纹的自动分离与识别。
研究人员开展了一项利用计算化学计量学方法分离重叠指纹的研究。他们收集了来自六名贡献者的五对自然重叠指纹样本,使用DESI-MSI技术获取数据,随后采用NMF算法对预处理后的高维数据进行分解。同时,他们以PCA作为基线方法进行对比,并通过多种定量和定性指标(如Moran’s I空间自相关统计量、组分相关性聚类分析等)评估了两种方法在空间相干性、组分可解释性以及识别贡献者特异性方面的能力。此外,为了验证方法的可扩展性,他们还构建了一个模拟的四贡献者重叠指纹数据集进行测试。研究得出的结论是:NMF是一种优于PCA的分析工具,能够完全无监督地、自动地从DESI-MSI数据中分离重叠指纹,准确识别出与每个贡献者相对应的独特化学特征,为法医工作者提供了一种可解释、高效的复杂指纹证据分析手段。该研究对于提升法医物证分析能力、解决多源指纹混合难题具有重要的实践意义,论文发表在《分析与生物分析化学》(ANALYTICAL AND BIOANALYTICAL CHEMISTRY)上。
为开展本研究,作者主要采用了以下关键技术方法:首先,使用解吸电喷雾电离质谱成像(DESI-MSI)技术在正离子模式下,对潜指纹样本进行数据采集,获得了包含空间坐标和质谱信号的高维数据集。其次,对原始数据进行预处理,包括使用特定软件进行质谱数据处理、将强度矩阵导出、并对强度值进行log1p对数变换以降低动态范围和稳定方差。第三,核心的分析方法是非负矩阵分解(NMF),研究中使用RcppML包实现了基于交替最小二乘法的快速算法,将数据矩阵分解为空间权重矩阵和分子特征矩阵。第四,采用主成分分析(PCA)作为对比基线方法,并分别进行了中心化和不中心化处理。第五,利用Moran’s I统计量定量评估各组分的空间自相关性(空间相干性),并采用Wilcoxon秩和检验进行组间差异的统计学检验。第六,通过计算NMF组分空间权重之间的Spearman秩相关系数,进行层次聚类分析,以识别潜在的贡献者特异性组分群。研究使用的样本队列来源于六名已知贡献者在不同日期(时间跨度约一年)制作的五对自然重叠指纹。
**研究结果**
**DESI-MSI数据概述**
对重叠指纹的DESI-MSI分析产生了包含大量像素和质谱通道的数据集。例如,在Slide 3样本中,总离子流图清晰地揭示了来自两位贡献者(D11和D12)的两个具有不同脊纹方向但空间重叠显著的指纹。对m/z值分布、非零平均信号以及高强度像素比例的分析显示,存在大量具有潜在意义的特征信号。个别m/z通道图像呈现出异质的空间分布模式:部分质量显示均匀强度,另一些则表现出指纹特异性的定位,这为后续的化学计量学分离奠定了基础。
**PCA与NMF分解结果的比较**
研究人员分别对预处理后的数据矩阵应用了PCA和NMF,各提取了30个组分。PCA组分按解释方差百分比自动排序,而NMF组分则按Moran’s I空间自相关统计量进行排序。对比结果显示,PCA组分天然呈现双向空间模式(正载荷与负载荷),并且由于正交性约束,单个组分常常混合了多个空间特征,难以与独立的化学源相关联。相比之下,NMF组分显示为严格非负的空间权重,并且具有更清晰的区域边界。关键的是,许多NMF组分表现出明确的定位:有些组分仅在左侧指纹(D12)区域强烈表达,而另一些则定位于右侧指纹(D11)区域。这种基于部分的分解产生了直接对应于空间相干分子源的组分,使得背景区域、脊纹结构以及贡献者特异性模式得以作为独立的组分显现。
**空间相干性:基于Moran’s I的定量比较**
为了定量比较NMF和PCA组分的空间相干性,研究人员计算了所有组分的Moran’s I统计量。该统计量用于衡量图像中相邻像素值是否比随机预期更相似,值越高表示空间聚集性越强。分析结果表明,NMF展现出显著高于中心化PCA和非中心化PCA的空间相干性。在所有五个独立采集的数据集中,NMF的Moran’s I值均更高。汇总所有结果来看,NMF的中位Moran’s I为0.734,而中心化PCA和非中心化PCA分别为0.479和0.498。Wilcoxon秩和检验证实了NMF与两种PCA变体之间的差异具有高度统计学显著性。值得注意的是,中心化与非中心化PCA产生的空间相干性分布几乎相同,这表明PCA组分的空间结构优势并非源于数据预处理的中心化选择,而是源于NMF本身的非负性约束和基于部分的分解特性。
**NMF组分聚类揭示贡献者特异性特征**
研究人员利用NMF组分空间权重向量间的Spearman秩相关系数进行层次聚类。结果(如图4所示的关联热图)显示,高相关的组分自然形成了两个主要簇。第一个簇(包含NMF组分4, 16, 10等)主要定位于右侧指纹(D11);第二个簇(包含NMF组分2, 12, 13等)主要定位于左侧指纹(D12)。这些簇内的组分彼此高度相关,而与另一个簇的组分相关性很弱或呈负相关。这种聚类完全是从无监督的NMF分解中涌现出来的,无需任何关于贡献者数量或化学特征的先验知识。
**贡献者特异性组分的提取与分子特征**
通过直接检查个体NMF组分,可以识别出贡献者特异性的空间模式及其相关的分子特征。例如,NMF组分12清晰地定位到左侧指纹(D12),其脊纹细节清晰,在D11区域信号极少;而NMF组分16则定位于右侧指纹(D11),具有不同的脊纹走向。这两个组分表现出互补的空间定位和基本不重叠的分子特征(由不同的高权重m/z特征定义),与来自不同贡献者的独特化学谱一致。对分子特征矩阵的分析表明,属于同一空间簇的组分倾向于共享某些分子特征,但同时又保持着独特的特征谱。大多数组分在200-600 m/z范围内显示出高系数特征的集中,这与指纹残留物中常见的脂肪酸、甘油脂等小分子特征相符。
**模拟的四指纹重叠数据集**
为了验证NMF是否能够分离两个以上的重叠指纹,研究人员构建了一个模拟的四贡献者数据集。对该合并数据集进行NMF分解(K=40)产生了空间相干的结果,其Moran’s I值分布与单个双贡献者数据集相似。排名靠前的NMF组分清晰地解析了来自四个不同贡献者(D5, D6, D11, D12)的空间上不同的指纹区域,每个组分定位于特定贡献者的指纹。这表明NMF方法具有扩展到分离多个重叠指纹的潜力。
**讨论部分总结**
本研究的主要发现是NMF能够以完全无监督的方式成功分离DESI-MSI数据中的重叠指纹。组分向贡献者特异性簇的聚类是分解过程自然涌现的结果。这种能力对于法医调查具有重要实践意义,因为通常情况下,接触表面的个体数量和身份是未知的。与PCA的比较揭示了NMF在法医指纹应用中的明确优势:NMF组分展现出显著更高的空间相干性,且能清晰地定位到单个贡献者,而PCA组分则经常混合两个指纹的信号。这种差异源于两种方法根本的数学特性:PCA的正交性约束迫使每个组分捕获与先前组分不相关的方差,这与重叠指纹沉积物中多个化学源向每个像素加性贡献的物理现实不符。NMF的非负性约束带来了可解释性的额外优势,其分子特征代表了与该空间模式正相关的化合物,便于识别贡献者特异性的标志物。方法学上,组分数量K的选择、对数变换预处理以及不使用L1正则化等决策均影响了结果。在实际应用中,法医鉴定人员可以在DESI-MSI数据采集和预处理后,运行一次无监督的NMF分解(K=20-30),然后直接提取贡献者特异性组分及其候选m/z特征用于后续的串联质谱鉴定。整个流程可在标准工作站上于一小时内完成。尽管本研究主要考察了双贡献者情况,但NMF的加性模型天然适用于更多贡献者的场景。该研究也指出了当前方法的局限性和未来方向,包括对真实案件中部分、降解、污染样本的验证,整合沉积时序信息,以及探索空间感知NMF或深度学习方法等。
**研究结论**
本研究证明了非负矩阵分解(NMF)能够以完全无监督的方式成功分离解吸电喷雾电离质谱成像(DESI-MSI)数据中的重叠指纹。该方法正确识别了与每个贡献者相关的独特化学特征,各个NMF组分清晰地定位于单个贡献者,且来自相对指纹区域的信号极少。与PCA相比,NMF在法医指纹分析中具有三个关键优势:首先,非负性约束产生的组分可直接解释为加性化学源,与指纹沉积的物理现实相符;其次,基于部分的分解天然分离贡献者特异性模式,而非将其混合在单个组分内;第三,每个组分相关的分子特征可被检查以寻找法医感兴趣的化合物,可能揭示贡献者特征或活动信息。因此,研究人员推荐NMF作为需要分离重叠沉积物时DESI-MSI指纹数据的主要分析方法。这项工作代表了使用控制样本的初步验证,其在五个独立采集数据集中获得的一致结果表明,该方法很可能适用于多样化的法医场景,并易于应用于案件工作。结果确立了基于NMF的化学特征分解作为解决法医科学中重叠指纹这一长期挑战的一种有前景的方法。