《ACS Measurement Science Au》:Mathematical Framework for Quantifying Delocalization in MALDI-MSI via a Composite Scoring Approach
引言
质谱成像(Mass Spectrometry Imaging, MSI)是一种先进的分子成像技术,能够直接从生物样本中电离分子并捕获其在样本中的空间分布。与免疫组织化学和组织学等传统成像方法不同,MSI无需标记分析物即可实现样本内多种分子离子的非靶向检测。多种离子源已用于MSI,包括解吸电喷雾电离(Desorption Electrospray Ionization, DESI)、二次离子质谱(Secondary Ion Mass Spectrometry, SIMS)和基质辅助激光解吸/电离(Matrix-Assisted Laser Desorption/Ionization, MALDI)。
MALDI-MSI(Matrix-Assisted Laser Desorption/Ionization Mass Spectrometry Imaging)既可用于新鲜冷冻组织,也可用于福尔马林固定石蜡包埋(Formalin-Fixed Paraffin-Embedded, FFPE)组织,使其与临床和存档样本兼容。MALDI具有高空间分辨率(通常为5–200 μm)、造成最小组织损伤(软电离),并能检测广泛的生物分子,包括代谢物、脂质、肽以及高达50 kDa的蛋白质。这些特点使得MALDI特别适合广泛的生物学和生物医学应用。MALDI需要应用基质,该基质吸收激光的能量并促进分析物分子解吸和电离成稳定的气相离子。多种基质已被开发用于MALDI应用,主要分为三类:传统有机基质、液晶基质和无机基质。
随着基质的应用,分析物的离域(Delocalization)可能发生。离域仍然是MALDI-MSI中的主要挑战之一,显著影响灵敏度和空间分辨率。近年来,大量研究通过优化各种因素来缓解此问题,例如组织制备、储存条件、处理方案和基质应用技术。尽管做出了这些努力,但定量评估分析物离域的技术仍然很少。具体而言,尚不清楚哪些可测量参数可用于比较两种分析物之间的离域程度。需要一个标准化的标准来确定一种分析物何时比另一种分析物更离域。
本研究开发了一种基于Python的技术,用于评估整个获取的质荷比(m/z,即分析物)范围内的离域情况。我们使用先前成像的小鼠大脑数据来评估各种变量作为分析物离域的潜在指标,并识别出那些最有效区分不同离域程度的变量。然后将这些关键变量纳入定量公式中以更精确地描述离域。此外,我们使用该公式研究给定的分析物值是否在单个组内的样本之间以及跨不同实验组表现出一致的离域评分。该技术可用于评估任何MSI研究的离域情况,只要数据以imzML格式可用。
离域评估方法
组织样本
本研究使用了3xTg-AD小鼠(MMRRC Strain #034830-JAX)(n = 12)和来自Jackson Laboratory的年龄匹配对照组(n = 12)。对于每种小鼠品系,小鼠在8周龄(n = 6/品系)或54周龄(n = 6/品系)时被处死。所有动物均通过清醒断头术处死,大脑在死后2分钟内于液氮中快速冷冻。然后,样本用铝箔包裹,放入Falcon管中,在干冰上运输,并储存在-80°C冰箱中。所有程序均按照田纳西大学机构动物护理和使用委员会(Institutional Animal Care and Use Committee, IACUC)的指南进行。大脑被对半切开,并使用Leica冷冻切片机以10 μm的厚度进行冠状切片。每个脑切片的位置使用标准小鼠脑图谱确定,组织样本在距离前囟大约-2.24 ± 0.21 mm的位置收集,并放置在玻璃显微镜载玻片(Fisher Scientific)上。每张载玻片包含同一实验组内六只动物的脑切片。切片后,将载玻片放入塑料载玻片罐中,并转移到-80°C冰箱储存。罐盖被紧密密封以防止湿气进入。样本在所有阶段均在干冰上转移。
基质应用/喷雾参数
在基质应用之前,将载玻片从载玻片支架中取出,立即放入干燥器中,并在室温下解冻约30分钟。-80°C冰箱和干燥器之间的距离小于10米。2,5-二羟基苯甲酸(2,5-Dihydroxybenzoic acid, DHB)是MALDI质谱中广泛使用的基质,特别适用于生物样品中的脂质和肽分析。使用HTX M3+喷雾器以100 mm/min的流速、1200 mm/min的速度、3 mm的轨道间距和10 s的干燥时间,将DHB(40 mg/mL,溶于70%甲醇)均匀应用于组织切片。基质在75°C和10 psi氮气压力下以交叉图案喷雾10次,以确保覆盖均匀和晶体形成最佳。
MALDI-MSI设置
基质应用后,首先使用Epson扫描仪扫描组织载玻片,随后使用Waters Synapt G2-Si质谱仪进行分析,参数见表1。
表1. MALDI-MSI采集参数
质量范围 (m/z) | 陷阱碰撞能量 | 传输碰撞能量 | 极性 | 扫描时间 (s) | 激光重复频率 (Hz) | 激光能量 (au) | 激光脉冲能量平均值 (μJ) | 像素大小 (μm) |
|---|
50–2000 | 4 | 2 | 正离子模式 | 0.3 | 1000 | 300 | 25 | 60 |
染色和成像
MALDI-MSI采集后,使用苏木精和伊红对组织切片进行染色,并在田纳西大学诺克斯维尔分校高级显微镜和成像核心(Advanced Microscopy and Imaging Core, AMIC)使用Leica M205 FCA显微镜以2倍分辨率成像。
原始数据分析和峰提取
所有原始数据均使用高清晰度成像(High Definition Imaging, HDI)软件(Waters Corp)转换为imzML格式。在Young AD组中,由于MSI过程数据采集阶段的技术困难,两个样本的数据丢失。随后的预处理和数据处理使用自定义开发的Python脚本进行。最初,解析imzML和ibd文件以提取完整的m/z值列表、它们相应的强度值和每个像素的空间坐标。提取后,每个m/z谱都使用相关元数据进行注释,包括样本标识符、批次号、年龄组和疾病状态。
全局峰检测和靶向强度提取
为了在保留最具信息性的光谱特征的同时降低MSI数据集的维度,实施了全局峰检测和像素级强度提取程序。
全局谱图构建
首先,通过对每个分析物值的所有空间像素的强度值求和来构建全局谱图。
令 X ∈ Rn×m表示MSI数据矩阵,其中 n 是空间像素的数量,m 是 m/z(分析物)容器的数量。全局谱图 Sglobal∈ Rm通过对所有像素的每个分析物的强度值求和计算:
Sglobal(j) = ∑i=1nX(i, j), for j=1,2,...,m
得到的单维谱图代表了整个样本的聚合信号强度剖面。该谱图突出了整个组织切片中最丰富的离子。求和沿空间轴进行,得到的单谱图长度等于分析物容器的数量。
峰检测
为了实现可靠的峰检测并最小化高频噪声,对全局谱图应用了一系列预处理步骤。测试了两种平滑滤波器:Savitzky-Golay滤波器和Gaussian滤波器,使用了表2中详述的各种参数组合。评估了不同窗口长度和多项式阶数的组合。对于Savitzky-Golay滤波器,评估了Gaussian滤波器的各种平滑sigma值。
表2. 用于峰检测的参数组合,包括滤波器类型、平滑参数和最小峰距离(Da)
滤波器类型 | 平滑参数 | 参数值 | 最小峰距离 (Da) |
|---|
高斯滤波器 | sigma (σ) | 0.2, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0 | 0.1, 0.05, 0.024, 0.02, 0.01 |
Savitzky-Golay滤波器 | 窗口长度 | 3, 5, 7, 9, 11, 13, 15, 17, 19, 21 | 0.1, 0.05, 0.024, 0.02, 0.01 |
| 多项式阶数 | 0, 1, 2, 3 | 0.1, 0.05, 0.024, 0.02, 0.01 |
使用SciPy库中的峰检测函数进行峰检测,该函数通过将每个值与其相邻点进行比较来识别一维数组中的局部最大值。然后,应用基于邻近度的过滤步骤以减少紧密间隔峰的冗余。具体来说,测试了相邻峰之间的不同最小距离阈值(表2)。如果在此阈值内检测到多个峰,则仅保留该组中最突出的峰。该方法确保了选择独特且非冗余的峰。
从每个参数组合中,选择前1000个最强烈的峰。将这些来自不同滤波器类型、平滑设置和峰分离距离的结果与HDI软件获得的结果进行比较,以验证准确性并优化方法选择。
在所有测试的组合中,使用窗口长度为9、多项式阶数为3的Savitzky-Golay滤波器配置,以及最小峰距离为±0.024 Da,显示出与HDI软件检测到的峰重叠最高。
目标峰周围的像素级强度求和
为了从单个像素提取峰特异性信号剖面,聚合了每个选定分析物峰周围的强度值。对于每个目标峰,定义了一个跨越±2个索引位置的窗口,并且仅包括目标±0.012 Da范围内的m/z值在求和中以保持质量精度。选择±2个索引位置有助于最小化由于低质量范围内重叠峰被包含在信号计算中而导致信号过度放大的风险。或者,±0.012 Da阈值确保高质量范围内的重叠峰不被包括在内。该策略允许整合附近的信号贡献,在抵抗轻微分析物峰偏移的同时增强鲁棒性。
得到的数据集包含一个矩阵,其中每一行对应一个空间像素,每一列代表一个选定分析物峰的求和强度。这种简化表示保留了空间特异性,同时显著降低了下游分析的计算复杂度。
交互式配准和区域注释
为了实现空间分辨MSI数据的精确解剖学解释,开发了一个交互式框架,用于将离子热图与相应的组织学图像叠加。该工作流程允许分子数据和形态数据之间的手动对齐,然后进行用户引导的区域注释以进行空间靶向分析。
离子热图生成
为每个分析物构建热图,以可视化特定离子在样本中的空间分布。该热图配备了自定义的连续颜色映射和用于零强度的灰色,以增强视觉对比度和组织化学梯度的感知。
手动图像对齐
组织学图像(苏木精-伊红染色载玻片)和离子图像通常在方向、比例和位置上不同。为了纠正这些差异,提供了一个交互式图形用户界面(Graphical User Interface, GUI),允许用户手动旋转、调整大小、移动和混合组织学图像与离子热图。
为用户提供了可调参数,包括旋转角度、沿两个轴的缩放、水平和垂直平移以及两个图像之间的混合比率。这些变换使用户能够将组织学图像中的结构特征与MSI数据中相应的分子特征对齐。GUI中的实时更新允许进行调整,直到实现最佳视觉配准。
手动区域注释
图像对齐后,使用基于多边形的注释工具来定义感兴趣区域(Regions of Interest, ROI)。用户在图像上选择点以形成围绕特定解剖区域的闭合多边形。完成后,多边形被转换为二进制掩码,指示哪些像素落在注释区域内。
总离子流归一化
为了校正由技术因素(如基质异质性、样本厚度或仪器波动)引起的像素间总离子信号的变化,对原始质谱强度矩阵执行总离子流(Total Ion Current, TIC)归一化。
令原始强度矩阵表示为 I ∈ Rn×m,其中:
- •
n 是像素(观测值)的数量,
- •
m 是检测到的分析物容器(变量)的数量,
- •
Iij是第 i 个像素处第 j 个分析物的原始强度。
每个像素的总离子流计算为行向和:
TICi= ∑j=1mIij, ? i ∈ {1,2,...,n}
为防止除以零,任何TICi的零值在归一化前被替换为1。
然后,通过将其总离子流的倒数缩放每一行来获得归一化强度矩阵 I′ ∈ Rn×m:
I′ij= Iij/ TICi, ? i ∈ {1,2,...,n}, j ∈ {1,2,...,m}
该操作确保:
∑j=1mI′ij= 1, for all i
因此,归一化矩阵的每一行代表一个相对分布的离子丰度,该丰度对总信号强度不变,从而能够直接比较组织像素间的光谱模式。
组织特异性分析物特征过滤
为了提高信号相关性、减少背景噪声并省略大部分与基质相关的分析物,应用了一个过滤步骤,仅保留那些在注释组织区域内比周围非组织区域表现出更强信号强度的分析物特征。
令强度矩阵表示为 I ∈ Rn×m,其中 n 是空间像素的数量,m 是分析物特征的数量,Iij是第 i 个像素处第 j 个分析物的原始强度。
使用二进制组织掩码向量 t ∈ {1,0}n来区分组织和背景像素:ti= 1 表示组织像素,ti= 0 表示非组织(背景)像素。
令 T = {i | ti= 1} 和 B = {i | ti= 0} 分别表示组织和背景像素的索引集。
对于每个分析物特征 j ∈ {1, ···, m},计算组织和非组织区域的平均强度为:
μjtissue= (1/|T|) ∑i∈TIij, μjnon= (1/|B|) ∑i∈BIij
应用倍数变化阈值 γ > 1 来评估组织富集:
fold changej= μjtissue/ μjnon
仅保留满足 fold changej≥ γ 的特征。在本研究中,测试了不同的阈值,并选择了 γ = 3 的阈值,因为它能够保留大多数组织特异性分析物并省略与基质相关的分析物峰。由于平均强度由组织和非组织区域定义,具有与基质峰重叠的质量电荷比(m/z)的感兴趣的同量异位分子很可能被排除。
该过滤程序直接应用于原始强度矩阵 I,而未在倍数变化计算之前执行TIC归一化。得到的矩阵仅包含那些具有显著组织特异性丰度的分析物特征,提高了信噪比并增强了空间代谢特征的可解释性。
为了增加分析物的可分离性并关注有意义的背景信号,将非组织区域(离组织像素富集)中的有效像素定义为强度值超过相应分析物特征最大强度10%的像素。低于此阈值的像素被视为背景噪声并设置为零。背景(非组织)区域中的术语“像素”特指有效像素。
离域评估指标
在初始预处理和过滤之后,独立评估了几个假设影响离域的空间和强度变量。这些变量包括:
- 1.
全局质心和组织特异性质心之间的欧几里得距离
- 2.
位于背景(非组织)区域的非零强度像素到最近组织边界的平均距离和最大距离
- 3.
位于背景(非组织)区域的非零强度像素的面积
对于每个分析物特征,通过整合这些指标计算离域评分,随后根据其评分对特征进行排序。进行视觉检查以验证排序和空间分布模式。
1. 全局和组织质心
为了量化由于离域引起的分子分布偏移,计算了仅组织像素和所有像素(组织+背景)的强度加权质心(Center of Mass, COM)。
令:
- •
X = {(xi, yi)}i=1N? R2:所有像素的空间坐标
- •
I = {Ii}i=1N:给定分析物特征的相应强度值
- •
T ? {1, ..., N}:组织像素的索引集
- •
B = {1, ..., N} \ T:背景像素的索引集
强度加权的全局质心定义为:
cglobal= [xcom, ycom]T= (∑i=1NIixi) / (∑i=1NIi)
类似地,仅组织质心计算为:
ctissue= (∑i∈TIixi) / (∑i∈TIi)
如果 ∑Ii= 0,则 c = NaN。
然后,使用以下公式计算两个质心之间的欧几里得距离:
dCOM= ‖cglobal- ctissue‖2= √[(xcom- xcomT)2+ (ycom- ycomT)2]
该距离 dCOM作为分析物特征的离域评分。所有分析物值根据其相应的评分进行排序以评估其定位准确性。
两个质心间欧几里得距离的评估
基于计算出的评分,m/z 180.07(排名第13)比 m/z 365.32(排名第7)表现出更多的离域,m/z 703.57(排名第35)比 m/z 240.10(排名第118)显示出更多的离域。类似地,m/z 348.07(排名第15)被认为比 m/z 283.09(排名第25)更离域。然而,视觉检查与这些结果相矛盾。这些结果表明 dCOM不是评估离域的有效指标,因为它主要捕捉分布的偏斜或位移,而不是真正的空间扩散程度。
2. 非零背景像素到组织像素的距离
为了研究从组织边界到非零强度背景像素的最大距离或平均距离是否可以作为离域的决定因素,实施了以下数学框架。
令:
- •
B+= {j ∈ B | Ij> 0}:具有非零强度的背景像素
- •
xj∈ R2:背景像素 j 的空间坐标
- •
xk∈ R2:组织像素 k 的空间坐标
然后,对于每个 j ∈ B+,到最近组织像素