《ACS Nano》:Deep Learning-Based Event Classification of Mass Photometry Data for Optimal Mass Measurement at the Single-Molecule Level
编辑推荐:
本综述创新性地将三维卷积残差网络(3D ResNet)应用于质谱成像(MP)数据,通过监督学习对单分子结合事件进行精准分类。研究解决了因分子运动导致的质谱分辨率下降难题,在多种实验条件下将分辨能力提升高达2倍,为研究蛋白质寡聚化、相互作用及复合物组装提供了更可靠的分析工具。
质谱成像技术面临的挑战与优化需求
质谱成像(MP)作为一种能够在溶液中进行无标记单分子研究的强大技术,通过检测玻璃-水界面处生物分子结合/解离过程中产生的反射率变化来实现分子质量的精确测量。然而,单分子测量点的粒子运动往往会损害质谱分辨率、灵敏度和浓度测量等关键指标。具体表现为:不可逆结合事件产生阶跃信号(图1C),而瞬态解离(图1F)或邻近分子干扰(图1E)则会导致信号定量不准确,进而使累积质谱直方图产生伪影(图1G)。为了量化质谱成像的分辨率,研究采用与质谱法类似的“分辨能力”(m/Δm)定义,其中Δm对于孤立峰取半高全宽(FWHM),对于重叠峰则采用谷值定义。
亚优化结合事件的影响量化与分析框架
研究将质谱成像中的着陆事件广泛分为五类:“结合者”(binder,最优)以及四种亚优化类型——“解离者”(unbinder)、“邻近者”(neighbor)、“滚动者”(roller)和“摆动者”(wobbler)(图2A)。通过模拟180 kDa蛋白质在不同条件下的着陆事件(表1),研究发现85%的最优结合事件相对质量误差低于5%,而亚优化事件中仅有约30%能达到此精度。这种不准确性会扭曲质谱直方图,导致峰展宽和基线噪声增加(图2B)。虽然分析拟合残差可以区分空间上不同的事件(如邻近或滚动事件),但无法区分瞬态行为(如快速解离或摆动),这需要时空信息。研究建立了准确的MP数据模拟框架,将实验确定的点扩散函数(PSF)叠加在从无分析物的MP影片中提取的实验背景噪声上(图2C),生成的模拟影片产生的质谱直方图与实验数据几乎无法区分(图2D, E),该框架也成为监督学习训练数据集的基础。
深度学习框架的构建与性能评估
研究生成了包含25,000个模拟着陆事件的数据集,事件类别均匀分布,质量范围覆盖30-800 kDa,并侧重于信噪比(SNR)较低、质量测量更具挑战性的30-100 kDa范围(图3A, B)。研究采用了基于ResNet架构的50层三维卷积残差网络(3D-ResNet)(图3C, D)对不同类型的着陆事件进行分类。该模型以(40帧 × 17像素 × 17像素)的缩略图作为输入,捕获每个着陆事件的局部时空信息,并分配类别分数以确定事件类型。模型训练后验证准确率达到94.5%。混淆矩阵显示结合事件和摆动事件最常被误分类(图3F),t-SNE可视化也显示这两类事件存在重叠(图3G),反映了区分微小扰动事件的模糊性。通过受试者工作特征(ROC)曲线分析评估了模型在不同质量区间的分类性能(图3H,表2),结果显示模型在宽质量范围内保持了较高的分类准确性,但在接近检测限(30-55 kDa)时,由于低SNR而变得更具挑战性。
事件分类在质谱成像中的应用与效果验证
研究在多种具有不同蛋白质质量分布和玻璃结合亲和力的实验数据上评估了模型性能(图4)。通过设定结合分数阈值,仅保留强烈粘附在玻璃上的最优结合事件,以增强MP性能。
- •
牛血清白蛋白(BSA):模型准确分类了混合BSA数据集中的事件(图4A)。亚优化事件是导致BSA峰间出现计数(由于错误的质量定量)的主要原因,这些伪影通常反映在质谱直方图的负质量侧。选择性去除这些不良事件有效消除了亚优化着陆引入的伪影,而不同寡聚状态之间的比例基本不受影响。
- •
Dynamin-ΔPRD:该蛋白对玻璃具有高结合亲和力,主要表现为最优结合事件(图4B)。事件过滤前后质量分布变化不大,代表了预期的优化性能水平,其二聚体峰(180 kDa)和四聚体峰(360 kDa)的分辨能力分别约为10和17。
- •
热休克蛋白27(HSP27):这是最具挑战性的测试案例,因其质量分布宽且表面亲和力差(图4C)。事件分类和过滤显示,包含亚优化事件不仅抬高了质量分布的基线,还人为增加了低质量端的计数。去除这些事件后,获得了接近基线分辨的分布,并通过天然质谱法验证。量化显示,过滤后所有寡聚峰均达到30%谷值标准的分辨,6-10聚体峰甚至满足更严格的10%条件,分辨率得到实质性改善(表3)。
- •
抗PSMC6抗体:该样本表现出较差的表面亲和力,过滤过程去除了许多由玻璃显著解离引起的事件(图4D)。过滤将150 kDa峰的分辨能力从3.9 ± 0.5显著提高到7.6 ± 0.3,接近最优测量水平。增强的分辨率揭示了抗体样本中低丰度降解产物,并通过SDS-PAGE分析验证。
研究还评估了事件密度和积分时间对模型性能的影响(图5)。随着分析物浓度增加导致事件密度升高,被丢弃事件的比例也随之增加,模型方法对质谱分辨率的改善程度也随之增加。例如,在34.6 μm–2s–1的事件密度下,分辨能力从5.3 ± 0.3提高到10.0 ± 1。增加积分时间也会提高部分重叠事件的概率,并使单事件测量更容易受到瞬态效应(如快速解离)的影响。在蛋白A(42 kDa)的低SNR测量中评估了模型在定量检测限附近的性能(图6)。应用高分类阈值后,获得了更对称的、以预期质量(42 kDa)为中心的峰,并有效去除了错误检测。虽然这不代表低质量检测的实质性改进,但为模型在检测限附近的性能提供了有用的基准。
结论与展望
本研究将3D ResNet50模型优化并应用于质谱成像,基于时空特征对单分子着陆事件进行分类,能够从非标准测量中恢复接近最优的性能,将分辨能力提升高达2倍。该方法在非理想条件下提高了MP的鲁棒性,拓宽了其在实验挑战性样本中的应用范围。此外,该方法还提供了关于给定测量中事件类型分布的可解释反馈,使用户能够就浓度、结合条件或样品制备做出明智调整。这种基于机器视觉的过滤方法在MP单分子跟踪等领域也显示出巨大应用潜力。尽管MP检测和分辨率仍受到未表征的、类似散斑的动态背景的限制,但这项工作标志着将深度学习集成到定量质谱成像中的重要一步。该框架轻量、基于缩略图的架构训练快速,易于在不同仪器间进行迁移学习和适配。结合检测、粒子拟合、分析校正和下一代显微镜设计的进步,此类发展有望释放质谱成像作为溶液中先进生物分子定量的稳健、高精度工具的全部潜力。