基于动态炭疽毒素纳米孔的单肽高保真分类生物传感器

《PLOS Computational Biology》：A dynamical anthrax toxin nanopore biosensor for high-fidelity single-peptide classification

【字体：大中小】 时间：2026年02月20日 来源：PLOS Computational Biology 3.6

编辑推荐：

　　本文展示了一种革命性的纳米孔传感方法：利用炭疽毒素保护性抗原（PA）纳米孔的动态钳位活性位点，结合先进机器学习框架，首次实现从单个易位事件中对肽段进行高保真（~91%准确率）分类。该技术摆脱了传统依赖于数千事件统计平均的“集合指纹”策略，为在复杂异质混合物（如血液）中实现真正的单分子蛋白质组学分析奠定了关键基础。

炭疽毒素纳米孔：一个动态的生物传感平台

纳米孔传感技术有潜力彻底改变蛋白质组学，但现有方法大多依赖于集合平均，即需要统计聚合数千个事件来识别蛋白质或肽段特征。这种方法虽适用于纯样品，但在复杂的异质混合物中，需要实时确定单个分子身份时，便宣告失败。本研究提出了一种根本不同的策略：将炭疽毒素保护性抗原（PA）纳米孔改造为“动态”生物传感器。与静态孔不同，这种生物机器拥有活动的移动部件，能在分子通过时抓取并“审问”它们。我们证明，这些动态相互作用为每个单分子生成了复杂、独特的信号模式——本质上是动力学指纹。借助专门的机器学习框架，我们成功解码这些模式，仅从单个事件（而非平均值）就能以超过90%的准确率识别特定肽段，甚至能区分质量相同、仅原子排列（立体化学）不同的肽段。这项工作表明，通过使用能够移动和适应的传感器，可以实现高精度的单分子鉴定。这一能力是迈向未来诊断工具的关键一步，这些工具能够分析传统平均方法无法解析的复杂生物混合物（如血液）。

多样化的客体-主体肽易位事件

研究基于先前对炭疽毒素保护性抗原（PA）纳米孔易位特性广泛表征的基础，探究了这些肽在单通道易位事件中观察到的内在动态/动力学特性是否可作为信息丰富的分类特征。实验重点收集了七种客体-主体肽（序列为KKKKKXXSXX，其中X为Ala、Leu、Phe、Thr、Trp、Tyr以及立体化学异构体Trp^DL）在70 mV驱动电位下的单通道易位事件流。PA纳米孔具有更长的内腔和多个活性位点钳（如α钳、?钳和电荷钳），这些结构专为处理性易位大分子而进化。实验中观察到四个离散的电导状态（状态0-3），不同肽的易位事件动态（电流阻断模式和持续时间）范围广泛。例如，Trp和Trp^DL的事件持续时间明显更长，而Ala和Thr等小残基肽的动态则非常迅速，仅凭视觉难以可靠区分。这些定性观察表明，需要利用先进的ML/DL方法来对这些肽进行稳健分类。

工程化特征的区分潜力依赖于事件长度

为实现从单个易位事件中稳健分类肽段，研究采用了全面的特征工程方法。从标记的电流记录中，为每个易位事件计算了丰富的特征集。研究关键探讨了最小事件持续时间作为预处理过滤器的影响。极短事件主要代表非生产性的碰撞或瞬时“润湿/去润湿”转变，缺乏完整的动力学跃迁序列。而较长事件则捕获了肽与钳位点之间的动态相互作用，提供了分析物穿越能量景观的“多重读取”。均匀流形逼近与投影（UMAP）降维分析显示，当最小事件持续时间阈值从5毫秒增加到20毫秒时，特征集的区分能力显著增强，聚类指标（调整兰德指数ARI和标准化互信息NMI）明显提高。这表明，通过排除非常短的事件，工程化特征集获得了显著的区分能力，尽管代价是减少了分析事件的总数。

监督式深度学习分类模型的性能

用于从单个易位事件进行肽分类的深度学习核心设计采用了分支式双输入神经网络架构。在该配置中，易位事件的电导状态序列（S）或原始电流序列（C）输入到多层卷积神经网络（CNN）或时间卷积网络（TCN）分支，同时，相应的基于事件的特征（F）输入到另一个全连接（密集）网络。这三个并行分支的输出在进入最终分类层之前进行拼接。评估了三种不同配置：TCN-Dense (S + F)、CNN-Dense (S + F) 和 CNN-Dense (C + F)。初步扫描发现一个一致趋势：增加最小事件持续时间以排除较短、信息较少的事件，显著提高了所有DL模型的分类性能。在最小事件持续时间为20毫秒时，CNN-Dense (C + F) 模型表现最为稳健，准确率达到0.7857 (±0.0116)，这表明原始电流序列比更抽象的电导状态序列拥有更多的区分信息。详细的混淆矩阵进一步阐明了逐类预测质量，显示芳香族肽（Phe, Trp, Trp^DL, Tyr）即使考虑到其细微的化学差异，也能被高保真地预测。值得注意的是，模型能够区分仅主链立体化学不同的Trp和Trp^DL。相反，Ala和Thr之间观察到持续的错误分类，其快速易位事件表现出相似的动态，因此占据了重叠的特征空间。

机器学习和ML/DL混合分类器的性能

除了深度学习方法，研究还探讨了基于树的机器学习分类器的性能。具体而言，使用XGBoost梯度提升决策树模型，仅基于预提取的事件级特征集（称为XGBoost (F)）进行分类。与DL模型类似，随着较短、低信息量事件被逐渐从训练数据中移除，分类指标显著提高。在最小事件持续时间为20毫秒时，XGBoost (F) 模型实现了极高的性能，平均总体准确率达到0.9112 (±0.0069)。详细的归一化混淆矩阵说明了稳健的逐类预测质量。与其它模型的观察一致，Ala和Thr仍然是表现最弱的类别，显示出一定程度的混淆，但其F1分数仍显著超过0.8。XGBoost相比于DL方法的一个显著实际优势是其显著的训练和推理计算效率。研究还探索了一种混合ML/DL模型架构（XGBoost (S + F)），该模型利用CNN从状态序列生成嵌入，然后与事件级特征集合并，但该混合模型并未超越仅基于事件级特征集的XGBoost (F) 模型。这表明，对于该纳米孔/肽系统，当与已经全面的工程化事件级特征结合时，从状态序列衍生的CNN嵌入并未提供显著的额外区分信息。

动态钳位点提升了PA作为纳米孔生物传感器的性能

目前大多数纳米孔平台依赖于结构静态的孔。在这种限制下，孔充当被动隧道，传感依赖于测量分析物的排除体积，类似于使用固定尺寸的分子卡尺。相比之下，动态系统（如专用的蛋白质易位酶）尚未被开发用于纳米孔生物传感。这些蛋白质拥有活性位点钳和环（如?钳），会发生构象变化，提供了基于使用动态活性位点相互作用以及分析物大小的新传感机制。本文重点介绍的PA纳米孔是此类动态生物传感器的首个范例。单通道电生理学中明显的扩张和收缩钳状态具有不同的肽相互作用热力学和动力学。肽易位期间这些离散构象状态的占据使得在单个易位事件中可以对肽身份进行多次测量。ML/DL模型可以忠实地解释这些动态（尽管复杂）的信号。最后，专用的蛋白质易位酶拥有多个高亲和力钳（如?钳），允许在低纳摩尔浓度下进行生物传感，这是相对于其它静态纳米孔的显著灵敏度优势。

PA纳米孔的超高灵敏度和广泛的区分能力

模型一致地证明了区分仅主链立体化学不同的肽（例如Trp和Trp^DL）的能力，突显了PA纳米孔对细微构象和相互作用动力学的显著内在灵敏度。先前的生物物理表征表明，当仅操控立体化学时，PA纳米孔会改变肽和钳的动态以及螺旋-卷曲转变动力学。这种构象生物传感能力可能是该纳米孔系统独有的。此外，区分能力还延伸到肽之间的其它化学细微差异。Phe和Tyr仅差一个羟基，但能被很好地分类。静态纳米孔架构可能不擅长感知肽大小的微小变化。Phe和Leu尽管具有相似的疏水性，但也能被该孔和计算方法区分。总体而言，这些观察结果强调了纳米孔辨别精细化学、结构和构象细微差别的能力，超出了预期。

PA纳米孔的另一个显著优势是其高亲和力捕获机制。虽然静态纳米孔通常需要微摩尔分析物浓度以实现实用的事件频率，但PA的?钳会主动招募肽，使得在低纳摩尔（5-20 nM）浓度下也能进行稳健的数据采集。在此单分子状态下运行不仅有利于灵敏度，也有利于数据保真度。在此操作窗口内，分类依赖于单个易位事件的内在动力学指纹，独立于高浓度下的体效应。

解码动态孔的复杂信号

该平台的一个关键突破是能够从单个易位事件中对肽进行分类，而不是依赖于集合平均特征。然而，提供孔的超高灵敏度的相同动态相互作用也产生了复杂、多状态的信号，这些信号可能具有噪声且难以解释。因此，研究系统地比较了不同的计算策略，以找到解码这些信号的最稳健方法。

研究发现，虽然端到端的深度学习模型（例如CNN-Dense (C + F)）表现尚可（达到约79%的准确率），但基于特征的方法明显更优。研究工程化的事件级特征——从多状态电流轨迹中提取复杂的生物物理信息——被证明具有高度区分性。仅依赖于这些特征的XGBoost (F) 模型实现了最高的分类准确率（~91%），超过了所有其它架构。这一结果表明，对于该系统，工程化特征比DL模型从原始电流序列中提取更能直接、稳健地捕获区分信息。

另一个关键见解是事件持续时间的关键作用。研究发现，系统性地过滤掉短事件（例如< 20毫秒）显著提高了所有模型的分类性能，这一观察通过UMAP得到了视觉上的证实。这表明较长的易位事件携带更稳定和更具区分性的信息，很可能是因为它们代表了与孔的多个钳位点更完整的相互作用。

需要注意的是这种基于特征的方法的局限性：我们的特征集是针对四状态肽优化的。虽然这种传统的ML策略对于我们特性明确的系统是优越的，但对于更复杂、异质的数据——例如对在易位过程中表现出可变数量电导状态的肽进行分类——DL模型可能是必不可少的。然而，这种对独特、四状态动力学特征的严格要求起到了关键的转化功能。在复杂的临床基质（如血清或裂解物）中，非特异性背景相互作用通常表现为瞬时的、无特征的阻断，模仿生物噪声。通过针对高维动力学指纹进行优化，该算法有效地充当了特异性过滤器，将真正的肽分析物与这些缺乏明确多状态轨迹的非特异性背景事件区分开来。

虽然隐马尔可夫模型（HMM）是理想化、离散状态离子通道数据的标准，但它们假设信号在稳定的、无记忆的状态之间转换。然而，PA纳米孔信号在阻断状态内表现出快速、非马尔可夫的波动和“闪烁”动态，这些动态包含高频频谱信息。我们选择的DL（CNN/TCN）和ML（XGBoost）方法专门用于直接从电流和状态时间序列中捕获这些细粒度的“动力学指纹”，提取高维特征，而理想的HMM状态拟合可能会平滑或丢弃这些信息。

挑战与未来机遇

将该平台扩展到更广泛的蛋白质组需要应对除测试的阳离子肽之外的多样化物理化学性质。先前的研究已确定，两性离子序列在质子梯度下可以有效地穿线和易位。虽然密集的阴离子电荷片段会由于孔的阳离子选择性而减慢易位速度，但并不严格排除易位；正如最早模型所指出的，酸性操作pH（5.6）有助于酸性侧链的质子化，中和电荷-电荷排斥并允许运输。高度疏水的肽则是一个独特的挑战；除了固有的溶解度问题，它们很可能滞留在疏水的?钳中，抵抗再溶解，需要更高的驱动力或增溶引导序列才能穿过孔。

在所有测试模型中最难分类的一对肽是Ala和Thr。当前减少其错误分类和混淆的最佳策略是增加最小事件持续时间以过滤掉质量较低的短事件。此外，虽然本文报告了二元分类准确率用于严格的基准测试，但XGBoost算法本质上是概率性的。在未来临床部署中，将利用模型的输出概率来标记和丢弃低置信度事件，这将进一步提高系统的有效特异性，确保仅使用高确定性分配进行诊断。

这里使用的野生型PA纳米孔可能并不完全适合区分所有化学性质。因此，采用多重方法可能是有利的，即使用变体、正交的PA纳米孔。这种方法可能提供更好的区分能力来应对这些具有挑战性的肽。拥有替代的纳米孔可能提供正交的区分信息以增强推断。

虽然本研究侧重于“单次通过”分类，但单分子传感的随机性为通过共识测序实现更高准确率提供了一条途径。类似于商业纳米孔DNA测序中使用的指标，对同一分析物的多个独立事件进行统计汇总可以指数级地提高分类置信度。未来的实施还可以采用“来回穿梭”技术——机械地捕获单个肽并在孔中来回移动——以生成单个分子的多次读取，允许多数投票或贝叶斯更新，将准确率从约90%提高到近乎确定。

虽然本研究侧重于分类，但在此获得的见解为更雄心勃勃的目标（如直接肽测序）奠定了基础。神经网络对于这项任务可能是必不可少的。例如，序列到序列（电流到肽序列）架构可能是一个强大的探索方向。除了优化已知肽的分类，未来的工作还将探索我们方法对更广泛、化学多样的肽组、复杂混合物，甚至不同纳米孔架构的普适性。此外，集成更先进的特征提取技术，可能利用深度学习进行自动特征工程或多模态数据融合，可以进一步释放超越当前方法的卓越性能。最后，将这些进展转化为实际应用将需要解决复杂生物基质中固有的实际挑战，如样品制备、信噪比优化和高通量集成。最终，通过持续改进纳米孔生物传感器和解码其信号的计算智能，我们正朝着快速、单分子蛋白质组学分析成为常规和变革性现实的未来迈进。

热点排行

新闻专题