《Small Methods》:Machine Learning-Driven Nanopore Sensing for Quantitative, Label-Free miRNA Detection
编辑推荐:
本综述系统介绍了基于DNA条形码探针与机器学习(ML)分析的纳米孔传感平台,用于实现高特异性、高精度的无标记microRNA(miRNA)检测。研究比较了移动标准差(MSD)、谱熵(SE)和卷积神经网络(CNN)三种信号分类策略,发现CNN模型在准确度(accuracy = 0.99)、精确度(precision = 0.99)和召回率(recall = 0.99)上均表现卓越,显著优于传统阈值方法。该工作为开发能够实现单分子水平生物标志物检测的ML驱动纳米孔诊断工具奠定了坚实基础。
引言
纳米孔是一种能够实时检测和表征单个分子的单分子电传感器。由于其卓越的灵敏度,纳米孔技术已广泛应用于环境监测、催化研究、DNA/RNA测序以及生物标志物检测等领域。其工作原理是在纳米尺度孔道两侧施加电压,产生稳定的离子电流。当带电分析物穿过孔道时,会暂时干扰离子流,引起电流的特征性变化,这些变化编码了分析物的身份、结构和物理化学性质信息。然而,纳米孔实验产生的原始离子电流信号复杂,需要借助计算方法提取有意义的信息。对于生物标志物检测而言,模式识别至关重要,主要挑战在于特异性和信号解读。本研究旨在评估三种数据分析策略——移动标准差(MSD)、谱熵(SE)和卷积神经网络(CNN)——用于解读基于DNA条形码探针的纳米孔信号,以实现microRNA(miRNA)的定量检测。
结果与讨论
MSD分类
研究采用先前开发的DNA条形码探针检测hsa-miR-27b-5p,作为评估不同数据分析策略的概念验证。这些探针在纳米孔测量中产生两种信号类型:非延迟事件(表明无靶标miRNA)和延迟事件(表明存在靶标miRNA结合)。MSD方法通过计算离子电流时间序列的移动标准差,将信号划分为离散区间(bins),若电流在足够多的区间内低于预定阈值,则事件被分类为延迟。优化后的参数包括:阈值0.003、总区间数75、最小延迟长度>10个区间、延迟分数位置0.7。在包含2000个手动标注事件的独立数据集上测试,MSD分类器的准确度为0.72,精确度为0.94,但召回率仅为0.47,表明其具有高特异性但灵敏度有限,易产生假阴性。
SE分类
谱熵(SE)用于量化信号频率分布的无序度,从而区分非延迟和延迟事件。研究将控制组(0 nM miRNA)SE分布的第25百分位数(SE=0.495)设为分类阈值,低于此阈值的事件被归类为延迟。SE方法同样在延迟区域(分数位置>0.7)表现出区分能力。在相同测试集上,SE分类器的准确度为0.68,精确度为0.86,召回率为0.43。SE方法对光谱分辨率效应和信号长度敏感,且与MSD一样依赖手动设定阈值,限制了其可重复性并可能引入用户偏差。
CNN分类
为克服阈值方法的局限性,研究开发了一个受LeNet-5架构启发的轻量级CNN模型,用于对纳米孔事件进行二元分类(延迟vs非延迟)。该模型包含两个卷积层(16和32个滤波器)、ReLU激活函数、最大池化层和全连接分类层。模型在4500张原始电流轨迹图像(经预处理保留200-700 pA范围内的信号动态)上训练,并在2000张独立手动标注的“盲测”数据上评估。输入图像分辨率优化表明56×56像素格式性能最佳。梯度加权类激活映射(Grad-CAM)可视化证实,CNN模型将注意力集中在与探针-靶标结合解链相关的中心平台区域,而非条形码相关信号区域,增强了模型的可解释性。CNN模型在所有评估指标上均达到近乎完美的性能:准确度=0.99,精确度=0.99,召回率=0.99,F1分数=0.99,马修斯相关系数(MCC)=0.98,受试者工作特征曲线下面积(AUC-ROC)=1.00。
方法比较与验证
三种方法(MSD, SE, CNN)均能产生符合预期结合动力学的S形浓度-响应曲线。CNN和SE方法在较低miRNA浓度下表现出更高的灵敏度。逆转录定量PCR(RT-qPCR)验证显示,纳米孔衍生的延迟指标与RT-qPCR结果高度一致,支持了该纳米孔检测方法在宽动态范围内的定量可靠性。综合比较表明,CNN模型在分类性能上显著优于基于阈值的MSD和SE方法,特别是在灵敏度和鲁棒性方面。
结论
本研究比较了三种解读DNA条形码探针纳米孔信号的方法。MSD和SE等基于阈值的方法虽然有效,但需要针对每种新分析物进行微调,限制了其可扩展性。相比之下,基于CNN的深度学习方法能够直接从原始信号轨迹中自动学习复杂模式,实现了更一致、更可扩展的延迟检测,且性能卓越。这项工作凸显了数据解读在纳米孔传感中的重要性,并为开发用于单分子生物标志物检测的机器学习驱动的高通量纳米孔诊断工具铺平了道路。
实验部分
纳米孔测量使用MinION Mk1B设备(Oxford Nanopore Technologies)和R10.4.1流动池进行。DNA条形码探针根据既定方案设计,并与目标miRNA(hsa-miRNA-27b-5p)杂交。样本制备涉及探针连接和纯化步骤。测序数据使用MinKNOW软件采集,并经过basecalling和条形码序列比对。用于CNN训练和测试的数据集来自不同miRNA浓度(0, 1, 10, 100 nM)的测序结果,并经过严格的手动检查筛选。性能评估使用了准确度、精确度、召回率、F1分数、MCC和AUC-ROC等统计指标。RT-qPCR实验使用TaqMan MicroRNA检测试剂盒进行,以验证纳米孔检测结果。