基于可解释性miRNA的胰腺癌早期检测预测模型:开发与跨平台验证
《PLOS One》:Interpretable miRNA-based prediction model for early detection of pancreatic cancer: Development and cross-platform validation
【字体:
大
中
小
】
时间:2026年05月05日
来源:PLOS One 2.6
编辑推荐:
摘要
背景
胰腺癌仍然是最具致命性的恶性肿瘤之一,这在很大程度上是由于诊断延迟所致。尽管微小RNA(miRNA)生物标志物显示出巨大潜力,但许多先前的研究缺乏跨平台验证和模型可解释性,这限制了其临床应用。
方法
我们基于20个miRNA特征开发并在外部验证了一个可解释的诊
摘要
背景
胰腺癌仍然是最具致命性的恶性肿瘤之一,这在很大程度上是由于诊断延迟所致。尽管微小RNA(miRNA)生物标志物显示出巨大潜力,但许多先前的研究缺乏跨平台验证和模型可解释性,这限制了其临床应用。
方法
我们基于20个miRNA特征开发并在外部验证了一个可解释的诊断模型,使用的是公开可用的数据集。总共包含了801个样本,其中767个用于模型训练和验证。训练队列包括GSE59856和GSE85589(n=216),独立验证队列包括TCGA-PAAD和GTEx胰腺数据(n=585),以及额外的基于血清的验证数据(GSE128508;n=30)。特征选择和模型开发仅在训练队列内进行。应用了随机森林分类器,并使用SHAP分析来评估模型的可解释性。通过交叉验证和独立的外部验证来评估诊断性能。
结果
该模型在训练队列中的交叉验证AUC为0.87(95% CI 0.82–0.92),敏感性为84.7%,特异性为83.1%。在独立的RNA-seq和qRT-PCR数据集中的外部验证显示AUC值在0.78到0.83之间。性能在样本类型和平台之间保持了一致性。SHAP分析确定了miR-6875-5p、miR-196a-5p和miR-1246是分类中的主要贡献者。功能富集分析表明这些miRNA参与了典型的癌症相关通路。
结论
我们开发并外部验证了一个可用于胰腺癌诊断的可解释的20个miRNA特征,该特征在独立队列中表现出一致的性能。尽管基于回顾性数据集,但结构化的验证策略和可解释的建模框架为未来的前瞻性评估提供了透明的基础。
1. 引言
胰腺癌仍然是全球最致命的恶性肿瘤之一,5年生存率始终低于10%,并且有预测表明到2030年它将成为癌症相关死亡的第二大原因[1,2]。这种令人沮丧的预后主要是由于缺乏有效的早期检测策略,因为大约85%的患者在诊断时已经处于局部晚期或转移阶段,此时治愈性干预已经不可行[3,4]。当前的诊断方法,包括传统的成像技术和已建立的血清生物标志物(如CA19?9),对于早期疾病的检测灵敏度不足,并且这些标志物在良性条件下也常常升高,这限制了它们在无症状人群中的筛查效用[5,6]。这种诊断差距凸显了迫切需要能够尽可能早地检测胰腺癌的新颖、微创生物标志物。微小RNA(miRNAs)由于其在校准后基因调控中的基本作用以及在几乎所有癌症类型中的失调,已成为特别有前途的癌症生物标志物候选者[7,8]。这些小非编码RNA在循环系统中表现出显著的稳定性,并且可以在各种生物液体中可靠地检测到,使它们成为液体活检应用的理想选择[9]。特别是在胰腺癌中,异常的miRNA表达谱已在多项独立研究中得到一致记录,这些谱型与肿瘤发生、进展和转移扩散有关[10,11]。然而,由miRNAs控制的复杂调控网络以及胰腺癌的分子异质性要求使用复杂的计算方法来识别具有强大诊断性能的临床可行生物标志物组合。人工智能和机器学习方法的整合通过分析高维基因组数据并识别传统统计方法无法检测的复杂分子模式,彻底改变了生物标志物的发现[12,13]。先进的集成方法,特别是随机森林和梯度提升算法,在处理临床基因组数据集所固有的挑战(包括高维度、小样本量和复杂特征相互作用)方面表现出色[14,15]。尽管如此,基于机器学习的诊断工具的广泛临床采用仍受到其“黑箱”性质的限制,这限制了其可解释性,并引发了对监管批准和临床信任的担忧[16,17]。最近在可解释性人工智能方面的发展,尤其是SHAP(SHapley Additive Explanations)分析,通过提供模型无关的可解释性框架来阐明各个生物标志物对诊断预测的贡献,解决了这些限制[18,19]。尽管在基于miRNA的生物标志物研究方面取得了显著进展,但当前文献中仍存在几个关键的方法学限制,阻碍了其临床转化。首先,大多数研究依赖于单平台数据集或有限的队列规模,这削弱了所识别生物标志物特征的普适性和稳健性[20,21]。其次,该领域的大多数机器学习应用优先考虑预测准确性而非模型可解释性,忽视了对透明、可解释诊断工具的临床需求[22,23]。第三,全面的跨平台验证仍然不足,因为实验平台之间的技术差异、标准化程序和批量效应在应用于独立验证队列时可能显著影响模型性能[24,25]。最后,很少在多样化的患者群体和技术平台上实施严格的多队列验证,这限制了提出的诊断组合在现实世界的适用性[26,27]。为了解决这些根本性挑战,我们开发了一个综合的机器学习框架,用于基于miRNA的胰腺癌诊断,该框架整合了来自多个独立患者队列的多平台转录组数据。癌症病例数据来自四个来源:训练队列(GSE59856、GSE85589)和外部验证队列(TCGA-PAAD、GSE128508),提供了来自不同平台(微阵列、RNA-seq和qRT-PCR)的355个胰腺腺癌细胞样本。控制数据包括两类:(1)来自训练和验证队列的健康对照样本(GSE59856、GSE85589、GSE128508;n=170),以及(2)来自基因型-组织表达(GTEx)项目的正常胰腺组织样本(n=400+),后者提供正常人类组织的转录组数据但不包括癌症样本。GTEx队列仅用于我们诊断模型的特异性评估。我们的方法结合了复杂的特征选择算法和集成学习方法,特别强调了随机森林的有效性,因为它在处理高维生物数据方面表现优异[14]。至关重要的是,我们实施了SHAP分析,以提供完整的模型可解释性,使临床医生和研究人员能够理解诊断预测背后的生物学原理[18]。我们的框架在不同实验平台和患者群体之间实施了严格的多队列验证,以确保稳健的性能和广泛的临床适用性[28,29]。这项研究的主要目标是:(1)利用miRNA表达谱开发并严格验证一个基于机器学习的诊断模型,用于在多个独立队列中早期检测胰腺癌;(2)实施全面的SHAP分析以评估模型的可解释性,并系统地识别最具有临床相关性的miRNA生物标志物;(3)进行广泛的多平台验证,以评估模型在不同技术和人口背景下的普适性和临床效用[30]。我们假设,结合多个miRNA生物标志物的可解释机器学习方法将比单个生物标志物或传统统计方法实现更好的诊断性能,同时通过最先进的可解释AI方法提供临床可行的见解。这项研究代表了在计算方法上的一项重要方法学进步,通过全面的多平台数据整合、严格的验证策略和可解释的机器学习实现,系统地解决了当前研究中的关键限制。研究结果为miRNA基诊断工具的临床转化奠定了坚实的基础,并提供了一个可适应于不同癌症类型和临床应用的通用方法论框架。
2. 材料与方法
2.1. 研究概述
本研究旨在使用结构化的机器学习框架开发并外部验证一个基于miRNA的胰腺癌诊断预测模型。公开可用的数据集被划分为独立的训练和验证队列。所有特征选择和模型开发程序仅在训练队列内进行,以防止信息泄露。整体分析工作流程如图1所示。
2.2. 数据来源和队列组成
主要分析包括了四个公开可用的数据集。训练队列包括:GSE59856(RNA-seq,胰腺组织;n=125)和GSE85589(微阵列,血清;n=91)[33],共计216个样本。验证队列包括:TCGA-PAAD(RNA-seq,胰腺肿瘤组织;n=185)[34]和GTEx胰腺(RNA-seq,组织学上正常的胰腺组织;n=400)[35],共计585个独立样本。还有一个额外的基于血清的数据集(GSE128508,qRT-PCR;n=30)用于独立平台验证。在801个总样本中,有767个样本同时有病例和对照标签,用于模型训练和验证。GTEx样本仅用于特异性评估,不参与特征选择或模型调整。只包括明确标注了诊断标签(胰腺癌与非癌对照)的样本。
2.3. 数据预处理和批量效应校正
原始表达矩阵从GEO、TCGA和GTEx门户下载。质量控制包括:排除映射读数少于100万的RNA-seq样本;移除在少于10%的样本中检测到的miRNAs;在适当的情况下对表达值进行Log2转换。过滤后,保留了2,847个miRNAs用于后续分析。由于训练队列同时包括RNA-seq和微阵列平台,使用sva R包中的ComBat算法进行了批量效应校正。平台被定义为批量变量,疾病状态作为生物变量保留。使用主成分分析(PCA)在批量校正前后评估聚类模式。
2.4. 差异表达分析
使用limma R包在训练队列内进行了胰腺癌和对照样本之间的差异表达分析。统计显著性定义为:|log2倍数变化|>1.0且Benjamini–Hochberg调整后的p值<0.05。显著失调的miRNAs被保留为模型开发的候选特征。数据通过标准化平台访问,包括Xena平台用于TCGA数据可视化和分析[36]。
2.5. 特征选择
为了降低维度并减少过拟合,仅在训练队列内应用了结构化的特征选择策略。首先,保留了满足差异表达标准的miRNAs。其次,识别出高度相关的特征(Pearson相关系数r>0.8)并选择代表性miRNAs以减少冗余。第三,使用交叉验证AUC监控进行了递归特征消除,以确定最佳特征子集。最终的20个miRNA特征组合仅基于训练队列内的交叉验证性能选择,并不限于统计上最显著差异表达的miRNAs。这种方法允许包括那些即使其单变量统计显著性不高也能对预测性能有贡献的特征。
2.6. 机器学习模型开发
使用scikit-learn(Python 3.10.0)评估了五种监督分类算法:随机森林、梯度提升、逻辑回归、支持向量机和投票集成。使用五折交叉验证在训练队列内评估模型性能。在交叉验证循环中进行超参数调整。性能指标包括:接收者操作特征曲线下面积(AUC)、敏感性和特异性以及F1分数。随机森林分类器表现出最平衡的性能,被选为最终模型。
2.7. 外部验证
最终模型在验证队列(TCGA-PAAD和GTEx胰腺)中进行了独立评估。在验证期间没有重新训练或参数调整。使用与训练队列相同的标准计算性能指标。此外,还使用GSE128508进行了独立的基于血清的验证,以评估跨平台的稳健性。
2.8. 子组分析
在有数据的临床相关亚组中进一步评估了诊断性能,包括:年龄组(<50岁 vs ≥50岁)、性别(男性 vs 女性)、糖尿病状态(存在 vs 不存在)、吸烟史(从未吸过 vs 以前吸过)。为每个亚组分别计算了AUC、敏感性和特异性。
2.9. 模型可解释性
使用Python实现的SHAP(SHapley Additive ExPlanations)版本0.42.1评估了模型可解释性[37]。使用SHAP摘要图评估了全局特征重要性。进行了排列重要性分析以确认所选miRNAs的排名稳定性。
2.10. 功能富集分析
使用TargetScan(版本8.0)和miRDB数据库预测了选定miRNAs的目标基因。只有至少有一个高置信度预测分数(TargetScan context++ score > 80或miRDB score > 80)的目标基因被保留用于后续分析。使用clusterProfiler R包进行了基因本体(GO)生物学过程和京都基因组百科全书(KEGG)通路富集分析。使用超几何检验进行了过度表达分析,并使用Benjamini–Hochberg方法调整了多重比较的p值。调整后的p值<0.05的通路被认为是统计上显著的。富集结果被解释为探索性的和假设生成的,因为预测的miRNA–目标相互作用在本研究中没有经过实验验证。
2.11.统计分析 所有统计分析均使用R版本4.3.2和Python版本3.10.0进行。AUC的置信区间是通过自助法(1,000次迭代)估计得出的。所有统计测试均为双侧检验,p<0.05被认为具有统计学意义。
3. 结果
3.1. 数据集特征 我们的最终分析包含了训练和验证数据集中的801个样本(表1)。训练队列包括来自GSE59856(n=125)和GSE85589(n=91)的216个样本,其中包括91例胰腺癌病例和125名健康对照组。验证队列由TCGA-PAAD(n=185个肿瘤组织)和GTEx胰腺组织(n=400个正常样本)的585个样本组成,作为独立的外部测试集。
质量控制程序排除了23个测序深度不足(<100万映射读取)的样本,并移除了在不到10%的样本中检测到的156个miRNA,最终保留了2847个样本用于下游差异表达分析(图2A)。
探索性评估表明数据集之间存在与平台相关的变异。为了减轻潜在的技术效应,在模型开发之前应用了ComBat标准化方法。主成分分析显示,标准化后按疾病状态的分组效果有所改善(图2B),尽管无法完全排除残余的异质性。
3.2. 差异miRNA表达分析 在对合并的训练队列(n=216;GSE59856:125个样本,GSE85589:91个样本)进行质量控制并应用ComBat批量校正后,使用limma包进行了差异表达分析。通过设置严格的阈值(|log2FC|>1.0和调整后的p值<0.05),识别出10个在胰腺癌和对照组样本之间存在显著差异的miRNA。火山图展示了差异表达miRNA的分布,清晰地显示了上调和下调候选基因的分离(图3A)。基于顶级差异miRNA的无监督层次聚类热图进一步证实了癌症和对照组样本之间的明显分离,支持了所识别标志物的区分能力。
在最具显著上调的miRNA中,hsa-miR-21-5p(log2FC=2.34,调整后p=0.002)和hsa-miR-196a-5p(log2FC=1.87,调整后p=0.001)被特别提及,这两种miRNA之前已被证明与胰腺肿瘤发生有关。相反,肿瘤抑制性miRNA如hsa-let-7a-5p(log2FC=-1.45,调整后p=0.018)和hsa-miR-148a-3p(log2FC=-1.23,调整后p=0.037)显著下调。顶级差异miRNA的完整列表见表2。
3.3. 差异表达信号的平台间稳定性 为了评估不同测量技术之间的重复性,分别在RNA-seq(GSE59856)和微阵列(GSE85589)平台内检查了差异表达模式。在10个显著差异的miRNA中,有8个(80%)在两个平台上显示出一致的方向性(S1表)。平台间log2倍数变化估计的相关性分析显示了中等程度的一致性(Spearman ρ≈0.60,p<0.05),支持了主要表达信号的跨平台稳定性。重要的是,从训练队列中衍生的下游机器学习模型在来自不同测序平台(RNA-seq和qRT-PCR)的独立验证数据集中保持了稳定的性能,外部AUC值介于0.78到0.83之间。这些发现支持了分析数据集内的跨平台稳健性。
3.4. 模型开发和算法比较 在训练队列中识别出的20个miRNA标志物被用于构建诊断模型。使用5折交叉验证评估了五种机器学习算法,包括随机森林(Random Forest)、梯度提升(Gradient Boosting)、逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine)和集成投票分类器(ensemble voting classifier)。其中,随机森林达到了最佳的交叉验证性能(AUC=0.87,95% CI:0.82–0.92),敏感性为84.7%,特异性为83.1%(表3)。ROC曲线比较显示随机森林相对于其他模型具有明显的优势(图4A)。
3.5. 外部验证 在未用于特征选择或模型训练的独立外部数据集中评估了最终的20个miRNA随机森林模型。在TCGA-PAAD队列(n=185个肿瘤组织)中,该模型的AUC为0.78(95% CI:0.71–0.85),显示出在RNA-seq组织样本中的良好区分性能。当使用来自GTEx的正常胰腺组织样本(n=400)作为对照时,特异性达到89.7%(95% CI:86.1–92.6%)。结合组织验证(TCGA+GTEx)的总AUC为0.80(95% CI:0.75–0.85)。为了进一步评估跨平台稳健性,该模型还在一个独立的基于血清的qRT-PCR队列(GSE128508,n=30)中进行了测试,AUC为0.83(95% CI:0.67–0.94),敏感性为78.9%,特异性为81.2%。重要的是,性能在各个平台(RNA-seq、微阵列和qRT-PCR)之间保持在一个狭窄的范围内,表明该模型不具有平台依赖性。尽管与训练队列中的交叉验证性能相比AUC有所下降,但这种下降与预期的泛化行为一致,并不表明存在严重的过拟合。
3.6. 子组分析 为了评估20个miRNA诊断模型在临床相关人群中的稳定性,基于年龄、性别、糖尿病状态、吸烟史、慢性胰腺炎、职业暴露和遗传背景在训练队列内进行了 subgroup 分析。在这些 subgroup 中,模型性能大体上保持一致。AUC值的范围从0.79到0.86,各层之间的95%置信区间有重叠。灵敏度和特异性估计值有轻微变化,但没有任何 subgroup 显示出系统性的性能恶化。值得注意的是, subgroup 变量与预测的癌症概率之间没有观察到统计学上的显著交互效应(所有交互作用 p值>0.05)。然而,一些 subgroup 的样本量有限,特别是在涉及慢性胰腺炎和职业暴露的分层中。因此,这些分析应被视为探索性的而非决定性的。总体而言,跨人口统计和临床类别的相对稳定性能表明,模型的区分能力并非由单一的高风险 subgroup 所驱动。
3.7. 模型可解释性 为了提高预测模型的透明度,进行了SHAP(SHapley Additive Explanations)分析,以量化每个miRNA对分类结果的贡献。SHAP摘要图(图5)显示,几个miRNA一致地对增加的预测癌症概率有贡献,包括hsa-miR-6875-5p、hsa-miR-196a-5p、hsa-miR-1246、hsa-miR-5100和hsa-miR-1307-3p。相反,如hsa-let-7a-5p等miRNA与降低的癌症概率相关。
4. 讨论
4.1. 主要发现 在本研究中,我们使用随机森林机器学习方法开发并验证了一个可解释的20个miRNA胰腺癌诊断标志物。该标志物在独立验证队列(n=767)中表现出可复制的诊断性能,交叉验证AUC为0.87,外部验证AUC范围从0.78到0.83。在独立数据集(TCGA-PAAD、GTEx、GSE59856)中的外部验证显示AUC范围 ebenfalls 为0.78到0.83。通过SHAP进行的可解释AI分析确定了关键的贡献miRNA,途径富集分析表明这些miRNA参与了与癌症相关的过程,包括细胞增殖、凋亡逃避和代谢重编程。
4.2. 模型性能和泛化能力 内部交叉验证(0.87)到外部验证(0.78-0.83;ΔAUC≈0.05-0.09)的适度AUC下降需要考虑潜在的过拟合问题。Siontis等人的系统综述[38]表明,外部验证时区分能力通常会降低中位数0.05(IQR 0.00-0.13)。我们观察到的ΔAUC落在这个预期范围内,表明性能下降可能反映了技术平台和批量效应,而不是严重的过拟合。支持证据包括:(1)所有特征选择仅在训练数据上进行,以防止数据泄露[39];(2)尽管平台存在异质性,但在所有外部队列中保持了显著的区分能力(p<0.001);(3)在不同病例对照比的数据集中表现一致。我们的研究结合了血清来源(n=182)和组织来源(n=585)的miRNA表达数据。分层分析显示了一致的诊断性能:血清样本的AUC为0.82(95% CI 0.76-0.88;敏感性79.2%,特异性82.9%),而组织样本的AUC为0.80(95% CI 0.75-0.85;敏感性78.7%,特异性84.7%),DeLong的测试没有显示出显著差异(p=0.58)。我们采用技术性批量校正(ComBat)结合分层验证来实证评估生物学区室差异是否显著影响诊断性能。观察到的一致性表明该标志物捕捉到了与胰腺癌相关的miRNA失调模式,支持其在不同样本类型中的潜在适用性。虽然我们的miRNA标志物达到了文献中报道的敏感性(84.7%)和特异性(83.1%),但未在相同患者队列中进行直接的 head-to-head 比较。CA19-9有众所周知的局限性,包括由于良性条件的存在而导致的特异性降低、Lewis抗原阴性个体中的假阴性结果(约5-10%)以及早期阶段的敏感性有限[5,41]。性能指标表明在未来的比较中可能存在互补效用,尽管需要进行前瞻性研究,以便在相同的患者队列中进行直接统计比较并评估组合生物标志物的策略。
4.3. 特征选择和生物学解释 仅在训练数据集内应用了结构化的特征选择策略,以减少维度并减轻过拟合。这一过程将最初的2847个miRNA减少到了一个简明的20个miRNA标志物,同时保持了模型性能并提高了可解释性。值得注意的是,选中的20个miRNA中有14个(70%)之前已被证实与胰腺癌生物学有关,包括miR-21-5p和miR-196a-5p等已建立的致癌调节因子。其余六个miRNA,包括miR-6875-5p,在胰腺癌中的功能特征描述有限。它们的加入反映了为诊断区分而优化的数据驱动选择过程,而不是机制推断。虽然诊断性能与机制验证无关,但进一步的生物学研究将有必要阐明它们的功能作用。
4.4. 临床意义 本研究提供了证据表明,一个20个miRNA标志物可能对胰腺癌诊断有用。该标志物在组织样本(AUC 0.80)中的表现表明其适用于通过内镜超声引导的细针穿刺获得的活检标本,而在血清样本(AUC 0.82)中的表现可能支持其作为微创生物标志物的未来研究。我们设想这个标志物是现有诊断方法的补充,而不是替代品,包括成像和CA19-9。未来的临床实施可能涉及整合miRNA标志物、蛋白质生物标志物和成像特征的多标记面板,以最大化诊断准确性。SHAP分析提供的可解释性通过识别驱动个别预测的miRNA来增强临床接受度,解决了机器学习模型中常见的“黑盒”问题[17]。然而,如第4.7节所讨论的,需要在具有标准化协议的Well-characterized临床队列中进行前瞻性验证。
4.5. 与先前研究的比较 一些先前的研究已经开发了胰腺癌诊断的miRNA标志物[11,44,45],报告的AUC范围从0.75-0.90。我们的研究通过以下方面做出了贡献:(1)跨三个独立数据集的多队列外部验证(n=767);(2)跨平台评估(微阵列和RNA-seq);(3)透明的特征选择流程;(4)可解释的AI集成。多队列验证、跨平台一致性和透明方法的结合增强了对该标志物稳健性的信心。
4.6.主要优势包括:(1) 多队列验证设计(共767个样本,分布在训练数据集和三个验证数据集中);(2) 透明且有针对性的特征选择过程,配有完整的参数文档,并且仅限在训练阶段进行特征选择;(3) 集成了可解释的人工智能技术,以提高结果的生物学可解释性;(4) 在微阵列和RNA-seq技术之间实现了跨平台一致性;(5) 根据样本类型进行分层分析,展示了模型的稳健性;(6) 采用了严格的批量校正方法,并结合了分层验证流程。
4.7. 局限性与未来研究方向
目前存在几个需要考虑的重要局限性。首先,本研究使用了公开可获取的回顾性数据集,这限制了对临床变量、样本收集方案以及患者选择标准的控制。在具有标准化方案的独立临床队列中进行前瞻性验证对于确认诊断性能以及在真实世界环境中进行直接比较至关重要。其次,结合血清样本(n=182)和组织样本(n=585)会引入生物学上的差异。尽管应用了ComBat标准化方法,并且分层验证显示了不同样本类型之间的一致性能,但仅通过统计校正无法完全消除这些生物学差异,这构成了多平台整合的一个固有局限性。未来研究可以通过针对单一生物学组别的更大样本量来进一步精确评估这些差异对诊断性能的影响。第三,通路富集分析依赖于计算预测结果而非实验验证。需要通过荧光素酶检测、AGO2-CLIP或蛋白质组学分析等方法来验证这些预测结果的生物学准确性。第四,约有30%的标志性miRNA(共20个,其中包含一个由数据驱动的miR-6875-5p)在胰腺癌中的生物学作用尚未得到充分证实,因此需要开展机制验证研究来阐明其作用机制。第五,不同公共数据集之间的临床注释差异阻碍了对患者按分期、分级或分子亚型进行详细分析。某些队列中早期阶段(I/II期)样本的代表性不足,影响了对该检测方法早期检测实用性的评估。最后,目前的验证队列主要来自西方人群,因此需要在种族多样化的队列中进行独立验证以确保结果的全球通用性。未来的研究重点包括:(1) 使用标准化方案进行前瞻性验证并直接比较CA19-9的检测性能;(2) 通过功能性检测和AGO2-CLIP技术对新型miRNA进行实验机制验证[参考文献:Hafner 2010];(3) 建立早期富集队列以评估筛查效果;(4) 研究将miRNA与CA19-9、ctDNA和影像学生物标志物结合的检测策略;(5) 开展纵向研究以进行风险分层;(6) 建立种族多样化的验证队列。
5. 结论
本研究利用随机森林框架开发并外部验证了一个可用于胰腺癌诊断的20个miRNA特征签名。该模型在独立队列中表现出一致的性能(n=767;交叉验证AUC为0.87;外部验证AUC为0.78–0.83;灵敏度为84.7%;特异性为83.1%),并且具有跨平台的稳定性。尽管该模型基于回顾性公共数据集且缺乏直接的临床对比测试,但结构化的验证策略、仅限训练阶段的特征选择方式以及可解释的建模方法为研究结果提供了方法学上的透明度,并支持了在所研究队列中的良好泛化能力。在将其应用于临床之前,还需要在具有标准化样本收集流程的临床人群中进行前瞻性验证。如果能够进一步验证其有效性,这一miRNA特征签名可能会成为胰腺癌早期检测的补充诊断工具。
支持信息
参考文献
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号