综述:基于深度学习(DL)分析小儿外科肿瘤学中的基因表达数据及基因相关信息:一项范围综述

《Cancer Medicine》:Deep Learning-Based Analysis of Gene Expression Data and Gene-Related Information in Pediatric Surgical Oncology: A Scoping Review

【字体: 时间:2026年05月23日 来源:Cancer Medicine 3.1

编辑推荐:

  基于深度学习(DL)的方法可增强复杂基因表达数据的分析,以辅助儿童颅外肿瘤的诊断和治疗决策。然而,该领域中深度学习应用于基因表达数据的文献仍然有限。本范围综述围绕以下问题展开:"目前针对儿童外科肿瘤学中的基因表达、基因相关信息以及基于深度学习的分析研究现状如何

  
基于深度学习(DL)的方法可增强复杂基因表达数据的分析,以辅助儿童颅外肿瘤的诊断和治疗决策。然而,该领域中深度学习应用于基因表达数据的文献仍然有限。本范围综述围绕以下问题展开:"目前针对儿童外科肿瘤学中的基因表达、基因相关信息以及基于深度学习的分析研究现状如何"。本研究依据PRISMA-ScR指南进行范围综述。对PubMed、Scopus和Embase三个数据库进行系统检索以确定将深度学习模型应用于儿童颅外实体瘤基因相关数据的研究。经过去重、题目和摘要筛查以及全文筛查后,共有九项研究符合纳入标准。神经母细胞瘤(neuroblastoma)是最常见的研究肿瘤类型(n=6),应用方向包括分类和生存预测。总体而言,这些研究报告了较强的性能表现;但外部验证报道较少。尽管深度学习在儿童实体瘤基因相关数据中的应用仍处于起步阶段,目前的研究凸显了这些方法在改进肿瘤分类、预后预测及患者治疗方面的多样性和潜力。技术方法的广泛多样性反映了针对基因相关数据持续适应和调整的过程。推进该领域的发展需要更大的数据集、一致的方法学、外部验证以及前瞻性验证,并在交叉学科环境下开展。
### 1 Introduction(引言)

癌症仍然是导致儿童疾病相关死亡的主要原因之一。尽管诊断工具和预后模型已有所改进,儿童实体瘤的预后预测仍具挑战性,尤其在高位情形下。对于高位或复发患者,生存率仍然极低,迫切需要新策略。以神经母细胞瘤(neuroblastoma)为例,现有分期主要依赖影像学检查及临床参数,而新遗传标志物的纳入可提供更精准的预后预测。

基因表达、基因相关数据及生物标志物(biomarker)的发现有助于实现早期诊断、精准肿瘤分型和个体化治疗,尤其对于罕见的小儿实体瘤更为重要。MYCN和WT1等生物标志物与多种肿瘤类型相关,包括神经母细胞瘤、肾母细胞瘤(nephroblastoma)、肝母细胞瘤(hepatoblastoma)和横纹肌肉瘤(rhabdomyosarcoma),高通量测序平台的应用已产生海量数据。基于微阵列技术、总RNA测序及单细胞RNA测序(single-cell RNA sequencing,scRNA-seq)等多种先进技术手段并存,各有优劣。然而,由于数据规模庞大且结构复杂,这些数据与临床参数及患者预后的关联分析仍面临挑战。

人工智能(artificial intelligence,AI)方法,特别是机器学习(machine learning,ML)和深度学习(DL),为解析此类复杂数据提供了工具。机器学习是计算机算法能够在没有明确指令的情况下从数据中学习、适应和推断的统称,包括线性/逻辑回归、聚类算法和支持向量机(support vector machine,SVM)等传统技术。深度学习是机器学习的高级领域,利用神经网络——即模仿人脑结构的互联层构成的广泛算法网络。按照定义,深度学习是指具有三个或更多隐藏层的神经网络。隐藏层从数据中提取模式,随着层数的增加,可从简单任务逐步扩展到更复杂的操作。这种复杂性使得深度学习能够在包括大规模复杂数据集在内的广泛应用中执行多种任务并发现数据模式。

深度学习在成人和儿童肿瘤的影像学分析中显示出应用前景。例如,研究者开发了从CT扫描预测MYCN扩增的深度学习模型,优化了神经母细胞瘤患者的预后预测。尽管影像学应用结果令人鼓舞,但深度学习在儿科颅外实体瘤基因相关数据中的应用仍然较少。深度学习可以针对这些数据开展建模分析,有望在肿瘤精准风险分层、防止误诊及过度/不足治疗等领域实现突破。

尽管成人肿瘤学中已有大量研究将深度学习应用于基因相关分析,但儿科特异性文献相对匮乏。本综述旨在填补这一空白,梳理现有研究现状,并指出深度学习及基因相关信息在儿科颅外实体瘤中的潜在应用方向。

### 2 Materials and Methods(材料与方法)

本范围综述围绕核心研究问题开展:目前针对儿童外科肿瘤学中的基因表达、基因相关信息以及基于深度学习的分析研究现状如何?为确保方法学严谨性,预先设定了纳入和排除标准,并根据PRISMA范围综述指南(PRISMA-ScR)开展研究。

#### 2.1 Search Strategy(检索策略)

在PubMed、Scopus和Embase数据库(2024年10月)中进行广泛全面的检索,针对各数据库特点调整检索词。去除重复记录后,对剩余研究进行筛选。

#### 2.2 Inclusion and Exclusion Criteria(纳入与排除标准)

纳入将深度学习应用于儿科颅外实体瘤基因表达数据的研究。排除中枢神经系统肿瘤,因其主要由小儿神经外科医生诊治和治疗。本研究将深度学习定义为具有三个或更多隐藏层(即除输入层和输出层之外的层)的神经网络架构;仅使用单层或少于两个隐藏层的神经网络(如浅层神经网络)研究被排除。涉及表观遗传修饰(如DNA甲基化)等相关基因信息的研究在满足条件时纳入。

#### 2.3 Screening(筛选)

采用主动学习方法的ASReview工具进行初筛,根据相关性动态优先排序研究。由两名儿科外科医生独立进行题目和摘要筛选,对存在分歧的研究通过讨论解决,必要时由技术专家协助。随后,对纳入研究的全文进行最终资格评估,并筛查参考文献以发现可能相关的遗漏文章。

#### 2.4 Data Extraction(数据提取)

从每项纳入研究中提取发表年份、肿瘤类型和主要分析任务等背景信息;报告数据源、模型架构、输入特征数量及性能指标等技术信息。对于多项深度学习模型评估的研究,报告最佳模型性能;若同时比较深度学习和传统机器学习模型,仅报告深度学习方法的性能。此外,对所有纳入研究进行PROBAST偏倚风险评估。

### 3 Results(结果)

通过预设检索策略,共识别出23,657条记录,去重后16,358项研究进入筛选阶段。两名评审人各筛选约2,000篇摘要后,因连续出现超过1,000篇不相关研究而终止筛选。题目和摘要筛选后22项研究进入全文评估,多数因仅使用传统机器学习而非深度学习架构而被排除。最终九项研究符合全部标准纳入最终分析,其中一项来自参考文献筛查。神经母细胞瘤是最常见的研究肿瘤类型(6/9),另有两项研究涵盖其他肿瘤类型:非霍奇金淋巴瘤、横纹肌肉瘤和尤文肉瘤(1项),以及肺癌(1项)。其余单项研究分别聚焦肾母细胞瘤/肾横纹肌样瘤、肺母细胞瘤(pleuropulmonary blastoma,PPB)和骨肉瘤(osteosarcoma)。最早发表于2007年,多数发表于2023年。

六项研究聚焦神经母细胞瘤:其中一项开发了多签名集成分类器(multi-signature ensemble classifier,NB-MuSE),整合33个已发表基因表达签名,集成模型方案外部验证准确率达94%;另一项采用注意力机制(attention mechanism)增强的深度学习模型预测神经母细胞瘤患者生存,在两个公共数据集上训练后测试集AUC达0.891,优于传统机器学习方法,并鉴定出17个潜在相关的长链非编码RNA(long non-coding RNAs,lncRNAs);一项研究基于cDNA微阵列数据用模糊聚类和多层感知器(multilayer perceptron,MLP)从88个样本中识别出七个基因的微小标志物组合,在四种小圆蓝细胞肿瘤(small round blue cell tumors,SRBCTs)亚型分类中训练集准确率达100%;还有研究应用深度学习网络预测国际神经母细胞瘤分期系统(International Neuroblastoma Staging System,INSS)分期,各分期的AUC为0.58-0.85;另有研究开发深度学习-梯度提升混合模型(DNN+LightGBM)识别肺母细胞瘤和神经母细胞瘤的候选长链非编码RNA生物标志物,分类性能指标较高;最后一项研究利用四个数据集训练深度学习网络,基于地形特征集预测的准确率达85%-87%。

其余三项研究分别涉及:基于CT影像和DICER1相关RNA-seq基因表达数据采用深度卷积神经网络(deep convolutional neural network,DCNN)分类肺母细胞瘤,RNA-seq单独准确率达95%,整合方法达96%;应用图过滤方法和自组织深度自编码器(autoencoder)识别肾母细胞瘤和肾横纹肌样瘤的关键信使RNA(messenger RNA,mRNA)和微小RNA(microRNA),各类模型准确率达93%-97%;以及基于多个GEO数据集构建随机森林与人工神经网络(artificial neural network,ANN)结合的骨肉瘤诊断模型,以九个基因区分骨肉瘤与正常组织,训练集AUC为1.0,外部验证AUC为0.987。

### 4 Discussion(讨论)

随着深度学习在医疗领域的迅速采用,其在儿科肿瘤学中的整合已成为一个特别及时且日益重要的探索方向。本范围综述系统识别和评估了将深度学习技术应用于儿童颅外实体瘤基因表达数据及基因相关信息的研究。经过以深度学习应用为限定条件的筛选,最终确定九项合格研究。神经母细胞瘤是主要研究类型(6/9),仅各有一项研究分别聚焦肺母细胞瘤、肾母细胞瘤/肾横纹肌样瘤和骨肉瘤,以及一项包含多种肿瘤的研究。

神经母细胞瘤因临床表现高度异质性——从自发消退到侵袭性转移——且高位疾病预后仍不理想,使其成为研究焦点。已有多种基于基因表达的传统机器学习分类器报道,但仅有一项在低位神经母细胞瘤研究方案中探索应用。深度学习的潜在优势包括减少所需基因靶点数量、整合更多异质性数据集、利用未标记数据以及纳入包括基因表达、突变、甲基化等多种遗传信息形式。

肾母细胞瘤因总体预后良好(总生存率>90%),开发新型转录组分类器的临床紧迫性较低,故仅有一项研究符合纳入标准。骨肉瘤的深度学习文献同样集中于影像应用,转录组研究罕见。多种其他罕见儿童肿瘤因样本量小、数据分散而未被深度学习基因相关研究所涉及,这与成人研究中覆盖几乎所有主要肿瘤类型且频繁使用大型泛癌数据集形成鲜明对比。

大多数研究(6/9)聚焦监督分类任务,区分肿瘤亚型或临床分期;四项涉及预后建模如生存预测,两项涉及生物标志物发现。相比之下,成人深度学习研究涵盖更广泛的应用,包括治疗反应预测、突变谱分析和多组学整合等。

纳入研究所用的方法学谱系突出体现了计算策略的异质性,涵盖传统深度学习模型、传统机器学习方法和集成架构,反映出儿童外科肿瘤学计算方法仍处于探索阶段。

尽管多数研究报告了较高的内部性能(如94%准确率、AUC为0.987等),但因缺乏标准化外部验证,其泛化能力尚不明确。没有独立测试和工作流整合,临床应用性仍不确定。此外,尽管已有基因数据可解释性技术,但所纳入研究均未应用此类方法增强临床理解。

当前研究存在关键局限:样本量小且队列异质性高(<300例)、预处理步骤记录不佳、超参数或代码可用性报告不足。为补偿小数据集,正在探索数据增强方法。儿科数据集常缺乏外部基准且存在采样偏倚,但跨机构协调工作正逐步推进。少数研究采用外部数据集或前瞻临床队列进行外部验证,这对于实现真实世界应用至关重要。但目前尚无研究遵循如TRIPOD和TRIPOD+AI等标准化评估和可重复性指南。迁移学习(transfer learning)和联邦学习(federated learning)等新兴技术可在保护数据隐私的前提下跨分布式数据集训练模型,特别适用于小样本儿科场景。

### 5 Conclusions(结论)

儿童深度学习研究有望超越分类和生存预测。儿童实体瘤基因相关数据的深度学习应用前景广阔但尚不成熟,与成人肿瘤学相比发展滞后。高内部准确率和早期预后模型展现了潜力,但小数据集、有限肿瘤多样性和外部验证不足阻碍了临床转化。为缩小儿童与成人之间的差距,未来方向应包括建立儿科基因相关数据的人工智能联盟、采用迁移学习、联邦学习和多组学等先进建模技术、开展严格的标准化验证并促进跨学科合作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号