《Frontiers in Oncology》:Applying transformer-based deep learning models in image-driven cancer diagnosis: a comprehensive bibliometric analysis of global research trends
编辑推荐:
背景/目的:Transformer架构自2017年问世以来,已在肿瘤学等多个领域引发范式变革,其在肿瘤检测、诊断、预后预测及治疗规划中展现出显著潜力,然而针对图像驱动肿瘤诊断(TICD)领域的全球研究态势与未来方向的系统性全景分析尚属空白。方法:研究人员采用C
背景/目的:Transformer架构自2017年问世以来,已在肿瘤学等多个领域引发范式变革,其在肿瘤检测、诊断、预后预测及治疗规划中展现出显著潜力,然而针对图像驱动肿瘤诊断(TICD)领域的全球研究态势与未来方向的系统性全景分析尚属空白。方法:研究人员采用CiteSpace与VOSviewer开展文献计量学分析,检索并筛选2017年至2026年间发表的2923篇相关文献(含2026年Early Access文献),从发文量趋势、国际合作网络及引文模式三个维度解析该领域的研究热点与新兴方向。结果:TICD领域的出版物数量呈指数级增长,2022年为显著拐点。中国与美国为两大核心贡献国,且国际合著程度较高。当前研究主要聚焦于Transformer基模型在医学图像分类、分割及增强任务中的应用,技术演进正朝向轻量化设计、可解释性提升、多模态融合及低标注依赖方向发展。尽管发文总量激增,但各国及各机构的学术影响力(以被引频次衡量)存在显著差异。结论:TICD领域正处于强劲增长期,吸引了全球尤其是中美研究人员的广泛关注。虽然国际合作广泛,但该领域仍面临研究成果泛化性与可扩展性的挑战。未来研究应致力于推动这些前瞻性技术向临床应用转化,确保其在多样化的肿瘤学场景中具备适应性与落地价值。
1 引言
随着人工智能(AI)技术的飞速发展,AI与医学的深度融合已成为最具前景的创新领域之一,其中深度学习作为AI的主导范式,在肿瘤学中得到了广泛应用。Transformer架构由Google研究团队于2017年提出,其利用多头自注意力机制(Multi-head Self-attention Mechanisms)与位置编码(Position Encoding)实现了高效并行计算并捕获长程依赖关系,在肿瘤诊断与预测方面展现出卓越性能。准确识别医学图像中的肿瘤相关区域对于肿瘤分期、治疗方案制定及手术导航具有极高临床价值。Transformer架构通过增强医学成像质量、优化医学图像分割(Medical Image Segmentation)、推进多模态分类(Multimodal Classification)以及利用生物标志物预测肿瘤生长并构建生存模型,为精准医疗与个性化治疗提供了关键决策支持。Transformer突破了传统方法在肿瘤图像任务中的局限,在诊断分类、预后预测及跨中心泛化(Cross-center Generalization)方面均取得了优于传统方法的性能。尽管已有学者针对脑肿瘤分割、特定癌症(如乳腺癌、肺癌)诊断等细分领域进行了系统综述,但从宏观层面利用文献计量学方法对该领域整体研究态势进行分析的研究仍属空白。鉴于大模型技术的发展,Transformer架构已不再局限于单一癌种或单一功能,正逐步向多模态大模型(Multimodal Large Models)与泛肿瘤诊断(Pan-tumor Diagnosis)演进。因此,全面梳理TICD的研究方向对于把握学科动态至关重要。文献计量学能够客观量化特定领域的研究进展、趋势演变及力量分布,本研究旨在通过可视化手段揭示TICD的应用现状与发展趋势,帮助学者快速掌握研究格局并识别新兴热点。
2 材料与方法
2.1 数据来源
研究人员选取Web of Science核心合集的Science Citation Index Expanded (SCI-EXPANDED)作为数据源,检索式为“Topic=(“attention mechanism” OR “transformer” OR ViT OR BERT OR GPT OR “Self-attention network” OR “Multi-head attention”) AND Topic=(Tumor or Neoplasms or Oncology or Cancer) AND Topic= imag*”,检索时间为2025年12月29日。文献发表时段设定为2017年至今,并纳入了Early Access文献以确保时效性。纳入标准包括:文献类型为论著、Early Access、会议论文及综述;发表时间为2017至2026年;语言为英语;主题相关。经人工筛选剔除1264篇相关性不足的文献(主要为未使用Transformer架构的CNN相关图像处理研究),最终纳入2923篇文献。两位相关领域学者随机抽取200篇文献进行一致性检验,Cohen’s Kappa系数为77.5%。
2.2 文献计量学分析
研究人员使用Microsoft Excel 2019绘制流程图与统计表;采用Charticulator与SCImago Graphica 1.0.25分析并可视化国际科研合作;利用Citespace 6.4.R1与VOSviewer 1.6.20对作者、期刊、机构、关键词、参考文献及引文进行文献计量分析与可视化,以识别研究热点与趋势。
3 结果
3.1 基本数据
共纳入2017年以来SCI-E论文2923篇,其中研究性论文2263篇,综述87篇。这些成果由来自97个国家/地区的3328个机构的13357名研究人员发表,覆盖818种期刊。
3.2 发文趋势
2019年至2026年间,发文量逐步攀升,2022年出现激增,增长率达100%,此后虽持续增长但增速放缓。截至检索日期,2025年发文量最高,占总量的30.38%,另有85篇2026年的Early Access论文已在线发布。中国发文量居首位,美国次之,随后为印度等。多数国家在2024年出现发文激增,但澳大利亚与德国的增速有所放缓。
3.3 国家分析
TICD研究力量与国际合著主要集中在东亚及美洲部分地区,中国与美国不仅发文量领先,且合著最为频繁。英国、沙特阿拉伯及印度亦表现出显著的国际合作活跃度。中国学者发文量最高(1494篇),但篇均被引频次为10.67,处于中等水平;美国发文444篇,篇均被引21.98次;澳大利亚虽仅发文92篇,但篇均被引高达23.80次,位居榜首。
3.4 机构分析
共有175个机构发文量超过8篇。中国科学院(92篇)、上海交通大学(64篇)、中南大学(55篇)、中山大学(55篇)及复旦大学(54篇)位列发文量前五。从学术影响力看,范德堡大学(Vanderbilt University)虽仅发文13篇,但篇均被引高达176.85次,位居质量榜首。机构合著网络形成11个聚类,国内合作频繁且不受地域限制,同时与哈佛大学、新南威尔士大学、吕贝克大学等国际顶尖机构建立了广泛联系。从时间演化看,中国科学院与东北大学(美国)是该领域最早的探索者(2023年6月),而部分印度、沙特及土耳其机构的研究起步相对较晚(2024年4月至6月)。
3.5 作者分析
发文量超过5篇的作者构建了包含194位学者的合著网络,其中最大的连通网络包含135位学者,表明超过半数研究者存在合作关系。Li, Chen与Sun, Hongzan等人拥有最高的总连接强度。高产学者Pacal, Ishak发文16篇居首。从影响力看,Tang, Yucheng以篇均379次被引位居第一。
3.6 期刊分析
818种来源期刊中,104种期刊发文超过5篇。Biomedical Signal Processing and Control、IEEE Access与Scientific Reports发文量前三。Medical Image Analysis虽发文量排第五,但以篇均62.83次被引成为该领域最具影响力的期刊。在被引期刊分析中,arXiv、Lecture Notes in Computational Science and Engineering及Conference on Computer Vision and Pattern Recognition (CVPR)是被引频次最高的三大来源,形成了放射学、计算机医学影像、计算机科学与生物医学交叉、医学物理四大聚类。
3.7 关键词共现分析
在6368个关键词中,筛选出出现频次大于5次的508个关键词。“深度学习”(843次)、“Transformer”(633次)、“分类”、“Vision Transformer (ViT)”及“Cancer”为高频词。乳腺癌(371次)、脑癌(353次)、皮肤癌(198次)及肺癌(181次)是研究关注度最高的癌种。关键词聚类显示,研究主要围绕深度学习在肿瘤诊断、分割及预后中的应用,特别是ViT与卷积神经网络(CNN)的混合架构。时间演化显示,“Transformer”、“医学图像分割”及“多示例学习”出现较早(2023-2024年),而“准确率”、“可解释人工智能(Explainable AI)”、“医学图像分析”及“基础模型(Foundation Model)”在2025年后成为主流。突现词检测发现,“Attention”是强度最高的突现词(2021年)。
3.8 文献与参考文献分析
在2923篇论文中,54篇被引超百次。Chen, XX等人2022年发表于Medical Image Analysis关于无监督与半监督深度学习的综述以310次被引居首。Dosovitskiy A等人提出的“An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”(ViT)是被引频次最高的参考文献(877次),其次是Liu, Z提出的Swin Transformer(775次)及Chen, Jieneng提出的TransUNet(501次)。引用时间线显示,“脑肿瘤分割”是被引持续时间最长的主题。
4 讨论
TICD领域自2022年起进入爆发期,中美主导发文量,但澳大利亚与德国在学术影响力上表现更佳。中国机构发文量大但篇均被引偏低,可能与科研评价导向侧重于数量及研究多集中于成熟领域的外围扩展有关。该领域跨学科特性促进了广泛的作者合著。研究内容已从早期的特征融合(约2020年)演变为医学图像分割(2021年起),进而扩展至Vision Transformer(ViT)相关的检测、分类及增强(2022年起)。2023年后的趋势倾向于利用多模态Transformer完成复杂任务。目前仅有极少数研究(如3项随机对照试验RCT)探索了TICD的临床应用,主要涉及放疗剂量预测及淋巴结转移预测。未来应从技术层面开发面向小样本数据的轻量化Transformer并优化注意力机制;在临床转化层面建立“算法开发-临床试点-多中心验证”的标准化流程;在方法论层面制定医学AI研究的复现性报告标准;在应用拓展层面探索Transformer在罕见肿瘤诊断及影像-病理-基因多模态融合分析中的应用。
5 局限性
本研究存在一定局限:首先,文献计量学侧重宏观描述,难以捕捉微观细节;其次,该方法对前沿研究的反映存在滞后性;第三,仅纳入英文文献,可能遗漏其他语种的重要成果;第四,作为宏观描述性研究,未进行严格的指标筛选与统计检验,未来可结合定性与定量方法进行深化。
6 结论
Transformer基深度学习在图像驱动肿瘤诊断中的应用潜力巨大,该领域正处于快速发展阶段,中美为研究主力且国际合作密切。未来需重点关注研究成果的泛化性与适用性,以成功实现临床转化。