综述：人工智能在膀胱癌诊断与病理评估中的当前证据及临床应用

《African Journal of Urology》：Artificial intelligence in the diagnosis and pathological assessment of bladder cancer: current evidence and clinical applications

【字体：大中小】 时间：2026年05月22日 来源：African Journal of Urology 0.4

编辑推荐：

　　膀胱癌是全球第九大最常被诊断的恶性肿瘤，具有显著的发病负担和死亡负担。传统诊断方式——包括膀胱镜检查、尿液细胞学、横断面影像学检查以及组织病理学检查——受到操作者依赖性差异、早期疾病敏感性有限以及显著观察者间一致性不足等因素限制。人工智能（AI），尤其是基于深

膀胱癌是全球第九大最常被诊断的恶性肿瘤，具有显著的发病负担和死亡负担。传统诊断方式——包括膀胱镜检查、尿液细胞学、横断面影像学检查以及组织病理学检查——受到操作者依赖性差异、早期疾病敏感性有限以及显著观察者间一致性不足等因素限制。人工智能（AI），尤其是基于深度学习（DL）的方法，已成为一种具有变革意义的技术范式，可在完整诊断连续谱中提高诊断准确性并促进评估标准化。本叙述性综述对人工智能在膀胱癌诊断中的应用现状进行了批判性综合，内容涵盖膀胱镜下肿瘤检测、尿液细胞学分析、基于影像组学的分期、计算病理学、多模态融合架构以及术中导航。在各验证队列中，AI增强膀胱镜的敏感性达到91–99%，特异性达到87–99%。AI增强尿液细胞学显示出显著的敏感性提升，其中VisioCyt系统的总体敏感性为84.9%，而传统细胞学仅为43%。用于影像分析的影像组学与深度学习方法在分期和肌层浸润预测中的受试者工作特征曲线下面积（AUC）范围为0.834–0.997。计算病理系统实现了达到或超过资深病理学家的诊断准确性，同时提供标准化且可重复的评估。尽管取得了这些进展，但若要实现广泛临床应用，仍需解决数据标准化、模型可解释性、前瞻性临床验证、监管协调以及卫生经济学评估等挑战。该综述识别了关键研究优先方向，并讨论了将AI创新成果以负责任方式转化至常规泌尿外科实践的可行路径。

1 Background

膀胱癌是全球重要的公共卫生问题，近年来在多个群体中的发病率持续上升。文中指出，超过90%的膀胱癌在组织学上表现为尿路上皮癌，并依据是否侵犯固有层与固有肌层分为非肌层浸润性膀胱癌（NMIBC）和肌层浸润性膀胱癌（MIBC），这一分层对治疗决策和预后判断具有决定性意义。当前诊断路径主要依赖膀胱镜检查、尿液细胞学、计算机断层扫描（CT）或磁共振成像（MRI）等横断面影像学，以及经尿道膀胱肿瘤切除术（TURBT）标本的组织病理学评估。然而，传统白光膀胱镜对微小或扁平病灶、尤其是原位癌的敏感性不足；尿液细胞学虽特异性较高，但对低级别肿瘤检出率有限；影像判读存在主观性；病理分级与T分期亦存在明显观察者内与观察者间差异。在此背景下，人工智能（AI）、机器学习（ML）与深度学习（DL）被提出作为提高客观性、一致性与可扩展性的技术路径。文章同时说明，由于现有证据具有研究设计异质性大、样本量有限、外部验证不足等特点，故采用叙述性综述而非系统综述或Meta分析更为适宜。

2 Methods

本文为关于人工智能在膀胱癌诊断与病理评估中应用的叙述性文献综述，未注册研究方案，也未采用系统综述或范围综述方法。研究人员检索了PubMed、Web of Science、Google Scholar、Scopus和MEDLINE数据库，时间范围为2015年1月至2026年4月。纳入文献主要包括评估AI在膀胱癌诊断、分期、分级或预后评估中应用的同行评议原始研究、前瞻性或回顾性验证研究及相关综述，并要求报告敏感性、特异性、准确率或AUC等定量指标。排除标准包括缺乏定量性能数据、非英文、仅有会议摘要、样本量少于50例，以及专门针对非尿路上皮性膀胱癌的研究。文章同时明确承认叙述性综述固有的方法学局限，包括未由双评审者独立筛选研究、未正式应用偏倚风险评估工具等，因此对证据解读应保持审慎。

3 AI-Enhanced cystoscopic tumor detection

本节围绕AI增强膀胱镜肿瘤检测展开，强调白光膀胱镜虽为膀胱癌诊断与随访的参考标准，但在扁平病变和小乳头状肿瘤检测方面存在固有限制。AI通过对膀胱镜静态图像和视频流进行自动分析，可对可疑病灶实施实时高亮和分类，直接弥补传统目测检查在敏感性上的不足。

3.1 Static image analysis and diagnostic classification

在静态图像分析方面，Cystoscopy AI Diagnostic System（CAIDS）是文中重点介绍的平台之一。该系统基于多中心大规模数据集构建，采用ResNet-101与金字塔场景解析网络相结合的架构，在外部验证中取得较高诊断准确率，并且在原位癌等复杂病变检测中优于专家级泌尿外科医师。Ikeda等进一步说明，在膀胱镜图像样本相对有限时，逐步迁移学习可有效提升模型性能，其方法先后利用ImageNet和胃镜图像进行预训练，再对膀胱镜图像进行微调，最终显著改善敏感性与特异性。Shkolyar等开发的CystoNet以及后续引入视觉转换器（ViT）的CystoNet-T，也显示出对乳头状肿瘤检测的高敏感性和高特异性。总体而言，跨不同研究团队与模型架构的结果提示，AI增强膀胱镜在图像级病灶识别中已表现出较稳定的高水平性能。

3.2 Real-time intraoperative AI detection and guidance

在实时术中检测方面，文中重点介绍了基于语义分割的深度学习模型。Ye等采用HRNetV2模型对前瞻性采集的膀胱镜视频进行分析，实现了较高的逐帧肿瘤敏感性和精确率，并获得较好的Dice评分。文章认为，这类实时反馈系统不仅可在检查过程中提示可疑病灶，还可能在TURBT期间帮助术者优化切除边界、降低遗漏病灶和残余肿瘤风险。虽然此类应用仍需更多前瞻性验证，但已展示出从“诊断辅助”向“术中导航”延伸的潜力。

4 AI-augmented urine cytology analysis

尿液细胞学是一种无创检测手段，但传统人工镜下判读长期受限于低级别肿瘤敏感性不足。本文指出，AI增强数字细胞学可通过自动分割细胞、提取细胞核与胞质形态学特征、量化核胞比及轮廓异常等指标，实现更客观、更稳定的分类。

4.1 Deep learning systems for digital cytology

VisioCyt是该领域具有代表性的系统，在多中心前瞻性VISIOCYT1试验中，相较传统人工细胞学，整体敏感性明显提高；特别是在低级别肿瘤和高级别肿瘤检测中均表现出显著优势。其较高阴性预测值提示，在特定随访人群中具有减少膀胱镜检查频率的潜在临床价值。除VisioCyt外，PUCAS系统也在回顾性与前瞻性多中心研究中显示出较好的敏感性和跨中心一致性。其他研究则应用卷积神经网络（CNN）和EfficientNetB1等架构于液基尿液细胞学全视野图像分类，提示AI在良恶性识别及分级预测方面具有较高判别能力。综合来看，AI数字细胞学的核心价值在于显著改善传统尿液细胞学的敏感性缺陷，同时保留其无创优势。

4.2 AI-Based volatile organic compound analysis

除图像型细胞学外，文章还提及基于尿液挥发性有机化合物（VOC）分析的新兴AI技术。TOBY Test结合气相色谱-质谱分析与专有AI算法，对尿液中的分子特征模式进行识别，并已获得美国食品药品监督管理局（FDA）突破性医疗器械认定。文章认为，该技术有望在无需膀胱镜的前提下实现更早期的非侵入性筛查，但目前仍需多中心临床验证来确认其泛化能力和实际效用。

5 AI-driven radiomics and imaging analysis

本节聚焦AI在横断面影像与影像组学中的应用。文章指出，传统CT和MRI在肌层浸润判断、T分期及淋巴结转移评估方面存在较大主观性，而影像组学通过系统提取形状、灰度和纹理等定量特征，结合DL模型，可为病理分级、肌层浸润和预后预测提供更稳定的依据。

5.1 Histological grading prediction from imaging

部分研究显示，基于增强CT尿路造影或多参数MRI提取的影像组学特征，能够较准确地预测膀胱癌病理分级。相关模型在训练集和验证集均取得较高AUC，提示影像信息与肿瘤生物学行为之间存在可被算法捕捉的关联。

5.2 CT-based muscle invasion detection and T-stage classification

在CT基础的肌层浸润与T分期识别方面，文中总结了卷积神经网络和放射组学列线图模型的应用进展。一些模型对MIBC与NMIBC的区分取得极高判别能力，说明AI有潜力在术前阶段辅助风险分层和治疗决策。

5.3 Impact of Imaging timing on radiomics performance

文章特别强调影像采集时间窗对模型性能的影响。Lisson等研究表明，TURBT后超过14天再进行CT影像采集，可明显提高T2与T3分期鉴别的影像组学模型性能；若将临床变量与放射组学特征联合建模，诊断效能进一步提升。这一发现提示，标准化成像流程不仅包括设备和参数，也包括检查时机本身，是未来模型外部推广的重要前提。

5.4 MRI-based radiomics and advanced imaging techniques

在MRI方面，扩散加权成像（DWI）特征与随机森林等算法结合后，可较好地识别肌层浸润。超声影像组学在肿瘤分期和分级上也展现出一定潜力。尽管不同模态性能不一，但总体上支持“多模态影像+AI”优于单一视觉判读的趋势。

5.5 Lymph node metastasis prediction

对于淋巴结转移预测，研究者利用MRI或CT影像组学特征，结合DL特征和临床基线变量构建模型，在验证集中获得中高水平AUC。文章据此认为，AI可在术前提供关于区域淋巴结状态的额外信息，从而帮助制定更合理的手术和全身治疗策略。

5.6 Multimodal fusion deep learning for prognostic prediction

在多模态融合方面，研究整合T2加权、扩散加权、动态增强MRI以及临床生物标志物，建立多模态融合深度学习模型（MF-DLM）用于预测总体生存。其一致性指数（C-index）明显优于传统单一临床因子模型，提示多源数据融合是未来精准分层和个体化治疗的重要方向。

6 Computational pathology and whole-slide image analysis

计算病理学是本文另一重点领域。作者指出，病理学虽然是确诊金标准，但在分级与分期判读上存在15%–20%的不一致率。基于全视野数字切片（WSI）的AI系统能够在大规模图像上进行标准化、可重复的定量分析，从而缓解病理负荷并改善一致性。

6.1 Histological grading and T-stage assessment

文中总结的多项研究表明，机器学习与CNN模型在肿瘤区域识别、良恶性区分、分级和肌层浸润深度判断方面取得了较高AUC和准确率，部分任务上已达到或超过一般病理医师水平。其优势不仅体现在性能指标，还体现在对整张切片进行穷尽式分析、减少疲劳性漏诊方面。

6.2 Lymph node metastasis detection from histopathology

在淋巴结病理图像分析中，多中心深度学习模型在多个独立验证队列中取得极高AUC，并在敏感性上超过资深及初级病理医师。尤其值得注意的是，该类模型能够检出部分病理学家漏诊的微转移灶，提示其在高负荷病理筛查和质量控制中的重要辅助价值。

6.3 Prognostic assessment from histological features

文章还提到，基于TCGA数据的深度学习聚类方法可从WSI中提取与肿瘤微环境相关的组织学特征，并结合临床参数建立生存预测模型。结果显示，病理图像不仅可用于诊断与分级，也可承载预后信息，从而拓展了计算病理学在精准医学中的应用边界。

7 Advanced architectures: transformer-based models and ensemble methods

在模型架构层面，作者讨论了转换器（Transformer）模型、视觉转换器以及集成学习方法在膀胱癌AI研究中的新进展。与传统CNN相比，Transformer引导的网络在多参数MRI分析中可进一步提高肌层浸润预测效能，并通过注意力图提供一定程度的可解释性。视觉转换器在膀胱癌分类中取得极高准确率，而集成模型通过融合ResNet-50、Inception-v3、DenseNet-121等多个架构，进一步提升了诊断稳定性。文章认为，这些先进架构展示了性能优化潜力，但其临床意义仍需结合数据质量、外部验证和可部署性综合评估。

8 Data standardization and multi-center dataset initiatives

作者指出，数据标准化不足是AI临床转化的核心障碍之一。不同中心在采集协议、标注规则和质量控制方面差异显著，限制了模型泛化。为此，多中心MRI数据集和联邦学习被提出作为解决路径。相关研究表明，在保护数据隐私的前提下，联邦学习可支持跨机构模型联合训练，并取得较有竞争力的MIBC预测AUC。此外，包含WSI与基因组信息的多样化数据集建设，也被认为是推动更具国际代表性和种族适用性的关键基础。

9 Interpretability, explainability, and clinical acceptance

文章强调，深度学习模型的“黑箱”属性限制了临床信任与采纳。为改善这一问题，研究中逐渐引入可解释人工智能（XAI）方法，如Grad-CAM热图、替代模型、SHAP（SHapley Additive exPlanations）特征重要性分析以及带注意力机制的多模态融合模型。这些方法有助于显示模型关注的影像或病理区域是否与临床知识一致，从而支持质量控制、错误审查和临床接受度提升。

10 Regulatory landscape and clinical translation pathways

在监管转化层面，作者认为AI医疗器械需依据风险等级接受相应审批，FDA突破性器械认定体现了监管体系对创新诊断工具的支持。文章以VisioCyt等前瞻性多中心验证研究为例，指出真正的临床转化必须建立在真实世界前瞻性证据基础上。同时，针对可持续更新的AI/ML医疗软件，监管框架也需适应算法迭代特性。

11 Cost-effectiveness and health economic impact

卫生经济学方面，文章认为AI有望通过减少不必要的膀胱镜检查、降低漏诊导致的后续高成本治疗、优化随访间隔等方式，带来经济收益。尤其是VisioCyt在监测人群中潜在减少膀胱镜检查的能力，提示其不仅可能改善患者体验，也可能降低系统性支出。然而作者也明确指出，目前多数经济学判断仍基于理论推演，缺乏严格的前瞻性成本-效果分析。

12 Discussion

讨论部分综合认为，AI几乎已覆盖膀胱癌诊断路径的全部关键节点，包括内镜检测、尿液细胞学、影像分期和组织病理评估，并在多个场景中表现出优于传统方式或接近专家水平的性能。但文章同时指出，当前高性能结果多来自回顾性、单中心或内部验证研究，外部验证和真实世界临床效应证据仍明显不足。

13 Synthesis with the broader literature

作者将本综述结果与现有叙述性综述和系统综述进行对照，认为不同文献在“AI具有显著潜力”这一总体判断上较为一致，但在证据成熟度评价方面存在差异。一些质量评价研究指出，现有膀胱癌AI研究仍常见数据集局限、结局定义异质、方法学不规范和可重复性不足等问题。因此，技术可行性并不等同于临床可用性。

14 Cystoscopic AI detection: consistent superiority and remaining gaps

文章认为，膀胱镜AI是目前证据最一致的方向之一，尤其在病灶检出率方面具有明确优势。但其不足在于，现阶段研究多关注“是否发现病灶”，对切除质量、手术技术评估和长期肿瘤学结局的研究仍较少。作者提到自动手术表现评估系统（AASP）等研究，提示AI未来可能从病灶识别扩展到手术质量监测。

15 Urine cytology enhancement: from laboratory achievement to clinical utility

在尿液细胞学方面，作者认为AI已显著改善传统方法长期存在的敏感性短板，尤其对低级别病变更具价值。然而，这些成果能否平移到基层或社区医疗环境，尚需进一步验证；同时，替代传统流程后的成本、培训需求与实施可行性也有待前瞻性研究支持。

16 Radiomics and staging optimization: technical excellence meets methodological rigor

影像组学部分的核心结论是：AI在分期和预后预测中展现出较高技术水平，但其稳定应用高度依赖成像时机、采集参数及临床变量整合。作者特别强调，TURBT后影像检查时间对模型性能有实质影响，这意味着未来临床协议标准化应将时间因素纳入规范。

17 Computational pathology: surpassing human performance while preserving human oversight

关于计算病理，文章强调其在高通量、标准化和减少主观差异方面的潜力，并提出“AI增强病理医师”而非“AI取代病理医师”更符合现阶段实际。人机协同在复杂或模糊病例中的作用仍不可替代，未来重点应放在工作流嵌入和监督机制构建上。

18 Advanced architectures: incremental gains versus disruptive innovation

对于先进网络架构，作者持相对审慎态度。尽管Transformer和集成学习可带来性能提升，但提升幅度未必总是具有颠覆性意义。相比单纯追求新架构，建设高质量、多中心、标准化数据集可能对整体进步更为关键。

19 Challenges to clinical implementation: from algorithm to healthcare system

文章将临床实施障碍归纳为数据标准化不足、可解释性有限、前瞻性验证缺失、监管标准尚未统一等多个层面，并指出截至文中所述时间点，尚无膀胱癌AI工具被主要泌尿外科指南正式推荐，反映出研究创新与临床规范采纳之间仍存在显著转化鸿沟。

20 Cost-effectiveness and health economics: promise awaiting evidence

作者进一步指出，卫生经济学证据的缺失是AI落地的重要阻碍。没有真实世界实施成本、工作流整合代价和长期结局数据，就难以支撑医保支付和系统性推广，因此未来经济学研究应与临床验证同步开展。

21 Integration of multimodal data: the frontier of precision diagnostics

文章认为，多模态融合——即将基因组、临床生物标志物、影像和病理特征整合——是膀胱癌精准诊断与风险分层的前沿方向。尽管早期结果令人鼓舞，但其实现依赖数据治理、平台互操作性、隐私保护和跨学科合作等系统性条件。

22 Limitations

作者专门讨论了现有文献与本综述自身的局限。现有研究普遍存在回顾性偏倚、女性样本不足、不同人群代表性有限、成本效益数据缺失、长期临床终点缺乏、技术实施细节报告不充分等问题。作为叙述性综述，本文未进行正式偏倚风险评估和效应量合并，因此更适合作为领域图谱式总结，而非定量证据定论。

28 Future research priorities and perspectives

未来研究重点包括：建立大规模、多中心、标准化数据集；推广联邦学习以兼顾协作与隐私；加强可解释模型开发；开展前瞻性真实世界和随机对照试验；规范成像和病理采集流程；进行系统卫生经济学评估；以及推进国际监管协调。作者还强调，应建立公共基准数据集与标准化外部验证框架，以提升研究可重复性和全球可及性。

29 Conclusion

结论部分指出，人工智能正在成为膀胱癌诊断领域的变革性力量。现有证据表明，AI可在膀胱镜、尿液细胞学、影像分期和计算病理等多个环节显著提高诊断性能，并推动评估标准化与个体化管理。然而，真正实现广泛临床落地仍取决于能否补齐前瞻性验证、跨中心泛化、可解释性、监管合规和卫生经济学证据等关键短板。若上述问题得到系统解决，AI有望在全球范围内显著优化膀胱癌的早期发现、分期评估与临床决策。

热点排行