人工智能在推动基于人口的癌症登记系统发展中的作用

【字体: 时间:2026年02月13日 来源:Science Bulletin 21.1

编辑推荐:

  癌症登记系统(PBCRs)在数据收集、处理和质量控制中面临效率与资源挑战,AI技术可优化自动化流程、提升数据质量并促进多维度分析。本文系统综述AI在癌症登记中的应用,涵盖机器学习、自然语言处理等技术,分析其赋能数据采集、标准化编码及跨源整合的潜力,同时探讨基础设施不足、算法偏见及隐私安全等关键障碍,并提出人类专家与AI协同的可行性方案。

  
丁帅|刘明远|王浩|宋成|赵璐月|杨志豪|王悦|王一帆|崔海涛|刘志豪|刘东润|松田智弘|堀惠|迪米特里斯·卡辛波基斯|吉斯·赫莱因斯|泽维尔·法雷|大卫·S·莫里森|王耀刚|张思伟|刘美岑|何杰
合肥工业大学管理学院,中国合肥230009

摘要

癌症已成为全球第二大死亡原因,全球癌症负担正在迅速增加,各国之间以及国家内部的癌症负担存在显著差异。基于人口的癌症登记系统系统地收集特定人群中的癌症患者数据,在规划和评估癌症预防和控制策略中发挥着关键作用。虽然癌症登记的发展伴随着定义和方法的标准化以及数据的电子化处理,但人工智能(AI)的出现为进一步减少登记工作的劳动密集型提供了机会,尤其是在登记资源稀缺的情况下。这些应用包括处理大型数据集、提取复杂或非结构化数据模式以支持癌症登记数据的抽象化,以及促进数据质量和控制。登记数据的分析和传播也越来越集成AI方法。本文全面概述了AI在癌症登记中的应用。我们研究了将AI整合到现有癌症登记结构中面临的挑战,特别关注网络和计算限制、资源分配不均以及AI系统内的潜在偏见和局限性。我们提出了一个面向未来的、增强AI的癌症登记框架,强调了AI在优化癌症登记效率以及利用登记数据进行癌症控制和癌症研究方面的潜力。

引言

癌症是全球第二大死亡原因,给医疗系统和社会带来了巨大负担[1]。根据国际癌症研究机构的全球癌症观察站(GLOBOCAN 2022)的估计,如果当前趋势不变,到2050年,全球新发癌症病例数将从2022年的2000万例增加到超过3500万例(图1)。特别是亚洲,由于其庞大的人口基数,目前在绝对新发病例数方面贡献最大,未来也将面临最大的增长。另一方面,非洲在未来癌症病例数的相对增长方面将最为显著。随着全球癌症发病负担逐年增加,迫切需要制定和实施有效的策略来减轻这一疾病的负担和痛苦[2]。
基于人口的癌症登记系统(PBCRs)是系统地收集、管理、分析和传播特定人群中所有新发癌症病例数据的系统。PBCRs在规划和评估癌症控制计划方面发挥着独特作用,有助于制定公共卫生政策、资源分配和有针对性的预防策略[3]。医院为基础的癌症登记系统(HBCRs)是PBCRs的关键信息来源[4]。将HBCR数据与电子健康记录(EHRs)整合越来越普遍,因为癌症相关信息通常分散在医院的不同部门和数据库中;这种链接使得数据能够集中访问和汇总,从而提高数据质量。
历史上,大多数PBCRs都是通过人工病例识别和数据登记来运作的。随着技术的进步,越来越多的PBCRs在资源允许的情况下实现了自动化,数据不仅被抽象化,还被系统地编码并准确输入电子系统。尽管这一发展具有内在价值,但许多PBCRs仍面临多重挑战,包括缺乏政府支持和相应的资源不足。数据收集的劳动密集型特性,以及数据录入的潜在不准确性,特别是在技术、资金和人力资源有限的国家,都是阻碍PBCRs发展的因素[5]。在近40个国家中,尚未建立PBCRs[6]。高质量PBCRs的人口覆盖范围在世界各地区差异很大。非洲、拉丁美洲和加勒比地区以及亚太地区的转型国家在PBCRs的数据覆盖范围和质量方面存在显著差距,因此这些国家的全国性估计需要基于外部模型和数据来源[7]。
人工智能(AI)已经从一种专业工具发展成为公众可使用的工具[8]、[9]、[10]。AI具有分析复杂数据集和识别显著模式的能力,越来越多地应用于PBCRs中的操作任务,包括临床文本和图像的处理,以及从非结构化数据中提取登记变量,从而有可能提高数据质量和时效性[11]、[12]。通过自然语言处理和机器学习等技术,AI有可能提高收集到的癌症数据的准确性、效率和完整性,从而构建更强大的癌症登记框架[13]、[14]、[15]。然而,PBCRs在与AI技术整合时面临挑战,包括数据隐私问题、算法偏见、大型语言模型中的幻觉现象以及巨大的计算需求,不同地区和医疗系统的AI采用程度也存在很大差异。
在这篇综述中,我们从数据收集和数据利用的角度介绍了AI的核心概念及其在PBCRs中的潜在应用。我们强调了使用AI时的独特背景和技术挑战,并探讨了利用下一代信息技术为PBCR带来的创新解决方案。我们的目标是提供有助于将AI有效应用于PBCR实践的见解,最终提高PBCR数据的全国覆盖率和质量。
我们在Web of Science、PubMed、Wanfang、Embase和Scopus数据库中进行了全面的文献回顾,没有语言或日期限制,检索了2025年12月1日之前发表的与癌症登记和AI相关的文章。我们使用了一组广泛的关键词及其同义词,包括AI方法(例如,人工智能、机器学习、深度学习、卷积神经网络、循环神经网络、变换器和大型语言模型)以及癌症登记相关的内容和任务(例如,癌症、基于人口的癌症登记系统、癌症登记、数据提取、信息提取、编码和抽象)。标题和摘要被筛选以确定其与PBCR核心功能的相关性,包括病例确认、登记变量抽象和编码、数据链接和质量控制,必要时还评估了全文。我们纳入了与基于人口的癌症登记相关的研究,并通过引用跟踪发现了额外的论文。我们根据PBCR工作流程和AI方法类别组织并总结了我们的回顾。

部分摘录

AI方法简介

有多种AI子领域对癌症登记有用,包括机器学习、深度学习和生成式AI技术。图3可视化了这些概念之间的关系。机器学习通常使用从原始数据中提取的特征或表示,模型如支持向量机和逻辑回归用于模式识别和预测。深度学习作为机器学习的一个子领域,利用神经网络来学习特征

基础设施和资源限制

AI有潜力改变PBCR的工作流程,但实施仍面临挑战和限制。在癌症登记基础设施不发达或完全缺失的地区,AI无法有效部署。资金限制严重影响了培训和能力建设计划的质量和可用性。在南非,过时的基础设施和不足的财政支持阻碍了数字化转型战略的实施

癌症登记中的人类与AI:人的参与

上述挑战指出了未来工作中需要考虑人类参与的问题,其中登记人员的专业知识仍然至关重要。AI系统必须由领域专家指导,以执行预期的分析、提取相关数据并验证结果。对于需要细致判断的任务,如病例确认和病理报告的编码,采用人工参与的方法是合适的[81]。主动学习策略可以通过指导不确定的情况进一步提高效率

结论

AI在某些情况下改进了PBCR,从数据收集到数据利用。它提供了工作流程自动化的机会,提高了准确性,扩展了数据范围,并加强了数据利用。然而,AI与癌症登记的整合仍面临网络和计算能力限制以及数据安全问题等挑战。
展望未来,AI安全且可持续地整合到常规PBCR工作流程中将依赖于安全的数字基础设施

利益冲突

作者声明没有利益冲突。

致谢

本工作部分得到了中国国家自然科学基金(72293581和72188101)、国家高级医院临床研究资金(2025-LYZX-R-A05)以及北京医院管理局临床医学发展专项资金支持(ZLRK202519)的资助。

作者贡献

丁帅和曾洪梅构思并设计了这篇综述,进行了文献搜索并起草了手稿。刘明远、王浩和宋成进行了文献搜索并准备了相关内容
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号