
-
生物通官微
陪你抓住生命科技
跳动的脉搏
OncoPT:用于从病理报告中提取医院内肿瘤表型特征的长上下文变换器模型
《npj Digital Medicine》:OncoPT: long-context transformer models for in hospital tumor phenotype extraction from pathology reports
【字体: 大 中 小 】 时间:2026年05月03日 来源:npj Digital Medicine 15.1
编辑推荐:
摘要尽管医学信息学领域取得了最新进展,但从病理报告中提取肿瘤信息在现代癌症登记和监测工作中仍面临挑战。这些文档通常具有非结构化格式、复杂的医学内容以及冗长的背景信息,给自动化表型信息提取带来了巨大困难。虽然一些最新的语言模型(如BERT、GatorTron和GPT-4)在医学应用
尽管医学信息学领域取得了最新进展,但从病理报告中提取肿瘤信息在现代癌症登记和监测工作中仍面临挑战。这些文档通常具有非结构化格式、复杂的医学内容以及冗长的背景信息,给自动化表型信息提取带来了巨大困难。虽然一些最新的语言模型(如BERT、GatorTron和GPT-4)在医学应用中表现出色,但它们要么受到序列长度的限制,要么依赖云计算,而这会违反对受保护健康信息的处理规定。我们提出了两种针对肿瘤病理学优化的Transformer模型OncoPT,这些模型基于Longformer和BigBird架构,并通过真实世界的病理报告进行训练。OncoPT能够高效处理多达4,096个标记的病理报告,使其适合资源有限的医院现场部署。我们将OncoPT应用于两种恶性肿瘤(分别以乳腺癌和胃癌为例),并针对五个关键的肿瘤表型进行测试:亚部位、组织学类型、分级、分期和肿瘤侧别。实验结果表明,在私有病理数据集上,OncoPT取得了领先的加权F-1分数;在公共CORAL数据集上,其性能超过了商用聊天机器人(ChatGPT 4o和o1),提升幅度高达30%。这些发现凸显了OncoPT模型的稳健性,同时还能有效保护患者健康信息的隐私。
生物通微信公众号