结直肠癌筛查质量监控新路径：一种基于随机森林混合自然语言处理模型的结肠镜检查结果自动分类方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《The Clinical Journal of Pain》：Rafiq syndrome in a Saudi patient: novel homozygous MAN1B1 variant (c.1118C>G; p.Pro373Arg) and expanded phenotypic spectrum

【字体：大中小】 时间：2026年03月02日 来源：The Clinical Journal of Pain 3.1

编辑推荐：

　　本文旨在解决结肠镜检查中结直肠肿瘤检测率（Neoplasia Detection Rate）手工计算耗时费力、实施门槛高的质量监控难题。研究团队利用自然语言处理（NLP）技术结合随机森林（Random Forest）机器学习算法，开发了一套可自动、准确地将无结构病理报告文本分类为腺瘤、锯齿状病变或晚期肿瘤的系统。该系统在独立的测试集上表现出色（AUC达0.99以上），为规模化、低成本地监测和提升结肠镜检查质量，以降低结直肠癌（CRC）发病率和死亡率，提供了一种高效、可解释的技术方案。

引言

结直肠癌（CRC）是美国癌症相关死亡的主要原因之一。结肠镜检查是CRC筛查和预防的基石，能够同时检测和切除结直肠病变。腺瘤检测率（ADR）是衡量结肠镜检查质量的最重要指标，高ADR与较低的结肠镜检查后CRC发生率和死亡率相关。然而，计算肿瘤检测率通常需要大量人力对结肠镜和内窥镜报告及匹配的病理报告进行手动提取，这阻碍了许多医疗机构常规开展此项质量监测。近年来，机器学习工具，特别是自然语言处理（NLP），为自动化分类提供了可能性。虽然已有NLP方法应用于报告分类，但随机森林模型在结直肠肿瘤分类中的应用尚未被深入评估。本研究旨在开发和验证一种自动工具，将NLP与随机森林机器学习相结合，以实现病理报告的自动分类，从而为监控结肠镜检查质量提供可扩展的解决方案。

方法

数据集分析：本研究在梅奥诊所机构审查委员会批准后，进行了一项回顾性队列研究。研究团队利用之前工作中建立的、基于规则的算法识别结直肠肿瘤的队列作为训练集。该训练集涵盖了2014年至2017年期间多个电子健康记录系统的数据，包括与无结构病理报告配对的结肠镜检查程序，并使用系统医学命名法-临床术语（SNOMED-CT）作为训练标签。在机构于2017年初更换为Epic电子健康记录系统后，病理报告不再使用SNOMED-CT，因此本研究的目标是创建一种模型，能够对后续无标签的病理报告文本进行自动分类。

模型设计与实现：研究采用随机森林机器学习方法，针对三类关键病变（腺瘤、无蒂锯齿状病变/传统锯齿状腺瘤、晚期病变）分别构建了预测模型。模型开发使用R语言，并利用tidymodels等软件包。首先，对无结构病理报告文本进行词元化，生成了包括单字、双字组和三字组在内的500个结构化特征。这些特征被用于训练模型。研究团队将训练数据集分割为训练集和测试集，并通过5折交叉验证来调整模型超参数，包括节点中最小数据点数、每棵树随机采样的预测因子数量和树的总数。最终，根据测试集的性能指标（如受试者工作特征曲线下面积AUC、敏感度、特异度等）确定分类的阈值点。最终模型在完整的训练集上进行训练，并在一个独立的、手动标注的验证集上进行了性能评估。

结果

模型性能：训练集包含来自95,188份结肠镜报告的35,953份无结构病理报告。在独立的测试集上，模型对腺瘤、锯齿状病变和晚期病变的预测AUC分别达到0.997、0.999和0.998。最终模型的超参数被优化，例如腺瘤模型采用节点中最小数据点数为2，随机采样5个预测因子，构建1000棵树。在包含337个手动标注程序的独立验证集上，模型表现出了极高的准确性。腺瘤模型的AUC为0.997，锯齿状病变模型为0.99，晚期病变模型为0.99，其敏感度和特异度也均表现优异。验证过程中出现的一些错误分类案例（如内镜联合手术的误判）可以得到合理解释，且模型对这些特殊情况也保持了良好的区分能力。

讨论

本研究成功开发并验证了一套基于随机森林机器学习和NLP的混合系统，能够准确地将结肠镜检查结果自动分类为腺瘤、锯齿状病变或晚期病变。该模型旨在弥补因电子健康记录系统升级导致的历史SNOMED-CT结构化编码缺失的问题，从而为持续监测肿瘤检测率提供工具。与当前流行的大型语言模型相比，该混合模型具有计算成本低、可解释性强、部署简单的优势，可运行于个人电脑，适合不同规模的医疗机构使用。随机森林模型能够清晰地解释其预测所依据的特征，这是单纯NLP系统所不具备的优势。

然而，该模型也存在一些局限性。首先，当前版本的模型最适用于单独的结肠镜检查及其匹配的病理报告，在处理联合内镜手术时可能出现误分类。其次，模型在不同机构间的通用性有待验证，因为病理报告的自由文本格式可能因机构和数据库供应商而异。最后，在锯齿状病变的定义上，本研究模型排除了单纯性增生性息肉，除非其直径大于10毫米，这可能导致对小而位于近端的增生性息肉的锯齿状病变检测率有所低估，但这是为了避免检测率计算中的偏差而做出的设计选择。

未来的工作将集中在从结肠镜和病理报告中提取更细粒度的特征，如肠道准备质量和息肉位置信息，并探索更具鲁棒性的模型以适应报告格式的变化，以增强模型在不同机构间的适用性。

总而言之，本研究表明，简单的文本词元化结合高效的随机森林机器学习算法，可以高精度地预测和分类结肠镜检查结果。该混合系统为实现大规模、高效、低成本的结肠镜检查质量监控提供了可行的技术路径，有助于未来开展更多关于结肠镜检查性能的研究。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号