开发一种深度学习模型，用于在腹部计算机断层扫描（CT）中检测游离气体，以辅助外科手术决策

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Journal of Surgery》：Development of a deep-learning model to detect free air on abdominal computed tomography for surgical decision support

【字体：大中小】 时间：2026年05月10日 来源：International Journal of Surgery 10.1

编辑推荐：

　　摘要背景：腹腔内的游离气体（FA）是一个需要立即进行外科干预的危急发现。我们开发了一种基于人工智能的分割模型Free Air-Net（FA-NET），用于检测腹部计算机断层扫描（CT）中的游离气体，并通过负例训练进一步改进该模型，以创建FA-NET-NT，旨在减少假阳性结果

　　摘要
背景：腹腔内的游离气体（FA）是一个需要立即进行外科干预的危急发现。我们开发了一种基于人工智能的分割模型Free Air-Net（FA-NET），用于检测腹部计算机断层扫描（CT）中的游离气体，并通过负例训练进一步改进该模型，以创建FA-NET-NT，旨在减少假阳性结果。

材料与方法：
FA-NET-NT是使用来自单一机构的回顾性数据集（n = 162）开发的。为了评估其泛化能力，该模型通过一个时间内的内部队列（n = 215）和一个来自不同医院的独立外部队列（n = 237）进行了验证，这些队列包括各种CT制造商和协议。模型评估分为三个方面：（1）Dice得分系数；（2）图像级别的评估；（3）使用代表性CT切片（总轴向系列的20个等分部分中的第4至第8部分）进行的患者级别敏感性和特异性评估。如果模型在代表性图像中检测到至少两个含有游离气体的图像，则认为该患者存在游离气体。

结果：
两种模型都获得了较高的Dice得分（0.87）。FA-NET-NT在图像级别分析中提高了特异性（96%），同时保持了高敏感性（85%）。在患者级别分析中，FA-NET-NT对溃疡穿孔的敏感性为95-96%，对非游离气体情况（胆囊炎、胰腺炎和阑尾炎）的特异性为82-92%。肠梗阻的特异性仍然较低（62%）。在外部验证中，该模型对溃疡穿孔的患者敏感性为95%。在与阑尾炎（88%）、胰腺炎（88%）、胆囊炎（82%）和肠梗阻（80%）的鉴别诊断中保持了高特异性。大多数假阳性结果是由模仿游离气体的生理性肠气引起的。

结论：
FA-NET-NT是一种强大的决策支持工具，用于检测游离气体，其泛化能力已通过多机构验证得到确认。为了提供其临床优越性的决定性证据，需要在紧急情况下进行进一步的前瞻性多中心试验。

亮点：
FA-NET-NT被开发用于检测腹部CT扫描中的游离气体，以支持外科决策。使用阑尾炎数据进行负例训练显著提高了模型的特异性。该模型在检测患者溃疡穿孔方面达到了95-96%的敏感性。通过不同CT制造商的外部验证确认了其鲁棒性。FA-NET-NT可以作为紧急外科分诊的可靠决策支持工具。

引言
尽管由于根除幽门螺杆菌和质子泵抑制剂的发展，消化性溃疡病的发病率有所下降，但溃疡穿孔仍然是一个重要的外科急症[1-3]。由于溃疡穿孔的死亡率和发病率仍然很高[4-8]，因此及时诊断和外科干预对于改善患者预后至关重要。溃疡穿孔主要通过增强型计算机断层扫描（CT）进行诊断，CT被认为是检测腹腔内游离气体（FA）的金标准。然而，由于临床医生的经验有限、工作量大、时间紧迫以及人手不足，尤其是紧急情况下，上腹部的腹腔积气可能会被忽视。因此，准确及时地解读CT图像对于促进溃疡穿孔所需的外科干预至关重要[4]。基于深度学习的模型在各种临床应用中显示出有希望的结果，包括图像分析、疾病预测和治疗优化[9-12]。特别是，卷积神经网络已成功应用于医学成像中的肿瘤检测、分割和疾病分类。它们从大型数据集中学习并随时间提高性能的能力使它们成为临床实践中的宝贵工具，有潜力提高诊断准确性和效率。基于深度学习的计算机辅助诊断（CAD）系统通过实现更快、更准确的医学图像解读来帮助临床医生[13]。作为“第二意见”，这些系统可以减少人为错误并提高诊断信心。特别是，自动结构分割是CAD系统中最重要的任务之一[14]。该过程使用算法自动识别并勾画医学图像中的特定解剖结构或感兴趣区域，这对于检测、量化和分析各种病理或异常至关重要，有助于临床决策和患者管理。尽管具有这些众多功能，但目前尚未充分研究CAD在急性腹痛患者CT图像中检测游离气体的应用。Chiu等人[15]开发了一个用于检测腹部CT扫描中腹腔积气的深度学习模型，他们的大规模研究验证了使用三维（3D）深度学习模型的可行性。然而，尚未研究这些模型在不同患者群体中的可行性。因此，本研究旨在开发一个基于深度学习的分割模型来检测游离气体。该模型并不打算作为外科探查的唯一决定因素，而是作为两种方式的支持工具。首先，它可以提醒外科医生或急诊科工作人员重新评估CT发现或在适当情况下考虑外科探查。其次，该模型可以通过叠加突出显示的区域来帮助临床医生，这些区域指示了游离气体的估计位置，允许通过可解释的模型结果进行视觉确认。

材料与方法
数据集
2019年4月至2022年4月期间，回顾性地纳入了127名在单一机构因消化性溃疡穿孔接受手术的患者。在此期间收集了共127份腹部CT扫描，包含15,090个轴向切片。对于模型开发，86名患者被随机分配到训练数据集，17名患者被分配到验证数据集，剩余24名患者被用作测试数据集。所有游离气体区域均由一位具有15年经验的外科医生使用专用工具进行了注释，该医生对每张CT图像中的游离气体区域进行了分割并验证了分割区域。在模型训练期间，我们还包括了76份含有8760个轴向切片的阑尾炎患者的腹部CT扫描。这种方法使模型训练更加稳健，因为阑尾炎的CT图像可以作为难点阴性案例——这些图像中的区域难以与游离气体区域区分开来。我们使用了FA-NET检测到的阑尾炎CT图像中的假阳性区域。这最终可能会降低游离气体检测的假阳性率。我们将该模型称为FA-NET-NT，其中NT代表负例训练。相比之下，我们开发了FA-NET作为基线模型进行对比，该模型未使用阑尾炎（难点阴性）案例进行训练。与溃疡穿孔数据集类似，我们将阑尾炎病例分为训练集和验证集：58份CT扫描（6689个轴向切片用于训练，18份CT扫描（2071个轴向切片用于验证）。因此，FA-NET-NT使用总共144份CT扫描（16,668个轴向切片）进行训练，并使用35份扫描（4229个切片）进行模型选择验证。同时，FA-NET使用总共3640个轴向切片进行训练，并使用753个切片进行验证。最后，两个模型都使用包含2953个轴向切片的24名患者测试数据集进行了评估（图1）。

图1：患者选择和模型开发的概述。模型使用内部数据（n = 203）进行训练和验证，并在时间内的外部队列（n = 215）和外部验证队列（n = 237）上进行了测试。

时间外部验证
为了验证FA-NET-NT检测游离气体的诊断性能，我们进行了时间外部验证。分析了2022年8月至2025年8月期间前往急诊科的215名急性腹痛患者，其中包括39名溃疡穿孔患者，以及其他来自训练和内部验证组同一时期的患者。这些患者之前未在同一机构接受过FA-NET或FA-NET-NT的治疗。纳入标准要求有增强型CT图像，并且根据放射科医生的术前解读确认诊断。进一步在患有溃疡穿孔（n = 39）和患有无游离气体的急性腹部疾病（包括胆囊炎（n = 50）、肠梗阻（n = 52）、胰腺炎（n = 50）和阑尾炎（n = 24）的患者中评估了模型的性能。时间外部验证组中游离气体的存在或不存在由对原始患者集进行分割的同一位外科医生确认。

外部验证数据集
为了评估FA-NET-NT的多机构泛化能力，使用来自不同医院（外部中心）的CT数据集进行了独立的外部验证。这个外部队列包括37名被诊断为消化性溃疡穿孔的患者和200名患有其他急性腹部疾病的患者（50名胆囊炎、50名胰腺炎、50名肠梗阻和50名阑尾炎），以测试模型对各种鉴别诊断的性能。与内部数据集不同，外部数据集包括来自不同CT扫描仪（例如GE Healthcare和Siemens Healthineers）的图像，这些扫描仪具有不同的重建核和2.0至5.0毫米的各种切片厚度。所有外部数据使用与开发集相同的强度归一化和分割协议进行了处理。

注释和预处理
对于训练和验证图像，查看了所有溃疡穿孔数据集的切片，并使用3D Slicer分割工具手动注释了游离气体区域。图2显示了一个被标记为游离气体区域的示例。我们将整个轴向切片的大小调整为256 × 256像素，并将CT图像的窗口大小设置为2000 Hounsfield单位，以消除金属伪影和高Hounsfield单位（超过2000）的意外材料的影响。这一过程标准化了像素值分布，从而减轻了不同重建核和平整协议对游离气体可见性的影响[16]。然后使用最小-最大归一化对图像进行了归一化，即通过除以每张CT扫描的最大值来确保整个切片的像素值范围从零到一。对于后处理，我们从标签和预测输出中移除了占比不到0.01%的像素（32个像素），以减少可能导致决策混乱的假阳性案例。

模型架构和训练细节
FA-NET和FA-NET-NT都是基于U-Net[17]的深度学习网络架构，U-Net广泛用于生物医学图像的语义分割。需要注意的是，FA-NET和FA-NET-NT具有相同的U-Net类似架构，但分别在不同的训练数据集上进行训练。FA-NET和FA-NET-NT架构使用四个编码和解码路径构建，每层之间有跳跃连接。每层由两个卷积块组成，每个卷积块都有一个最大池化操作符，每个卷积块都有一系列卷积（Conv）-BatchNorm-ReLU层。在解码路径中，卷积块之前应用双线性插值来上采样特征图，以便特征图在传播到下一层时增大。架构细节显示在图3中。我们使用了二元交叉熵损失函数，并使用Adam优化器对模型权重进行了优化，学习率为0.001，批量大小为8，训练了100个周期。图3：FA-NET和FA-NET-NT的模型架构概述。Conv Block表示模型中实现的单元卷积块。每层的输入和输出特征维度用括号表示。例如，64 ? 128表示相应块的输入和输出特征维度分别为64和128。

评估
模型性能评估的主要目标是：（1）评估图像分割任务的表现；（2）进行图像级别分析；（3）进行患者级别分析。为了评估模型在图像分割任务中的表现，我们将所有包含或不含游离气体的轴向切片纳入测试集，并使用Dice得分系数计算真实区域和预测区域之间的重叠部分。Dice得分的计算方法如下：
Dice得分 = (2 × 重叠区域的数量) / (真实区域面积 + 预测输出面积)。Dice得分的范围是从0到1。得分为0表示两个集合之间没有重叠或相似性，意味着预测区域与真实区域没有共同元素。得分为1表示完全重叠，意味着预测区域与真实区域完全相同。游离气体并不完全分布在膈肌到骨盆之间，通常局限于特定区域。最具有价值的游离气体通常出现在膈肌下方或肝周空间。为了便于人工智能（AI）模型预测，我们将每个患者的整个轴向切片从上到下分为20个部分。例如，如果一个患者有100个轴向切片，那么从顶部开始的前五个连续切片被分配到第一个段中。然后，我们计算了每个段中所有切片的敏感性和特异性，如图4所示。此外，还测量了每个段中包含游离气（FA）的切片的频率。最后，通过将每个段中的FA频率与其准确性相乘来计算每个段的加权准确性。这个值被视为该段代表性的指标。补充数字内容表1（可访问地址：https://links.lww.com/JS9/H423）展示了根据腹部段划分的FA分布频率和检测结果。在验证数据集中表现出较高加权准确性的段4、5、6、7和8被认为是所有切片的代表。然后，基于AI的模型被用于评估图像中相应区域的FA存在情况以及患者级别的分析。图4显示了腹部分割和轴向CT切片中游离气（FA）分布的频率表示。为了评估FA-NET和FA-NET-NT的分布和诊断性能，将腹部从顶部到底部分为20个相等的段。该图展示了每个段中FA注释的频率，以及内部验证集中各段的敏感性、特异性和加权准确性。段4至8显示出最高的加权准确性和FA频率，因此被选为模型评估的代表段。对于FA-NET-NT的逐患者分析，评估了24名患有溃疡穿孔和FA的患者（内部验证测试组）、215名患者的颞部外部验证组以及237名患者的外部验证数据集中的CT图像。对于穿孔病例，真实值由手术发现确定；对于非穿孔病例，真实值由临床放射学诊断确定。在患者级别分析中，包含FA的图像数量被用作评估标准。最后，我们计算了接收者操作特征（AUROC）曲线以下的面积，以评估使用颞部外部验证数据集在不同Dice分数阈值下模型对FA分类的患者级别性能。Dice分数阈值用于将分割输出二值化，以确定单个像素被分类为FA的概率。尽管许多研究通常将阈值设置为0.5（这是计算二值化Dice分数的常见方法），但我们基于不同的Dice阈值计算了AUROC分数，以验证不同阈值下的患者级别AUROC分数。本研究的设计和报告遵循了STROCSS指南[18]。

为了评估模型的有效性，使用了三个定量指标：准确性、敏感性和特异性。这些指标可以在补充数字内容表2中找到（可访问地址：https://links.lww.com/JS9/H424）。统计分析使用scikit-learn（版本1.3.2）进行。

FA-NET和FA-NET-NT在代表性段的图像级分析中的诊断性能显示，使用内部验证测试数据集，FA-NET和FA-NET-NT检测到的FA区域的平均Dice分数分别为0.87 ± 0.1和0.87 ± 0.11。在图像级测试中，FA-NET模型的敏感性分别为93%、特异性分别为91%和83%；FA-NET-NT的敏感性分别为81%和85%，特异性分别为99%和96%。表1显示了24名内部测试组患者的总体和代表性段的FA-Net & FA-NET-NT诊断性能。总体图像代表性段 FA-NET FA-NET-NT FA-NET FA-NET-NT 平均Dice分数a 0.87 ± 0.10 0.87 ± 0.11 0.87 ± 0.10 0.87 ± 0.10 敏感性 0.93 0.81 0.93 0.85 特异性 0.91 0.99 0.83 0.96 F1分数 0.86 0.88 0.92 0.90 真阳性 784 653 454 398 假阳性 190 15 42 11 真阴性 1868 2077 207 253 假阴性 59 156 32 73 a仅从真阳性图像计算得出。FA-Net还能够检测到含有少量FA的病例。补充数字内容图1（可访问地址：https://links.lww.com/JS9/H421）显示了每个切片的FA体积百分比与Dice分数之间的散点图。在FA体积在0.01%到1.0%之间的切片中，82.93%的切片显示出Dice分数为0.5或更高。

在逐患者分析中（颞部外部验证组和外部验证队列），测试了含有FA的图像数量对FA-NET-NT的敏感性和特异性（表2）。使用一张图像作为检测标准时，FA-NET-NT检测到患者CT图像中FA的敏感性为94.9%，特异性为69.9%；使用两张图像作为检测标准时，敏感性保持在94.9%，而特异性增加到80.1%；使用六张图像作为标准时，敏感性降低到79.5%，特异性增加到92.6%。选择两张FA阳性切片的阈值是基于最佳敏感性和特异性平衡。这个阈值也与临床期望一致，因为在连续多个切片中存在FA表明真正的腹腔积气。表2显示了根据215个颞部外部验证组代表性段中包含游离气的切片数量确定的诊断价值。向左或向右滚动查看整个表格。

在逐患者评估中，FA-NET-NT在内部验证组的FA检测敏感性为96%，在颞部外部验证组的溃疡穿孔患者中同样表现出95%的敏感性（表3）。在其他没有FA的腹部疾病中，它在胆囊炎和阑尾炎（均为92%）以及胰腺炎（82%）中显示出高特异性，但在肠梗阻（62%）中的特异性稍低。在逐患者分析中比较这两种AI模型时，FA-NET-NT在非FA病例中的特异性明显优于FA-NET，同时在溃疡穿孔病例中保持相似的敏感性。表3显示了FA-Net-NT在有两个游离气切片的条件下的诊断性能。

为了进一步评估FA-NET-NT的泛化能力和鲁棒性，我们使用了来自独立机构的数据集进行了额外的外部验证。在逐患者分析中，FA-NET-NT在外部数据集上展示了出色的诊断性能，检测溃疡穿孔的敏感性达到了95%。值得注意的是，该模型在不同鉴别诊断中保持高特异性：胆囊炎为88%，胰腺炎为88%，胆囊炎为88%，肠梗阻为80%（表3）。AUROC是在不同的Dice阈值范围内计算的（范围从0.01到0.99）。接收者操作特征（ROC）曲线显示在补充数字内容图2中（可访问地址：https://links.lww.com/JS9/H422）。FA-NET-NT在颞部外部验证组中检测FA患者的AUROC为0.912，而FA-NET在同一组中的AUROC为0.890。这表明所提出的FA-NET-NT模型可以从颞部外部验证组中检测到FA患者，这可以在现实世界的急诊室环境中有效用于促进高效的分诊并通过及时的手术干预改善患者预后。

FA-NET-NT在内部验证组中的敏感性为96%，在颞部外部验证组的溃疡穿孔患者中也有同样高的敏感性（95%）。在其他没有FA的腹部疾病中，它在胆囊炎和阑尾炎中显示出高特异性（分别为92%和92%），但在肠梗阻中的特异性稍低（62%）。当比较这两种AI模型在逐患者分析中的表现时，FA-NET-NT在非FA病例中的特异性显著优于FA-NET，同时在溃疡穿孔病例中保持相似的敏感性。表3显示了FA-Net-NT在有两个游离气切片的条件下的诊断性能。

为了进一步评估FA-NET-NT的泛化能力和鲁棒性，我们使用来自独立机构的数据集进行了额外的外部验证。在逐患者分析中，FA-NET-NT在外部数据集上展示了出色的诊断性能，检测溃疡穿孔的敏感性达到了95%。值得注意的是，该模型在各种鉴别诊断中保持了高特异性：胆囊炎为88%，胰腺炎为88%，胆囊炎为88%，肠梗阻为80%（表3）。一旦在代表性切片中检测到腹膜气肿（FA），患者就可以被归类为FA阳性，这需要进一步的评估或临床管理。然而，要将患者归类为FA阳性所需的CT切片数量并没有统一的定义。这个阈值可能会根据患者的临床症状和怀疑程度而有所不同。尝试使用传统方法来确定一个通用的统计临界值可能会导致敏感性不理想地降低，甚至可能低于90%。因此，本研究没有进行ROC曲线分析和临界值的确定。我们优先考虑保持至少90%的敏感性，即使这会导致整体准确率的轻微下降。因此，我们基于在两个代表性CT切片中检测到FA的标准报告了时间相关性验证结果。这个标准可以根据临床情况灵活应用。例如，当FA-NET或FA-NET-NT模型用于协助外科医生实时解读CT图像时，应优先考虑更高的敏感性，以指导及时的手术决策。相反，当该模型用于无需医生直接监督的筛查目的时，则应在敏感性和特异性之间保持适当的平衡，以便实际应用。与主要关注X光图像的以往研究不同，我们的研究利用大规模的CT数据集来精确显示腹膜气肿区域[19–21]。从外科角度来看，FA-NET-NT的临床价值在于它作为一个决策支持系统的作用。在急诊科，特别是在专家放射科医生支援可能延迟的非工作时间，快速检测腹膜气肿对于及时的手术干预至关重要。我们的模型能够突出CT片段中的可疑区域，可以帮助住院医生或非外科医生更快地进行分诊决策。通过提供“第二双眼睛”，FA-NET-NT有助于减少错过微妙气腹的风险，从而可能通过早期诊断改善患者的治疗结果。尽管有这些优势，FA-Net仍存在一些局限性。首先，尽管我们通过引入另一机构的外部验证队列显著提高了模型的泛化能力，但最初的模型开发是使用单个中心的数据回顾性进行的。虽然我们的结果在不同CT制造商和协议中表现出一致性，但人群特定特征对模型性能的影响仍需进一步研究。其次，尽管负训练提高了特异性，但该模型偶尔会在复杂解剖区域附近误分类腔内气体。第三，当前研究没有与经过认证的放射科医生的诊断性能进行直接比较。然而，由于研究设计是回顾性的，这种影响并不显著。所有患者组的CT扫描都被解释为是否有腹膜气肿。未来的研究应该关注比较试验，以便以前瞻性的方式量化该工具在现实工作流程中的附加值。此外，大型语言模型（如ChatGPT）没有用于模型开发的任何部分、训练、注释或临床评估过程中。所有分割任务、模型训练和数据分析都是使用专门针对基于图像的医学数据优化的传统深度学习架构进行的。尽管大型语言模型在医学应用（如放射学报告生成、临床决策支持和自然语言总结）方面显示出巨大的潜力，但它们目前在像素级任务（包括CT图像中的腹膜气肿分割）上的应用仍然有限。最后，当前模型没有结合器官分割或解剖学先验信息，这可能会提高其对病理性和生理性气体的区分能力。

结论
我们开发并验证了FA-NET-NT，这是一个用于通过检测腹部CT中的腹膜气肿来支持外科决策的深度学习模型。负训练的整合显著提高了模型的特异性，其稳健的性能通过独立的外部验证得到了证实。其明确的临床优势，以及抵消假阳性发现的能力，仍有待通过前瞻性比较试验来证明。未来的研究应集中在多中心前瞻性验证和与放射科医生的直接比较上，以将该工具全面整合到急诊外科工作流程中，作为一个可靠的决策支持系统。

联系信箱：

粤ICP备09063491号

热点排行