综述：人工智能在肺炎中的应用：诊断与预后预测

《Current Pulmonology Reports》：Artificial Intelligence Applications in Pneumonia: Diagnosis and Outcome Prediction

【字体：大中小】 时间：2026年05月10日 来源：Current Pulmonology Reports 1

编辑推荐：

　　**摘要** **综述目的** 本综述探讨了人工智能（AI）在肺炎诊断和预后预测中的当前应用。旨在突出AI技术的进步，重点关注基于影像学和电子健康记录的方法，以及它们对提高诊断准确性和预测临床结果的影响。 **最新发现** AI系统既能诊断肺炎，又能预测疾病严重程度、

　　**摘要**

**综述目的**
本综述探讨了人工智能（AI）在肺炎诊断和预后预测中的当前应用。旨在突出AI技术的进步，重点关注基于影像学和电子健康记录的方法，以及它们对提高诊断准确性和预测临床结果的影响。

**最新发现**
AI系统既能诊断肺炎，又能预测疾病严重程度、死亡率以及其他关键结果，如住院时间和再入院风险。这些工具整合了多种数据来源，包括人口统计数据、实验室指标和生命体征，以增强临床决策能力。最新的基于神经网络的成像模型在从胸部X光和CT扫描中检测肺炎方面表现出高准确性，在某些情况下甚至超过了人类放射科医生的表现。然而，仍存在一些挑战，包括肺炎标记的一致性、数据质量问题以及模型在不同医疗环境中的局限性。

**结论**
AI在改善肺炎诊断和患者预后方面具有巨大潜力，但仍面临数据偏见、模型可解释性和标准化等挑战。需要继续研究以解决这些限制并优化AI在临床实践中的整合。

---

**引言**
肺炎是一种急性下呼吸道感染，仍然是全球重要的健康负担[1]。根据世界卫生组织（WHO）的数据，肺炎每年导致超过250万人死亡，其中低收入和中等收入国家的负担最重[2]。全球肺炎发病率估计每年超过1亿例，尤其是对幼儿、老年人和免疫系统受损的人群影响尤为严重[3]。及时准确的诊断和预后预测对于降低死亡率和发病率至关重要。然而，传统的诊断方法往往难以迅速提供可靠的结果[4]。

几十年来，临床判断和放射影像学检查一直是肺炎检测的基石。但这些方法存在显著局限性。放射学解读高度依赖放射科医生的专业技能，由于图像质量的变化、人为误差以及区分肺炎与其他肺部疾病（如慢性阻塞性肺病（COPD）或肺水肿）的复杂性，这一过程可能具有挑战性[5, 6]。此外，仅依靠临床判断容易受到主观因素的影响，还可能受到医生经验、患者合并症和临床表现的影响[7]。此外，由于实验室检测（特别是微生物培养）所需时间较长，诊断延误可能导致患者预后不佳，尤其是在重症病例中[8]。

在肺炎预后预测方面，目前最常用的方法是评分系统，如肺炎严重程度指数（PSI）和CURB-65[9, 10]。一些其他评分系统，如序贯器官功能衰竭评估（SOFA）和急性生理与慢性健康评估（APACHE）III，最初是为危重病等临床状况的风险分层设计的，有时也用于肺炎的风险分层和预后预测[11, 12]。这些现有评分系统没有考虑到临床特征之间的复杂相互作用或实际临床数据中的非线性风险模式。它们往往只能反映静态的临床情况，无法捕捉患者临床过程中的动态变化，从而导致对不良预后的识别延迟。更准确的肺炎预后预测有助于进行精确的风险分层，从而合理分配临床资源，并提前识别可能的病情恶化情况，便于进行进一步的诊断和治疗调整。

**人工智能（AI）在肺炎诊断和预后预测中的应用**
人工智能（AI），特别是机器学习（ML）和深度学习（DL）模型，已成为解决传统诊断和预后方法不足的有希望的工具[13]。AI是一个广泛的概念，指的是使机器能够执行通常需要人类智能的任务的计算方法；机器学习（ML）是AI的一个子集，其中算法从数据中学习模式以进行预测或决策（例如逻辑回归[LR]、随机森林[RF]和极值梯度提升[XGBoost]）。深度学习（DL）是ML的进一步子集，使用多层神经网络来建模高维数据（如医学图像和临床文本）中的复杂关系（例如卷积神经网络[CNN]和循环神经网络[RNN]）。近年来，AI在医疗领域的应用显著增长[14]。此外，集成和分析大规模数据集的能力使得肺炎诊断和预后预测更加全面和个性化。这些工具可以帮助在早期阶段发现肺炎，预测疾病进展，并支持临床医生制定基于证据的治疗策略。

本综述旨在探讨基于AI的肺炎诊断和预后预测工具的最新进展，包括基于影像学和电子健康记录的方法，以及它们对提高诊断准确性和预测临床结果的影响。

**肺炎诊断中AI的应用**
利用AI在肺炎诊断方面展现出显著潜力。肺炎的诊断通常基于多种因素，包括临床症状、医学影像数据、实验室结果和生命体征。

**利用电子健康记录数据进行肺炎诊断**
电子健康记录（EHR）中的临床数据涵盖了广泛的患者信息，包括病史、实验室结果和医生笔记，是ML模型的重要数据来源[15]。基于EHR的AI工具通常分析结构化数据（如实验室结果、生命体征）和非结构化数据（如医生笔记），以识别肺炎的迹象。在英国进行的一项研究[16]中，使用EHR数据（如患者特征、医疗管理和抗生素处方、实验室检测）比较了分类和回归树（CART）以及LR模型来预测社区获得性肺炎（CAP），在验证队列中的接收者操作特征曲线下面积（AUROC）达到0.80。Heyman等人[17]开发了一种新的深度学习模型CareNet，将患者分类为心力衰竭、COPD加重和肺炎，AUROC达到0.87。Effah等人[18]也使用LR和其他七个ML模型根据人口统计信息、生理参数（如心动过速、气管分泌物、平均动脉压等）和血液学参数（如C反应蛋白、前降钙素、白细胞计数等）来预测肺炎。在八个模型中，RF和极端梯度提升（XGBoost）的准确性最高，RF在内部验证集的准确率为92.0%，在外部验证集的准确率为88.6%。Dai等人[19]比较了RF、LR和梯度提升分类器在基于临床实验室指标区分COVID-19和CAP方面的性能，使用RF分类器或梯度提升分类器的AUROC高达1.0[19]。

**表1** 描述了相关研究的更多细节。

**结论**
没有一种单一的建模方法在所有临床背景、结果和数据集中始终表现出最佳性能；每项研究都指出不同算法具有不同的AUROC。这表明单个算法的性能取决于具体情境，可能受到样本大小、特征维度、结果普遍性和验证策略等因素的影响。一些研究显示集成方法（如XGBoost或RF）表现优异[18, 20]，而其他研究则展示了LR[16]或基于神经网络的方法[21,22,23,24,25]的类似区分能力。此外，在所有关于肺炎诊断的文献中，前降钙素是最常报告的顶级预测因子。这一发现并不令人惊讶，因为前降钙素已被用于区分病毒性和细菌性肺炎[26]，尽管指南建议不要单独使用它作为诊断工具，但它有助于调整抗生素使用[27]。研究还确定了C反应蛋白、白蛋白与球蛋白比、尿酸、白细胞计数、中性粒细胞计数、嗜碱性粒细胞计数、红细胞计数和平均红细胞血红蛋白浓度等作为次要但具有临床意义的因素。虽然这些特征的相对排名和效应大小因队列特征、结果定义和建模方法而异，但它们一再与改善的区分能力和校准相关联。

使用EHR数据进行肺炎诊断的一个主要优势是可以利用实时患者数据持续更新和优化AI模型。随着时间的推移，这些模型可以学习和适应，为个别患者提供更准确的预测。然而，仍存在挑战，如确保EHR数据的质量和完整性，以及解决数据碎片化或不同医疗系统之间的不一致性问题[28]。尽管如此，基于EHR的AI工具在补充影像学技术方面具有巨大潜力，可以提高临床环境中肺炎诊断的速度和准确性。

**利用影像学数据进行肺炎诊断**
除了使用EHR数据外，还利用ML和DL模型基于不同的成像模式进行肺炎诊断，这是一个令人印象深刻的研究领域。放射组学模型也越来越被用于基于影像学的诊断。放射组学是由Lambin等人于2012年提出的概念[29]，其中可以从医学图像中提取特征信息；然后可以使用这些数据训练特定任务的模型。研究中提到的一些突出放射组学特征包括基于形状的特征、灰度依赖矩阵特征、灰度大小区域矩阵特征和灰度差异矩阵特征。CNN也常用于包括医学图像在内的成像任务，其在放射学中有着重要应用[30]。CNN在图像分类等任务中特别有效，可以在无需手动特征提取或人工监督的情况下自动识别图像中的模式和特征[31]。在肺炎诊断的背景下，CNN会在大量标注的医学图像数据集（如胸部X光或CT扫描）上进行训练，以识别与肺炎相关的特定特征，如肺实变、浸润或胸腔积液。CNN通过多层处理图像，每一层负责从原始图像数据中提取越来越复杂的特征。初始层可能检测到简单的边缘或纹理，而更深层次的层则识别更复杂的模式，如肺异常的形状。

**基于胸部X光的诊断**
在基于CXR的诊断中，一个与放射科医生相似准确率的突出DL模型是CheXneXt[21]。这个CNN模型能够检测出多种不同的肺部病理情况，包括肺炎，其表现与放射科医生的水平相当（模型的AUROC值为0.851，而放射科医生的AUROC值为0.823）。这项研究在证明CNN在胸部X光（CXR）诊断中的实用性方面起到了关键作用，并对其他研究产生了影响。例如，2025年的一项研究[22]指出了像CheXneXt这样的深度学习（DL）模型的一个缺点，即缺乏透明度和可解释性，并开发了一个新的DL模型来克服这些弱点。该模型采用了集成梯度（Integrated Gradients）技术，使得图像的解释性得到提升，准确率达到了97.2%。集成梯度技术用于评估图像中每个区域对最终模型分类的贡献程度。许多最近的研究都致力于使用新的方法来提高机器学习（ML）模型的性能。另一项研究[32]通过结合EfficientNet和DenseNet两种不同的机制，使CNN模型的准确率达到了95.2%。实际上，2025年发表的15项研究的元分析显示了人工智能（AI）算法在肺炎检测中的巨大潜力；肺炎诊断的汇总敏感度和特异性分别达到了88%和90%[33]。还有一些研究关注医学报告的自然语言处理（NLP）模型；2023年的一项研究[34]分析了六种NLP模型的准确性，其中包括词嵌入（word embedding）、支持向量机（SVM）、XGBoost、轻量级梯度提升（light gradient boosting）和朴素贝叶斯（Naive Bayes），其中朴素贝叶斯模型的敏感性最高，达到了93.5%。其他AI模型不仅能够基于CXR诊断肺炎，还能区分肺炎与其他肺部疾病。Han等人[35]报告了一个基于CNN的模型，可以区分活动性肺结核（CAP）和健康肺。还有一些研究探讨了该模型在现实生活中的适用性和可用性。Dominguez-Rodriguez等人[23]将CNN模型与儿科医生评估CXR的结果进行了比较，发现该模型的敏感性为90.9%。随后，他们对使用该模型的三名住院医生进行了研究，发现使用该模型时医生之间的共识更高。

虽然目前的研究主要集中在CXR上，但AI模型在利用CT扫描诊断肺炎方面也表现出了良好的性能。Yang等人[36]和Jiang等人[20]利用基于放射组学的模型从CT扫描中提取特征，以诊断严重的CAP，获得了0.85左右的AUROC值。他们提出了一种名为PneumoniaPlus的新DL算法[37]，这是首批能够区分病毒性、细菌性和真菌性肺炎的模型之一，其表现与放射科医生相当。此外，在2020年COVID-19大流行的高峰期，Ouyang等人[38]展示了双采样注意力网络（dual-sampling attention network）的能力，该网络通过训练两个独立的3D ResNet34机制并整合它们的预测结果，能够以0.94的AUROC值区分COVID-19和CAP。为了进一步提高ML模型的性能，2023年的一项研究[24]采用了三级优化方法，该模型在检测COVID-19肺炎时的F1分数为91.8%，在其他类型肺炎检测中的F1分数为92.4%，优于之前的6个模型[39,40,41,42,43,44]。

尽管CT扫描和CXR是AI模型用于肺炎诊断的成熟领域，但利用超声波成像进行肺炎诊断是AI和影像学诊断研究中一个正在发展的方向。Kessler等人[25]使用CNN网络通过检测超声波图像中的实变来诊断肺炎，其敏感性为88%，特异性为89%。尽管取得了显著进展，AI模型在区分肺炎与其他疾病时仍面临挑战。图像质量的变化、合并症的存在以及疾病的不同的阶段都会影响AI预测的准确性。此外，虽然AI能够识别图像中的模式，但它仍然依赖于完整的数据集和外部临床数据来进行明确诊断。虽然目前还没有ML模型获得FDA批准，可以基于临床数据用于肺炎的诊断，但有一些模型可用于成像方式，例如Exo Iris超声波来检测肺实变[45]。AI的应用正在迅速发展，随着时间的推移，这些模型的实施可能会变得更加广泛，未来还将探索更多新方法。2024年的一项研究[46]探讨了使用ML模型和多孔铂铜合金来提取血浆代谢指纹以诊断严重的CAP。ML模型与肺炎诊断的结合将继续成为一个令人兴奋且充满活力的研究领域。

AI在预测肺炎患者预后方面也显示出潜力，这对于优化治疗策略、资源分配和改善患者护理至关重要。近年来，越来越多的研究致力于将AI应用于肺炎预后预测，旨在捕捉临床特征的复杂相互作用，以实现比现有评分系统更高的预测准确性。通过分析各种数据输入，AI模型可以帮助医生预测疾病严重程度、死亡风险以及其他重要结果，如住院时间或再入院风险。这些预测不仅有助于临床决策，还能帮助为肺炎患者制定个性化的治疗计划。自2020年以来发表的主要文章中，有许多涉及使用AI模型进行肺炎预后预测的总结，详见表2。

在各项研究中，基于树的方法（如梯度提升和随机森林）是最常用的肺炎预后预测算法[47,48,49,50,51]。这些方法往往优于传统的统计模型（如逻辑回归），因为它们能够捕捉高维临床数据集中的非线性关系和复杂特征交互。已发表的研究表明，基于树的模型在死亡率预测方面的AUROC值通常在0.80–0.90之间[50,51,52,53,54,55,56]，而逻辑回归模型的表现相当或略低。神经网络架构 también 已经被研究，尤其是在结合影像数据时，尽管它们相对于集成树方法的优势并不一致。因此，梯度提升和随机森林仍然是当前肺炎预后预测模型中最广泛采用的方法。

多项研究还使用特征重要性排序（feature importance ranking）或SHAP（Shapley Additive Explanations）分析来评估模型可解释性，以确定对预后影响最大的预测因子。常见的预测因子包括高龄、生理不稳定性的标志（如体温、呼吸频率和收缩压）、肾功能指标（如血尿素氮和肌酐）、身体应激的实验室指标（如乳酸和pH值），以及合并症（如慢性肺病和心血管疾病）[49, 50, 52,53,54]。Feng等人[54]在他们的模型中考虑了抗生素类型，这些因素根据特征权重分析被确定为重要指标。这些发现与已建立的肺炎严重程度评分系统基本一致，表明AI模型通常能够识别出临床上可行的预测因子，并通过利用变量间的额外交互来提高预测性能。

死亡率是AI算法试图预测的最常见的结果指标。已经开发出ML模型来预测短期（例如30天内）和院内死亡率。大多数研究集中在CAP上，这可能是因为其早期临床特征更为一致，且已有成熟的风险分层工具可用于评估模型性能。模型构建中常用的临床特征包括人口统计学（年龄、性别）、合并症、生命体征、实验室结果和治疗。不同的研究以不同的方式选择感兴趣的临床特征。一些研究基于初步分析选择输入变量（如逻辑回归[57]），而另一些则参考现有的临床评分系统（如PSI、APACHE III等）[47, 49]。也有一些研究在死亡率预测模型中考虑了CXR结果[58, 59]。大多数实现的算法包括梯度提升和随机森林，有些研究评估了集成模型的性能。AI模型的AUROC值范围从0.69到0.92不等[52, 59]。它们可以为医生在疾病早期提供死亡风险的预测估计，从而指导治疗决策，例如是否升级护理、使用生命支持干预措施，甚至讨论姑息治疗。AI模型可以与已建立的临床评分系统（如CURB-65或PSI）相结合，以提高预测准确性。这些评分系统被广泛用于评估死亡风险，但AI模型可以通过整合更复杂的数据模式并提供实时、个性化的预测来增强其效用。许多论文将他们的结果与CURB-65和PSI进行了直接比较，显示出0.04–0.40的改进范围[47,48,49,50, 57,58,59,60]，尽管需要注意的是，这些论文可能只发布了或报告了优于这些经典评分系统的结果。

AI模型还致力于预测肺炎的严重程度，这一指标通常通过住院、入住ICU、呼吸衰竭、需要高级呼吸支持（如高流量补充氧疗、无创通气或机械通气）来表征。基于AI的预测模型可以整合多种输入特征来预测这些严重结果的发生概率[48,49,50,52]。Kang等人[48]利用急诊科收集的电子健康记录（EHR）数据和放射图像来预测CAP患者的ICU入住和30天内死亡的综合结果，他们的随机森林模型在预测这一综合结果方面表现出色，AUROC值高达0.84，而CURB-65的AUROC值为0.62。Odeyemi等人[49]研究了已住院的CAP患者，使用住院前六小时的EHR数据来预测是否需要高级呼吸支持或死亡。他们的梯度提升机器模型的AUROC值为0.71，优于PSI（0.65）和CURB-65（0.62）。最近，使用大型语言模型（LLMs）的研究开始涌现，包括结合放射报告的结果[61]，显示出AI模型在处理更复杂的早期临床数据时超越现有预测工具的潜力。

除了预测严重程度和死亡率外，一些研究还开始使用AI模型来预测住院时间（LOS）和再入院率。预测LOS对于管理医院资源至关重要，因为它有助于出院计划和容量管理，特别是在重症监护单元等高需求环境中。Sheu等人[62]实施了多模型数据分析来预测肺炎状态，该模型依次检查患者的生命体征和CXR以评估特定日期的肺炎状态。通过这种方法，他们实现了75%的准确率来预测早期出院（<7天）与晚期出院（>7天）。类似地，基于历史患者数据训练的AI模型可以预测肺炎发作后的再入院概率。Huang等人[63]使用基于EHR数据的SVM预测肺炎患者的30天全因再入院率。通过分析年龄、性别、药物数量、住院时间、合并症数量和总住院费用，该模型的准确率为83.95%。还有一些研究尝试使用AI方法预测肺炎患者的30天再入院率，但总体预测精度较低[64]。再入院风险通常与治疗不完全、过早出院或存在并发症等因素有关。通过预测再入院风险，AI可以帮助医生制定个性化的出院计划和出院后的随访，从而减少再入院的可能性并改善患者的长期结果。

总体而言，AI通过提供及时、数据驱动的见解来了解疾病严重程度、死亡风险和其他重要结果，可以增强决策过程，确保资源得到高效分配。随着人工智能的不断发展，其整合多种数据源并提供个性化预测的能力将成为改善肺炎患者护理和管理的宝贵工具。尽管人工智能在肺炎诊断和结果预测方面的潜力巨大，但仍需解决若干挑战和限制，以确保这些技术在临床环境中的安全、有效和公平应用。主要挑战包括数据质量和偏见、模型泛化能力、可解释性和可解释性以及监管和伦理方面的问题。

多项研究报告了极高的AUROC值，在某些情况下接近完美性能。例如，Effah等人[18]报告XGBoost的AUROC为0.97，Rabbah等人[22]报告的验证结果为0.995，Feng等人[54]报告的AUROC为0.975。然而，应对这些结果时应持谨慎态度，因为它们可能反映了方法学问题，如过拟合、数据泄露以及样本量小且代表性不足的问题。一些研究的样本量较小，例如Meng等人[46]（n=69）、Kessler等人[25]（n=107）和Yang等人[36]（n=174）。

很少有研究提供校准和决策曲线分析等关键指标，只有Sun等人[16]、Zhao等人[53]和Kim等人[59]报告了明确的校准结果，而Jiang等人[20]则报告了清晰的决策曲线分析。此外，大多数研究都是回顾性研究，前瞻性研究非常少；其中Kessler等人[25]是最明确的前瞻性研究，他们招募了疑似下呼吸道感染的儿科患者；Dominguez-Rodriguez等人[23]进行了一项前瞻性试点测试。虽然回顾性研究可以提供重要见解，但前瞻性研究对于减少潜在偏见和混杂因素具有价值。评估这些不同模型时还需考虑其他关键因素，例如外部验证的存在，这通常可以验证结果的可重复性。大多数研究是单中心研究[32, 36, 48, 55]，而Jones等人[47]通过涵盖退伍军人事务医疗系统的117个站点而脱颖而出。

开发用于肺炎诊断和结果预测的人工智能模型的主要挑战之一是确保用于训练这些模型的数据的质量和代表性[65]。如果训练数据质量较差或包含错误，模型的性能将受到影响。例如，不完整或不一致的医疗记录、患者病史数据缺失或实验室数值错误都可能导致预测不准确[66]。许多研究关于数据收集过程和数据来源的信息有限，这引发了关于可重复性和偏见的担忧。此外，数据中的偏见会显著影响模型的结果，特别是当某些群体（如种族或少数民族、农村人口或代表性不足的年龄组）在训练数据集中占比较低时[67]。这可能导致这些群体的AI模型表现不佳，加剧现有的医疗差异，从而导致不公平的医疗服务。

开发用于肺炎诊断和结果预测的人工智能模型的另一个根本性挑战是肺炎的标记和分类方式存在不一致性和模糊性。即使在随机对照试验的诊断标准中也是如此[68]。肺炎的症状、严重程度和放射学表现范围广泛，使其诊断具有主观性，且在不同医疗提供者之间有时会不一致。临床医生可能使用不同的标准来诊断肺炎，目前没有统一的疾病定义标准，这可能导致标记的变异性，尤其是在轻度或早期肺炎的情况下[68]。许多研究依赖于行政代码[17, 34, 69]，这些代码存在编码错误和敏感性波动的问题。这种标记不一致性对训练AI模型构成了重大挑战，因为它们需要清晰、标准化的标签才能准确学习。

目前，绝大多数关于肺炎诊断和结果预测的已发表研究都是单中心回顾性研究，且缺乏良好的外部验证，模型部署也较少[70]。在一个医院或医疗系统中训练的模型在另一个具有不同患者群体、护理方案或数据系统的机构中可能表现不佳。成像技术、实验室检测方法和临床实践的差异都可能影响模型在新环境中的准确预测能力。此外，电子健康记录系统（EHR）和数据格式的差异也会阻碍模型有效整合和处理数据的能力。为解决这一问题，AI模型必须在多个机构和患者群体中进行严格验证，以确保它们能够良好泛化，并无论应用于何处都能提供一致、可靠的结果。

成人肺炎自然语言处理（NLP）领域的文献仍以基于放射学报告的诊断[71]和病例识别[72, 73]为主，针对监测和早期检测的应用研究较少。虽然有一些初步尝试使用入院文本数据[74]或结合结构化数据通过集成模型来预测结果[75]，但成果有限。鉴于大型语言模型的临床应用正在兴起，这是一个未来工作的激动人心领域。

将AI整合到医疗保健中引发了一些必须仔细考虑的监管和伦理问题。人工智能在医学中的批准和使用的监管框架仍在发展中，许多国家缺乏标准化指南来确保基于AI工具的安全性、有效性和隐私保护。特别是，使用患者数据进行AI模型训练必须遵守严格的隐私法规，例如美国的《健康保险流通与责任法案》（HIPAA）或欧洲的《通用数据保护条例》（GDPR）。此外，在实际临床应用之前，AI模型必须经过严格的临床验证，以确保其安全性和有效性。伦理方面的担忧还包括AI可能替代人类决策，从而减少临床医生的作用或导致过度依赖技术。至关重要的是，应将AI视为辅助工具，而不是替代人类判断的手段，且其使用不应损害医患关系或自主决策。

尽管模型表现令人期待，但要成功实现临床转化，仍需仔细考虑监管、技术和人为因素。用于肺炎诊断和预后的AI工具可能属于FDA软件作为医疗设备的范畴，因此需要严格的验证、文档记录和持续的部署后监测。在实际应用中，这些模型可以集成到临床工作流程中，作为实时警报、决策支持工具或嵌入电子健康记录（EHR）中的筛查系统。然而，由于与EHR系统的互操作性、临床医生的信任度和可解释性需求以及模型设计不当或未在真实环境中进行验证可能导致警报疲劳等问题，实施仍然具有挑战性。总体而言，大多数肺炎相关模型仍处于初步开发阶段，尚未经过前瞻性或实际部署测试，这凸显了模型开发与实际应用之间的显著差距。

尽管AI在肺炎诊断和结果预测方面具有巨大潜力，但仍需解决这些挑战和限制，以确保其成功整合到医疗保健中。克服数据质量和偏见问题、提高模型泛化能力、确保可解释性以及解决监管和伦理问题对于实现AI在临床实践中的广泛应用、公平性和安全性至关重要。通过关注这些挑战，研究人员、临床医生和政策制定者可以共同努力，充分发挥AI在改善患者护理和结果方面的潜力。

**结论**

AI正在不断改变肺炎诊断和预后的格局，提供快速、准确且基于数据的见解，从而增强临床决策。本综述强调了AI应用的广泛性——从利用卷积神经网络的基于图像的诊断工具到整合电子健康记录（EHR）、实验室数据和病历的多模态预后模型。关于AI在肺炎诊断和预后中的应用有很多令人兴奋的前景。许多机器学习（ML）模型已经展现出利用影像学和临床数据诊断肺炎的高精确度和准确性，两者的结合进一步提升了准确性。未来的研究需要进一步验证这些模型，并使其能够在临床环境中日常使用。一些研究已经尝试评估其实际适用性[23]，未来的研究需要继续探讨不同模型在现实生活中的可用性，特别是那些整合多模态数据的模型。

**关键参考文献**

- Domínguez-Rodríguez S, Liz-López H, Panizo-LLedot A, 等 (2023) 测试用于儿科肺炎诊断的人工智能模型的性能、充分性和适用性。《计算方法与生物医学程序》242:107765
○ 这个基于CNN的模型用于区分CAP（社区获得性肺炎）和COVID-19，涵盖了超过6,000张胸部X光片，并进行了前瞻性试点测试。除了报告0.79的AUROC值外，作者还通过评估使用该模型作为决策支持的医务人员比不使用该模型的医务人员具有更好的评分者间一致性来评估其实际适用性。

- Kessler D, Zhu M, Gregory CR, 等 (2024) 开发并测试了一种利用手持超声检测儿童肺炎的深度学习算法。《PLoS One》19:e0309109
○ 这是回顾文献中少数几个前瞻性的多中心肺炎AI研究之一。作者开发了一种基于视觉几何组的CNN架构，用于检测儿科患者的超声影像中的肺实变，以出院诊断和影像确认作为参考标准。通过对117例进行检查，生成604个阳性样本和589个阴性样本，该模型的准确率达到88.5%。

- Pan J, Guo T, Kong H, Bu W, Shao M, Geng Z (2025) 使用机器学习预测重症社区获得性肺炎患者的死亡风险。《科学报告》15:1–15
○ 这项双中心研究比较了逻辑回归（LR）、随机森林（RF）、XGBoost、LightGBM和SVM在重症CAP患者住院死亡率预测中的表现，以APACHE II作为对照标准。LightGBM模型的AUROC为0.842（95%置信区间0.757–0.927），优于APACHE II。该研究值得注意的是进行了外部验证（开发队列n=455，外部验证n=120），并发布了一个基于Web的模型应用程序——这是少数几个进行临床实施的预后研究之一。

- Rabbah J, Ridouani M, Hassouni L. 通过高精度CNN胸部X光图像分类和集成梯度改进肺炎诊断。《生物医学信号处理与控制》2025;101:107239
○ 该研究使用基于Inception V3架构的CNN模型，训练了5,856张图像以区分肺炎、COVID-19和正常胸部X光片，在测试集上的AUROC为0.96，在验证集上的AUROC为0.99。除了性能外，该研究还通过整合梯度归因方法明确解决了深度学习中的可解释性问题，突出了预测所依赖的图像区域。

- Essa ME. 人工智能在胸部X光片中对肺炎和肺癌的诊断准确性：一项荟萃分析。《欧洲放射学开放杂志》2025;15:100701
○ 这项荟萃分析涵盖了15项研究和大约12,000张胸部X光片，提供了AI肺炎检测性能的汇总估计（敏感性88%，特异性90%）。它通过建立 population-level 绩效基准，为个别研究提供了定量总结，便于比较。

热点排行