
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于人工智能的GPT-4o诊断评估在 maxillary periapical X 光片中对冠折检测的应用:提示细节和个性化设置的影响
《BMC Oral Health》:AI-based diagnostic evaluation of GPT-4o for crown-fracture detection on maxillary periapical radiographs: effects of prompt detail and customization
【字体: 大 中 小 】 时间:2026年05月10日 来源:BMC Oral Health 3.1
编辑推荐:
摘要 背景/目的 人工智能(AI)和大型语言模型(LLMs)正在迅速应用于牙科影像工作中。我们对GPT-4o在根尖X光片上检测牙冠骨折的能力进行了诊断评估,并研究了提示的详细程度和定制化(基于提示的;无需微调)对仅在阳性数据集中的性能的影响。
人工智能(AI)和大型语言模型(LLMs)正在迅速应用于牙科影像工作中。我们对GPT-4o在根尖X光片上检测牙冠骨折的能力进行了诊断评估,并研究了提示的详细程度和定制化(基于提示的;无需微调)对仅在阳性数据集中的性能的影响。
在这项单中心、回顾性研究中,90张具有至少一处牙冠骨折的匿名上颌根尖X光片由标准版GPT-4o(GPT-4o)和定制版GPT-4o(CGPT-4o)进行了评估。两种版本均通过商业接口进行访问(无需API参数控制)。定制是通过带有任务指令和上下文示例的专用GPT实现的;未对模型参数进行微调。使用了两种不同的提示:详细提示(DP)和简短提示(SP)。评估了四个不同测试组(GPT-4o + DP、GPT-4o + SP、CGPT-4o + DP、CGPT-4o + SP)在根尖X光片上检测牙冠骨折的性能。每个组在5次独立运行中评估了90张X光片,总共获得了1800个结果。这三个儿科牙医根据序数评分标准(0 = 错误,1 = 部分正确,2 = 正确)对结果进行了评分。参考标准是这些专家的盲法、独立评估结果及他们的共识。使用比例优势混合模型分析了模型和提示对更高序数正确率的主效应和交互效应,并对X光片(及运行次数)进行了随机截距调整,同时考虑了骨折等级(G1–G3)的影响。
分析显示,模型和提示的主效应及交互效应均具有统计学意义。具体来说,CGPT-4o产生的序数正确率高于GPT-4o,且详细提示相比简短提示能提高序数正确率。模型与提示之间存在显著的交互效应,表明正确率取决于特定的模型-提示组合。在四种组合中,使用简短提示的GPT-4o的正确率最低,而其他三种组合之间没有观察到显著差异。
GPT-4o的牙冠骨折检测性能受到提示设计和定制化的显著影响。特别是对于简短提示,定制化显著提高了检测性能,而在标准GPT-4o中使用详细提示则进一步提升了几何正确率。这些发现表明,在牙科创伤学中,以任务为导向的配置和提示工程至关重要。该数据集仅包含来自单一中心的阳性病例,并且局限于上颌前部区域。因此,我们使用了序数(0–1–2)的定位结果;无法估计特异性和ROC-AUC值,且外部有效性(泛化能力)有限。