
-
生物通官微
陪你抓住生命科技
跳动的脉搏
评估多模态大语言模型(LLM)和自定义卷积神经网络在牙齿龋齿检测与定位方面的诊断性能
《BMC Oral Health》:Assessing diagnostic performance of multimodal LLMs and a custom convolutional neural network in tooth-level caries detection and localization
【字体: 大 中 小 】 时间:2026年05月23日 来源:BMC Oral Health 3.1
编辑推荐:
摘要背景人工智能通过自动化图像解读正在重塑牙科诊断方式。虽然卷积神经网络(CNN)通过领域特定训练展现出高准确性,但像ChatGPT-4o和Gemini 2.5 Flash这样的多模态大型语言模型(LLM)最近在不进行任务特定微调的情况下也具备了视觉推理能力。目的本研究比较了这些
人工智能通过自动化图像解读正在重塑牙科诊断方式。虽然卷积神经网络(CNN)通过领域特定训练展现出高准确性,但像ChatGPT-4o和Gemini 2.5 Flash这样的多模态大型语言模型(LLM)最近在不进行任务特定微调的情况下也具备了视觉推理能力。
本研究比较了这些LLM与定制的CNN在检测和定位口腔内图像中的龋齿方面的诊断性能。
这项横断面诊断准确性研究使用了22张咬合面视角的口腔内图像。ChatGPT-4o、Gemini 2.5 Flash和基于YOLOv5s的CNN分别对这些图像进行了龋齿检测和定位分析。定量评估使用了准确性、敏感性、特异性、精确度、阳性预测值(PPV)、阴性预测值(NPV)和F1分数来评估龋齿检测情况。模型间的差异通过McNemar检验进行分析。此外,还由专业牙医进行了描述性定性评估,他们使用3点李克特量表对每个模型的输出在真实性、诊断准确性、边界框精确度以及无多余注释方面进行了评分。
CNN取得了最高的诊断准确性(97.2%)、敏感性(86.7%)和F1分数(88.0%)。Gemini 2.5 Flash在敏感性(76.4% vs 66.2%)和F1分数(74.3% vs 68.7%)方面优于ChatGPT-4o。总体而言,CNN的性能显著更优(p < 0.001),而两种LLM之间没有显著差异(p = 0.541)。在定性评估中,CNN在真实性(90.9%)、龋齿检测准确性(79.5%)和边界框精确度(93.1%)方面表现最佳。
与多模态LLM相比,CNN在龋齿定位方面具有更高的准确性。然而,LLM在生成临床可解释的诊断摘要方面展现出潜力。将基于CNN的检测与LLM驱动的推理相结合的混合系统可能有助于提升决策效率并改进牙科诊断工作流程。
人工智能通过自动化图像解读正在重塑牙科诊断方式。虽然卷积神经网络(CNN)通过领域特定训练展现出高准确性,但像ChatGPT-4o和Gemini 2.5 Flash这样的多模态大型语言模型(LLM)最近在不进行任务特定微调的情况下也具备了视觉推理能力。
本研究比较了这些LLM与定制的CNN在检测和定位口腔内图像中的龋齿方面的诊断性能。
这项横断面诊断准确性研究使用了22张咬合面视角的口腔内图像。ChatGPT-4o、Gemini 2.5 Flash和基于YOLOv5s的CNN分别对这些图像进行了龋齿检测和定位分析。定量评估使用了准确性、敏感性、特异性、精确度、阳性预测值(PPV)、阴性预测值(NPV)和F1分数来评估龋齿检测情况。模型间的差异通过McNemar检验进行分析。此外,还由专业牙医进行了描述性定性评估,他们使用3点李克特量表对每个模型的输出在真实性、诊断准确性、边界框精确度以及无多余注释方面进行了评分。
CNN取得了最高的诊断准确性(97.2%)、敏感性(86.7%)和F1分数(88.0%)。Gemini 2.5 Flash在敏感性(76.4% vs 66.2%)和F1分数(74.3% vs 68.7%)方面优于ChatGPT-4o。总体而言,CNN的性能显著更优(p < 0.001),而两种LLM之间没有显著差异(p = 0.541)。在定性评估中,CNN在真实性(90.9%)、龋齿检测准确性(79.5%)和边界框精确度(93.1%)方面表现最佳。
与多模态LLM相比,CNN在龋齿定位方面具有更高的准确性。然而,LLM在生成临床可解释的诊断摘要方面展现出潜力。将基于CNN的检测与LLM驱动的推理相结合的混合系统可能有助于提升决策效率并改进牙科诊断工作流程。
生物通微信公众号