今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

评估多模态大语言模型(LLM)和自定义卷积神经网络在牙齿龋齿检测与定位方面的诊断性能

《BMC Oral Health》:Assessing diagnostic performance of multimodal LLMs and a custom convolutional neural network in tooth-level caries detection and localization

【字体: 大 中 小 】 时间:2026年05月23日 来源:BMC Oral Health 3.1

编辑推荐:

  摘要背景人工智能通过自动化图像解读正在重塑牙科诊断方式。虽然卷积神经网络(CNN)通过领域特定训练展现出高准确性,但像ChatGPT-4o和Gemini 2.5 Flash这样的多模态大型语言模型(LLM)最近在不进行任务特定微调的情况下也具备了视觉推理能力。目的本研究比较了这些

  

摘要

背景

人工智能通过自动化图像解读正在重塑牙科诊断方式。虽然卷积神经网络(CNN)通过领域特定训练展现出高准确性,但像ChatGPT-4o和Gemini 2.5 Flash这样的多模态大型语言模型(LLM)最近在不进行任务特定微调的情况下也具备了视觉推理能力。

目的

本研究比较了这些LLM与定制的CNN在检测和定位口腔内图像中的龋齿方面的诊断性能。

方法

这项横断面诊断准确性研究使用了22张咬合面视角的口腔内图像。ChatGPT-4o、Gemini 2.5 Flash和基于YOLOv5s的CNN分别对这些图像进行了龋齿检测和定位分析。定量评估使用了准确性、敏感性、特异性、精确度、阳性预测值(PPV)、阴性预测值(NPV)和F1分数来评估龋齿检测情况。模型间的差异通过McNemar检验进行分析。此外,还由专业牙医进行了描述性定性评估,他们使用3点李克特量表对每个模型的输出在真实性、诊断准确性、边界框精确度以及无多余注释方面进行了评分。

结果

CNN取得了最高的诊断准确性(97.2%)、敏感性(86.7%)和F1分数(88.0%)。Gemini 2.5 Flash在敏感性(76.4% vs 66.2%)和F1分数(74.3% vs 68.7%)方面优于ChatGPT-4o。总体而言,CNN的性能显著更优(p < 0.001),而两种LLM之间没有显著差异(p = 0.541)。在定性评估中,CNN在真实性(90.9%)、龋齿检测准确性(79.5%)和边界框精确度(93.1%)方面表现最佳。

结论

与多模态LLM相比,CNN在龋齿定位方面具有更高的准确性。然而,LLM在生成临床可解释的诊断摘要方面展现出潜力。将基于CNN的检测与LLM驱动的推理相结合的混合系统可能有助于提升决策效率并改进牙科诊断工作流程。

背景

人工智能通过自动化图像解读正在重塑牙科诊断方式。虽然卷积神经网络(CNN)通过领域特定训练展现出高准确性,但像ChatGPT-4o和Gemini 2.5 Flash这样的多模态大型语言模型(LLM)最近在不进行任务特定微调的情况下也具备了视觉推理能力。

目的

本研究比较了这些LLM与定制的CNN在检测和定位口腔内图像中的龋齿方面的诊断性能。

方法

这项横断面诊断准确性研究使用了22张咬合面视角的口腔内图像。ChatGPT-4o、Gemini 2.5 Flash和基于YOLOv5s的CNN分别对这些图像进行了龋齿检测和定位分析。定量评估使用了准确性、敏感性、特异性、精确度、阳性预测值(PPV)、阴性预测值(NPV)和F1分数来评估龋齿检测情况。模型间的差异通过McNemar检验进行分析。此外,还由专业牙医进行了描述性定性评估,他们使用3点李克特量表对每个模型的输出在真实性、诊断准确性、边界框精确度以及无多余注释方面进行了评分。

结果

CNN取得了最高的诊断准确性(97.2%)、敏感性(86.7%)和F1分数(88.0%)。Gemini 2.5 Flash在敏感性(76.4% vs 66.2%)和F1分数(74.3% vs 68.7%)方面优于ChatGPT-4o。总体而言,CNN的性能显著更优(p < 0.001),而两种LLM之间没有显著差异(p = 0.541)。在定性评估中,CNN在真实性(90.9%)、龋齿检测准确性(79.5%)和边界框精确度(93.1%)方面表现最佳。

结论

与多模态LLM相比,CNN在龋齿定位方面具有更高的准确性。然而,LLM在生成临床可解释的诊断摘要方面展现出潜力。将基于CNN的检测与LLM驱动的推理相结合的混合系统可能有助于提升决策效率并改进牙科诊断工作流程。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:准确诊断|多模态对比|口腔医学|机器学习|垂直评估|混合系统 (长度分析:摘要及文档内容核心聚焦于 AI 在牙科中的精准诊断应用差异、多模态模型与传统影像算法的具体比较实测数据|以及最终的混合系统整合方向)。

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号