Dental-QAD：基于推理的全景X光片质量评估与诊断系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年02月12日 来源：Displays 3.4

编辑推荐：

　　口腔全景放射学多模态大语言模型研究，提出Dental-QAD框架，通过专家双轨标注数据集与多粒度强化学习机制，实现图像质量评估与疾病诊断的联合优化，建立新基准并验证推理模型在临床场景的有效性。

王双清|季开远|郑玉硕|吴志翰|朱晓荣|陈子健|孙璐|王硕|张建波|张志成|朱向阳|田园|韩静|郝乐乐|陈志宇|刘建南

河北眼科医院修复科，中国河北054001

摘要

全景放射摄影是牙齿筛查的主要手段，准确的诊断依赖于图像质量。然而，当前的深度学习方法通常将这些任务分开处理，限制了临床信任所需的统一推理能力。为了解决这个问题，我们提出了Dental-QAD，这是一个用于联合质量评估和疾病诊断的统一多模态大型语言模型框架。我们通过构建一个包含专家注释的大规模数据集，并采用一种策略来合成诊断推理，从而弥补了推理数据的稀缺性。此外，为了使模型输出严格符合临床标准，我们引入了多粒度强化学习机制（通过群体相对策略优化），该机制同时优化了连续的质量分数和离散的诊断结果。我们的实验表明，Dental-QAD在质量相关性和准确性方面超过了现有的最先进模型，同时提供了可解释的推理能力，使其能够集成到临床工作流程中。

引言

口腔健康对日常福祉和生活质量至关重要，全景放射摄影因其能够高效地一次性捕捉整个牙槽区域而在常规牙齿筛查中得到广泛应用[1]。在临床实践中，对全景图像的可靠解读不仅依赖于病理学的检测，还依赖于确保获取的图像具有诊断价值，因为模糊、伪影以及定位或曝光问题可能会掩盖解剖结构并产生类似疾病的表现[2]。因此，临床医生通常需要在阅读图像时同时判断图像质量和识别异常，但这一结合过程耗时较长，并且由于经验和诊断偏好的差异，不同医生之间的判断结果可能有所不同[3]。这些挑战促使人们开发出一种自动化方法，该方法能够联合评估全景放射图像的质量并进行疾病诊断，从而提高临床筛查的效率和一致性[4]。尽管卷积神经网络（CNN）在牙齿成像领域取得了显著的成功，但现有的解决方案大多将图像质量评估（IQA）和诊断视为独立的任务[5]。这种分离忽视了临床实践中图像质量与诊断信心之间的内在关联。因此，仅针对诊断进行训练的模型可能会错误地将诸如伪影之类的欺骗性表现分类为疾病特征[6],[7],[8]。传统判别模型的不透明性进一步加剧了这一风险，因为这些系统仅提供最终标签，而不解释其背后的逻辑，导致放射科医生无法验证预测结果是基于真实的病理证据还是仅仅受到图像噪声的误导[9]。这种缺乏可解释性的问题构成了临床信任的关键障碍，因为区分技术质量缺陷和实际病理情况与检测本身一样重要。多模态大型语言模型（MLLM）的出现为克服这些限制提供了变革性的机会，主要是因为它们不仅限于纯粹的模式识别，还结合了强大的视觉理解和语言引导的推理[10]。与传统将图像直接映射到标签的判别网络不同，MLLM能够明确解释视觉证据，将观察结果组织成具有临床意义的描述，并以接近放射科医生决策方式的形式表达中间推理[11]。这种能力为将视觉感知与结构化推理结合起来提供了自然途径，使单一模型能够充当全面的辅助工具，首先检查图像质量，然后得出诊断结论。然而，将通用MLLM适配到这一专门的牙科领域仍然具有挑战性，主要是由于缺乏带有推理注释的数据[12],[13]。标准的临床数据集通常只提供最终的诊断标签（如牙周炎），但缺乏记录逐步诊断逻辑的清晰思维链（CoT）记录，而这些记录对于可靠地培养和评估模型的推理能力至关重要。为了弥合这一差距，我们基于Qwen2.5-VL-7B架构提出了一个统一框架，并在此基础上对MLLM进行了针对牙科全景放射图像分析的全面微调[14]。我们方法的核心是构建了一个由经验丰富的放射科医生精心注释的大规模数据集，为疾病诊断和IQA提供了严格的真实标签。在此基础上，我们进一步采用逻辑蒸馏策略，将这些诊断标签扩展为明确的CoT推理路径，从而通过监督微调（SFT）使模型学会可解释的诊断逻辑。然而，尽管SFT提高了推理的流畅性，但它并不能可靠地保证最终预测的正确性，尤其是在结合多标签分类进行诊断和连续回归进行质量评分的混合目标下。为了进一步使模型输出符合临床标准，我们引入了多粒度强化学习（RL）阶段。我们设计了一种包含两个互补组件的混合奖励机制：一个鼓励预测诊断结果在集合层面保持一致性的集合一致性奖励，以及一个严格限制预测质量分数与专家评分相匹配的分数精度奖励。这些设计共同使得模型不仅在逻辑上表达能力强，而且在临床上也非常准确。我们设想所提出的MLLM能够作为双阶段的临床辅助工具，集成到常规牙科放射学工作流程中。在图像获取后，该系统充当自动的质量把关者，识别出质量较低的图像，以便及时重新拍摄并减少患者召回率。对于诊断上可接受的图像，它作为第二读者的辅助工具，提供初步的诊断推理，帮助放射科医生验证观察结果，减轻疲劳带来的疏忽，并促进不同医生之间的一致性，同时通过符合既定诊断标准的可解释输出保持临床医生的核心作用。总结来说，我们的主要贡献如下： - 我们整理了一个配备了疾病诊断和IQA双轨注释的牙科全景放射图像数据集，该数据集由经验丰富的放射科医生精心标注，为多任务临床AI研究提供了坚实的基础。我们使用基于先验的逻辑蒸馏来合成诊断推理。 - 我们设计了一种多粒度强化学习机制，以解决同时实现多目标对齐的挑战。通过引入集合一致性和分数精度奖励，我们有效地使模型的输出符合离散多标签诊断和连续质量回归的临床标准。 - 我们通过严格评估现有最先进（SOTA）模型在这项任务上的表现，并训练了一个表现出色的专用MLLM，从而建立了全面的基准，验证了推理驱动模型在专门牙科领域中的潜力。

医学图像质量评估

IQA在临床工作中起着关键作用，确保放射图像符合诊断标准[15],[16]。传统方法依赖于手工制作的指标或基于CNN的回归器来根据伪影、对比度或定位误差预测标量质量分数[4],[17]。然而，将IQA视为一个独立的回归任务忽视了其与下游诊断之间的内在关联，简单的数值分数往往无法捕捉图像缺陷的语义细微差别[16]。

方法

数据集和评估协议

我们在专家注释的数据集上进行实验。数据被随机分为训练集、验证集和测试集，比例约为

\frac{7}{1:2}

。除非另有说明，否则我们报告的是三次独立运行（使用不同随机种子）的平均性能。

为了全面评估模型的性能，我们采用了特定的任务指标。对于基于回归的IQA，我们报告了Spearman等级相关系数（SRCC）和Pearson线性相关系数。

结论

在这项工作中，我们提出了Dental-QAD，这是一个将全景IQA与疾病诊断相结合的统一MLLM框架。通过利用基于先验的逻辑蒸馏和多粒度GRPO机制，我们有效地弥合了在数据稀缺条件下的视觉感知和临床推理之间的差距。广泛的实验表明，我们的方法建立了新的最佳性能，并在面对模拟采集的伪影时保持了鲁棒性，实现了更高的相关性。

伦理声明

本研究遵循赫尔辛基宣言进行，并得到了河北眼科医院医学伦理委员会的批准（编号2025 LW14）。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本工作得到了国家自然科学基金（编号62322114）和中国中央高校基本科研业务费（编号YG2023LC06）的支持。我们还要衷心感谢河北眼科医院、上海人工智能实验室、上海交通大学和上海第九人民医院为这项研究提供的材料和支持。这些资金来源参与了研究设计、数据收集和数据分析等方面。

联系信箱：

粤ICP备09063491号

摘要

引言

医学图像质量评估

方法

数据集和评估协议

结论

伦理声明

利益冲突声明

致谢

热点排行