基于Vision Transformer的髋部X线智能识别：骨质疏松筛查的新突破

《Bone Reports》：Intelligent identification of osteoporosis on hip X-rays using vision transformer

【字体：大中小】 时间：2026年01月18日 来源：Bone Reports 2.6

编辑推荐：

　　本研究针对骨质疏松早期筛查成本高、可及性差的问题，开发了基于Vision Transformer (ViT)的深度学习模型，用于髋部X线图像的三分类（骨量正常、骨量减少、骨质疏松）。结果表明，ViT模型在内部验证集准确率达97.0%，外部验证集达89.4%，显著优于传统CNN模型，为基层医疗机构提供了低成本、高效率的筛查工具。

随着人口老龄化加剧，骨质疏松已成为全球性的公共卫生问题。这种以骨量减少和骨微结构破坏为特征的全身性骨骼疾病，显著增加骨折风险，尤其髋部骨折被称为"人生最后一次骨折"，致残率和死亡率极高。中国50岁以上人群骨质疏松患病率男性达14.4%、女性达20.7%，预计到2035年，60岁以上人口将超过30%，骨质疏松发病率每年增长2.3%。这一日益加重的疾病负担对医疗卫生系统，特别是基层医疗机构提出了严峻挑战。

目前，双能X线吸收测定法(DXA)是诊断骨质疏松的金标准，但其高昂成本和专业技术要求限制了在社区和农村地区的可及性。相比之下，常规X线摄影广泛可用且价格低廉，非常适合初步筛查。然而，普通X线对早期骨丢失的敏感性有限，且高度依赖读片者经验，导致诊断准确性存在较大差异。

近年来，深度学习(DL)研究已证明从X线片评估骨质疏松的可行性，但大多数现有方法依赖于传统卷积神经网络(CNN)，且多专注于二分类或有限解剖部位。这些模型固有地偏向局部特征提取，可能难以捕捉不同骨密度状态下特征性的细微、空间分布的骨骼变化，特别是在髋部X线片上。Vision Transformers (ViTs)代表了一种根本不同的深度学习范式，将图像建模为补丁序列，通过自注意力机制显式学习全局空间关系。这一架构特性尤其适用于骨质疏松评估，因为临床有意义的线索来自股骨近端的分布模式而非局灶性异常。

尽管ViT在医学影像中的应用日益增多，但尚未有研究系统评估其在使用常规髋部X线图像进行多类骨状态分类的性能，也未在真实世界社区级筛查环境中进行验证。因此，关于ViT模型能否使用广泛可用的髋部X线片为骨质量三级分类（骨量正常、骨量减少和骨质疏松）提供更准确、稳健且临床实用的解决方案，仍存在明确的知识空白。

为此，安徽医科大学附属合肥医院的研究团队在《Bone Reports》上发表了一项研究，旨在开发和验证基于Vision Transformer的深度学习模型，用于使用常规髋部X线图像进行三分类骨状态分类（骨量正常、骨量减少和骨质疏松），并与代表性CNN方法比较其性能和泛化能力。

研究人员主要采用了以下关键技术方法：回顾性收集来自安徽医科大学附属合肥医院及其附属社区卫生服务中心的3016张髋部正位X线图像，并额外收集123张图像作为外部验证集；由经验丰富的放射科医生手动标注股骨近端感兴趣区域(ROI)，并进行标准化预处理和数据增强；使用在ImageNet上预训练的ViT-Base/16模型进行微调，并与ResNet50和InceptionV3进行对比；采用准确率、AUC（受试者工作特征曲线下面积）、敏感性、特异性等指标评估性能，并通过外部验证评估泛化能力。

3.1. 内部验证：分类性能

在内部验证集上，ViT模型的总体分类准确率达到97.26%，显著高于ResNet50(84.73%)和InceptionV3(79.42%)。ViT模型在骨量正常、骨量减少和骨质疏松三个类别上的分类准确率分别为99.09%、96.36%和95.98%，表现出优异的分类能力。

3.2. 内部验证：训练动态和模型收敛性

ViT模型表现出比CNN模型更快的收敛速度和更稳定的验证性能。训练曲线显示，ViT模型在训练过程中验证准确率始终保持在97%以上，而ResNet50和InceptionV3则表现出过拟合或性能波动的迹象。

3.3. 模型性能比较分析

ROC曲线分析显示，ViT模型在所有三个骨密度类别上均表现出一致的优异判别能力。其在骨量减少、骨质疏松和骨量正常类别上的AUC分别为0.995、0.996和1.000，均超过基线模型。DeLong检验证实，ViT与CNN模型之间的AUC差异具有统计学显著性(p<0.05)。

3.4. 混淆矩阵评估

混淆矩阵分析显示，所有模型的预测错误主要发生在骨量减少和骨质疏松类别之间，这与两者在影像学上表现相近、难以区分的特点相符。而ViT模型保持了更清晰的类别区分度，证明了其鲁棒性和诊断可靠性。

3.5. 外部验证：分类性能

在外部验证集上，ViT模型的总体分类准确率为89.43%，显著优于ResNet50(69.91%)和InceptionV3(72.35%)。尽管所有模型在外部验证集上的性能均有所下降，但ViT模型仍保持了相对较高的准确率，证明了其良好的泛化能力。

3.6. 外部验证：模型性能比较分析

在外部验证集上，ViT模型在骨量减少、骨质疏松和骨量正常类别上的AUC分别为0.917、0.965和0.984，均优于对比模型。由于外部验证集样本量相对有限，未进行正式的统计比较。

3.7. 外部验证：混淆矩阵评估

外部验证集的混淆矩阵显示，ViT模型在所有三个类别上均实现了最高的分类准确率，误分类最少，突出了其在外部数据上的卓越鲁棒性和泛化能力。

研究结论表明，基于Vision Transformer的深度学习模型在使用髋部X线图像进行骨矿物质密度分类方面表现出卓越性能，具有高准确性和泛化能力。与常规CNN方法相比，ViT模型在区分骨量减少和骨质疏松方面表现出明显优势，这归因于其能够通过自注意力机制有效捕捉骨骼的全局结构关系。该方法依赖于常规X线图像，为骨质疏松筛查提供了一种经济高效的工具，在初级保健机构的临床实施潜力巨大。

讨论部分进一步指出，本研究开发的ViT模型性能明显优于先前报道的深度学习研究。先前基于CNN的方法使用X线片通常报告中等诊断准确性，而本研究模型实现了持续的高准确率和特异性，包括对骨量正常类别的完美特异性，支持其鲁棒性和适用于社区级骨质疏松筛查。尽管存在某些局限性，如训练仅使用髋部正位X线片、样本量中等、未纳入非影像临床因素等，但本研究证明了ViT架构在建模全局骨骼结构方面的互补优势，支持其在资源有限环境中进行可扩展且经济高效的骨质疏松筛查的潜力。

这项研究的成功实施，标志着人工智能在骨质疏松筛查领域取得了重要进展，为解决基层医疗机构筛查资源不足的问题提供了切实可行的技术方案。基于ViT的深度学习模型不仅能够提高筛查效率，降低医疗成本，还有助于早期发现和管理骨质疏松患者，从而有效预防骨折等严重并发症的发生，对改善公众骨骼健康具有重要意义。

热点排行

新闻专题