《Journal of Clinical Medicine》:MidFusionEfficientV2: Improving Ophthalmic Diagnosis with Mid-Level RGB–LBP Fusion and SE Attention
Julide Kurt Keles,
Soner Kiziloluk,
Eser Sert,
Furkan Talo and
Muhammed Yildirim
编辑推荐:
针对眼部疾病自动诊断准确度不足的问题,研究人员开展了一项基于深度学习混合模型的研究。他们提出了MidFusionEfficientV2模型,该模型在中间层(Mid-Fusion)融合了EfficientNetV2-S提取的RGB全局特征与Local Binary Pattern (LBP)变换提取的局部纹理特征,并引入Squeeze-and-Excitation (SE)注意力机制增强纹理分支。在Mendeley Data平台的眼部疾病五分类数据集上,该模型实现了98%的整体准确率,在难诊断的葡萄膜炎(Uveitis)类别上分别获得97%的召回率和94%的F1分数,结果表明颜色与纹理特征的有效融合显著提升了分类性能,为自动诊断提供了可靠方案。
眼睛是心灵的窗户,但像葡萄膜炎、结膜炎、白内障、眼睑下垂这类疾病,却可能在不经意间侵蚀这扇窗的明亮。全球有数百万人受其困扰。这些疾病如果能够早期诊断、及时干预,可以极大地改善患者生活质量,降低失明风险。然而,传统的临床检查与图像分析方法,不仅速度慢、成本高,其准确度也严重依赖于医生的个人经验。在医疗资源相对匮乏的地区,这种依赖成为了诊疗的巨大瓶颈。近年来,人工智能与深度学习在医学影像分析领域展现了巨大潜力,成为应对这一挑战的有效工具。但主流的基于卷积神经网络的方法大多依赖于图像的色彩和位置信息,而医学图像中蕴含的复杂组织纹理信息,在诊断过程中其实扮演着关键角色。如何有效地融合颜色与纹理这两种互补信息,构建一个既高效又精准的自动化诊断模型,是当前研究面临的一个关键问题。一项发表于《Journal of Clinical Medicine》的研究,为我们提供了一个新颖的解决方案。
为了开展这项研究,研究人员主要应用了以下几项关键技术方法:首先,他们构建了一个名为MidFusionEfficientV2的双分支混合模型架构。该架构的一个分支使用在ImageNet上预训练的EfficientNetV2-S网络处理原始的RGB彩色图像,以提取全局的语义和颜色特征。另一个分支则专门处理经过局部二值模式变换的图像,这个LBP分支是一个定制的卷积神经网络,内部集成了SE注意力模块,用以强化对纹理特征的提取和选择。两个分支提取到的特征会在网络中间层进行融合,然后送入分类器。研究使用的数据集来源于Mendeley Data平台,是一个包含2298张JPEG图像的五分类眼部疾病数据集,涵盖了正常、葡萄膜炎、结膜炎、白内障和眼睑下垂五种状态,每个类别的图像都基于该疾病特有的视觉特征和症状确定。
研究结果
模型性能优越:在Mendeley Data平台的五分类眼部疾病数据集上进行的实验研究表明,提出的MidFusionEfficientV2模型在整体分类准确率上达到了98%,优于参与对比的ResNetV2、ConvNeXt、DenseNet-121、EfficientNet-B1、MobileNetV3 Large和EfficientNetV2-S等六个强大的基线模型。这证明了所提出的混合架构的有效性。
在疑难类别上表现突出:特别是在临床诊断中较为困难的葡萄膜炎类别上,模型取得了令人瞩目的97%的召回率和94%的F1分数。这表明模型通过融合LBP纹理特征,增强了对该类疾病表面不规则和炎症迹象等细微纹理模式的识别能力,有效降低了漏诊率。
消融实验验证组件有效性:通过消融实验分析,研究人员验证了模型中各个组件的贡献。单独使用RGB分支(即基础的EfficientNetV2-S模型)或LBP分支,其性能均低于融合模型。此外,在LBP分支中引入SE注意力块,能够通过通道级的注意力机制使提取的纹理特征更具区分度,从而进一步提升了模型的分类性能。这证实了颜色与纹理特征融合的必要性,以及SE模块在增强纹理表征方面的作用。
对比分析突显融合优势:与仅基于RGB图像的EfficientNetV2-S模型以及其他先进的CNN模型相比,MidFusionEfficientV2展现出了显著的性能提升。这从实践角度证明,在医学图像分类任务中,传统RGB模型所忽略的纹理信息(如组织表面的不规则性、皮肤图案等)是极具价值的诊断线索,与颜色信息的适度融合能带来分类精度的实质性飞跃。
结论与讨论
本研究的核心结论是,通过一个创新的中层双分支融合架构,将来自RGB图像的全局颜色特征与来自LBP变换的局部纹理特征进行协同处理,能够显著提升眼部疾病自动分类的准确性和鲁棒性。所开发的MidFusionEfficientV2模型成功地将高效的EfficientNetV2-S骨干网络、专门用于纹理分析的LBP子网络以及增强特征选择的SE注意力模块整合在一起,形成了一种强大的混合解决方案。
这项研究的重要意义在于多个方面。首先,在方法论上,它提出并验证了“中层特征融合”结合“专门化纹理处理分支”的设计理念,为医学图像分析,特别是那些纹理信息至关重要的诊断任务(如皮肤病、病理切片分析等),提供了新的模型构建思路。其次,在临床应用上,该模型高达98%的准确率以及对葡萄膜炎等疑难病症的高召回率,证明了其作为临床决策支持系统的潜在可靠性,有助于缓解医疗资源不均地区的诊断压力,推动眼疾的早期筛查和自动化诊断。最后,研究强调了在深度学习模型中超越单纯的颜色信息,主动融合并强化纹理等形态学特征的重要性,这对未来开发更精准、可解释性更强的医疗AI模型具有指导意义。