基于MidFusionEfficientV2的眼部疾病自动诊断：一种融合纹理与色彩特征的深度学习新范式

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Clinical Medicine》：Alzheimer’s Disease: From Pathogenesis to Emerging Therapeutic Targets Tetsuya Takahashi and Kazuki Muguruma

【字体：大中小】 时间：2026年03月21日 来源：Journal of Clinical Medicine 2.9

编辑推荐：

　　为解决眼部疾病早期诊断对自动化、高精度辅助决策系统的迫切需求，研究人员开展了一项关于基于深度学习模型自动分类葡萄膜炎、结膜炎、白内障、眼睑下垂及正常眼部图像的研究。团队提出了一种名为MidFusionEfficientV2的新型混合模型，该模型巧妙结合了基于EfficientNetV2-S的RGB图像分支和基于局部二值模式（LBP）转换的纹理分支，并引入了挤压-激励（SE）注意力模块。实验结果表明，该模型在Mendeley五类眼部疾病数据集上达到了98%的分类准确率，特别是在难以诊断的葡萄膜炎类别中表现出色。该研究证明了颜色与纹理特征的中度融合可显著提升分类性能，为眼部疾病的自动、可靠诊断提供了一种高效解决方案。

眼睛是心灵的窗户，但全球仍有数以百万计的人正遭受着葡萄膜炎、结膜炎、白内障、眼睑下垂等眼部疾病的困扰。这些疾病如果不能得到及时的诊断与干预，将严重影响患者的视力，乃至生活质量。传统上，对这些眼部疾病的诊断高度依赖临床医生的人工检查，这通常意味着耗时、昂贵，并且其准确性与效率在很大程度上取决于医生的个人经验。在医疗资源有限的地区，这种矛盾尤为突出。随着人工智能（AI）技术的飞速发展，特别是深度学习（DL）在图像识别领域的巨大成功，为自动化、高效的医疗决策支持系统带来了曙光。然而，现有的基于卷积神经网络（CNN）的图像分析方法，大多侧重于从彩色（RGB）图像中提取全局的颜色和位置信息。医学图像中蕴含的复杂组织纹理特征，对于疾病诊断至关重要，但传统方法对此的捕捉能力有限。如何能构建一个模型，既能充分利用颜色信息，又能有效挖掘纹理细节，从而实现更精准、更可靠的眼部疾病自动分类，成为了一个亟待解决的科学问题。

为了回答这一问题，一篇发表在《Journal of Clinical Medicine》上的研究，提出了一种名为“MidFusionEfficientV2”的创新型深度学习混合模型，旨在对葡萄膜炎、结膜炎、白内障、眼睑下垂和正常眼部这五类情况进行高精度自动分类。

关键技术方法

研究人员利用从Mendeley Data平台获取的包含2298张JPEG图像的公开数据集开展研究。模型的核心架构是双分支的“中融合”设计。一个分支基于在ImageNet上预训练的EfficientNetV2-S模型，处理原始RGB图像以提取全局语义特征。另一个分支是专门设计的CNN子网络，用于处理经过局部二值模式（Local Binary Pattern, LBP）转换的图像，以提取关键的局部纹理特征。该LBP分支中集成了挤压-激励（Squeeze-and-Excitation, SE）注意力模块，以增强纹理特征的判别力。两个分支提取的特征在模型中间层（而非最终层）进行融合，然后送入分类器。通过采用差异化的学习率优化策略，对预训练的主干网络进行微调，同时对从零开始训练的纹理分支进行更积极的训练，从而高效地训练整个模型。

研究结果

模型性能评估

在五分类任务中，MidFusionEfficientV2模型的整体准确率达到了98%，显著优于作为对比的ResNetV2、ConvNeXt、DenseNet-121、EfficientNet-B1、MobileNetV3 Large和单独的EfficientNetV2-S等六个强基准模型。这表明融合纹理信息极大地提升了模型的分类能力。

针对葡萄膜炎的分类性能

在尤为棘手的葡萄膜炎类别上，模型取得了97%的召回率和94%的F1分数。这证明该模型能有效捕捉葡萄膜炎图像中因炎症引起的组织表面不规则性等细微纹理变化，解决了此类疾病难以通过传统RGB模型准确识别的问题。

消融实验与特征分析

实验进一步表明，单独的RGB分支或LBP分支的性能均低于融合模型。将LBP纹理特征与RGB色彩特征在模型中间层次进行融合，能够产生最佳的协同效应，证明了“中融合”策略和纹理信息补充的有效性。

结论与讨论

本研究成功开发并验证了MidFusionEfficientV2这一创新的眼部疾病自动诊断模型。其核心贡献在于创造性地构建了一个双分支架构，将先进的EfficientNetV2-S主干网络与专门设计的、集成SE注意力机制的LBP纹理分支相结合，实现了色彩与纹理信息在特征层面的互补与增强。

研究结论明确显示，在眼部疾病的图像分类中，单纯依赖颜色信息是不够的，组织纹理特征是至关重要的诊断依据。LBP技术能够有效数字化图像中的复杂纹理信息，而SE注意力机制可以进一步强化这些纹理特征的表达。MidFusionEfficientV2模型通过“中融合”策略，将两类信息有机整合，从而在保持高泛化能力的同时，实现了超越现有主流模型的分类精度，尤其是在诊断纹理特征明显的疾病（如葡萄膜炎）方面优势显著。

这项工作的意义深远。首先，它为解决医学图像分类中“重颜色、轻纹理”的普遍问题提供了一个行之有效的技术范式。其次，所提出的模型架构具有模块化和可扩展性，其融合纹理特征的思路可迁移至其他依赖医学影像（如皮肤镜、病理切片、X光片）的诊断任务中。最重要的是，该模型以98%的高准确率为自动化眼部疾病筛查和辅助诊断提供了可靠、高效的工具，有望在临床实践中减轻医生负担，在医疗资源匮乏地区提升诊疗可及性，最终为早期发现和治疗眼部疾病、保护患者视力健康做出实质性贡献。

联系信箱：

粤ICP备09063491号

热点排行