《Biomedical Signal Processing and Control》:High-quality synthetic image with ACFD-GAN for enhanced diabetic retinopathy grading
编辑推荐:
糖尿病视网膜病变(DR)分级因数据集严重不平衡影响模型性能,本文提出ACFD-GAN通过轻量级密集残差块(LRDB)提取多级局部特征,自适应跨层特征融合(ACFF)模块动态整合浅层细节与深层语义特征,结合自适应调制模块(AMM)增强纹理细节与结构一致性。实验证明,该模型能有效缓解数据不平衡并提升DR分级模型分类性能。
作者:杨洲玲(Yangzhouling Ou)、朱俊煌(Joon-Huang Chuah)、丁华农(Hua-Nong Ting)、萨希尔-尼(Shier-Nee Saw)、赵俊(Jun Zhao)
所属机构:马来西亚马来亚大学工程学院电气工程系,邮编50603,吉隆坡,马来西亚
摘要
糖尿病视网膜病变(DR)的分级对于早期诊断和治疗至关重要,但DR数据集中严重的类别不平衡会降低分级的准确性并影响分类性能。尽管基于深度学习的医学图像合成技术已被广泛采用来解决这一问题,现有方法仍难以捕捉关键病变特征之间的关联并保留细微的病理细节,导致生成的图像与真实病理情况不符。为克服这些限制,本文提出了一种自适应跨层融合与密集生成对抗网络(ACFD-GAN)来合成逼真的DR图像,并将其用于DR分级。具体而言,我们开发了一种轻量级残差密集块(LRDB),以有效捕捉和整合局部多层次特征,同时减少计算开销。为了增强编码器与解码器之间的信息交流,我们设计了一种自适应跨层特征融合(ACFF)模块,该模块基于空间和通道注意力动态加权并整合浅层细节特征与深层语义特征,强化与关键病变区域的空间和语义关联,同时防止细节信息的丢失。此外,我们利用从潜在空间采样的空间连续潜在向量,并结合随机噪声,通过自适应调制模块(AMM)对融合特征进行自适应调整,从而生成更具多样性和全局一致性的图像。通过加权移动平均模型选择,我们将生成的图像应用于APTOS 2019和Messidor数据集进行DR分级。实验结果表明,所提出的模型能够利用有限的训练数据合成高质量的DR图像,并且利用ACFD-GAN生成的图像可以显著提升分类器的性能。
引言
糖尿病视网膜病变(DR)是糖尿病的一种不可逆并发症,如果未能及时发现和治疗,可能导致失明[1][2]。因此,早期诊断和干预至关重要。DR的诊断通常依赖于对视网膜病变的评估,如微动脉瘤(MA)、出血(HE)、软性渗出物(SE)和硬性渗出物(EX)。国际指南将DR分为五个阶段,如图1所示:无DR、轻度非增殖性DR(NPDR)、中度NPDR、重度NPDR和增殖性DR(PDR)[3][4]。在DR的早期阶段,尤其是轻度和中度NPDR,适当的干预措施有可能降低进展为PDR导致的视力丧失风险。相比之下,重度NPDR和PDR可能已经造成不可逆的视网膜损伤。然而,眼科医生进行的手动DR分级既具有挑战性又耗时。因此,能够自动分析眼底照片的计算机辅助诊断系统可以帮助临床医生快速高效地进行DR评估[5][6][7]。
深度学习的最新进展产生了许多自动DR分级模型,其性能优于传统的机器学习方法[8][9][10]。然而,开发高效且高精度的DR分级系统通常需要大规模、多样化且平衡的数据集。目前公开可用的DR数据集往往存在严重的类别不平衡,尤其是在重度疾病类别中。在这些不平衡的数据集上进行模型训练会损害对异常样本的学习能力,导致过拟合和鲁棒性降低[11]。尽管传统的数据增强技术可以在一定程度上缓解类别不平衡问题,但它们产生的样本多样性往往有限。
图像合成是一种新颖、复杂且有效的数据增强技术。近年来,生成对抗网络(GANs)[12]的引入彻底改变了图像合成任务。通过将生成器和鉴别器置于对抗学习框架中,GANs能够学习潜在的数据分布,从而生成逼真且多样的样本。与传统方法相比,GANs在高质量图像生成方面表现出更优的性能。此外,条件GANs(CGANs)引入了条件变量来指导样本生成,从而解决了传统GANs中的模式崩溃问题,并实现了生成内容的可控性[13]。韩等人[14]开发了一个3D多条件GAN框架,用于合成肺部结节CT图像,以提高对象检测性能。马哈帕特拉等人[15]使用条件GAN生成具有多样化病理特征的胸部X光图像,有效解决了医学图像分析中的数据稀缺问题。然而,大多数现有的GAN框架仍依赖卷积神经网络(CNNs)进行特征提取和图像合成任务。虽然CNNs在通过卷积操作捕捉局部图像模式方面表现出色,但其有限的感受野扩展限制了全局上下文关系的建模,导致生成的图像缺乏整体一致性。此外,传统的基于CNN的生成器仅使用最深层的特征图进行合成,忽略了来自浅层和中间层的潜在有用信息。残差密集块(RDB)[16]通过密集连接、局部特征融合和残差学习来全面捕捉层次化的局部特征,同时保留关键特征信息。多项研究已将RDB架构与生成对抗网络(GANs)成功集成,以提高合成质量[17][18][19]。然而,传统的RDB设计继承了其标准密集块的基础计算强度。此外,大多数传统的CGAN架构依赖于编码器-解码器流程,在编码过程中高频细节常常丢失,解码过程中也无法完全恢复。尽管经典的Pix2Pix[20]模型使用跳跃连接将特征图从编码器传输到解码器,但其简单的串联方式忽略了特征之间的相关性,导致融合效果不佳。
为了解决这些限制,我们提出了一种自适应跨层融合与密集生成对抗网络(ACFD-GAN),用于从有限的标注数据集中合成逼真的DR眼底图像,以提高DR分级性能。具体而言,为了充分捕捉多层次的局部细节,模型引入了轻量级残差密集块(LRDB)模块,该模块保留了多个残差连接,促进层间特征交互,并通过逐元素加法融合局部多层次信息,从而减少计算开销。在解码器中,为了精确控制具有丰富且分布合理的病变细节的DR图像合成,我们设计了自适应跨层特征融合(ACFF)模块,该模块基于通道和空间注意力动态加权并整合来自不同编码器和解码器层的上下文信息,同时抑制背景冗余,使模型专注于关键细微病变及相关特征。我们实施了一种潜在空间调制策略,其中预训练的Wasserstein自动编码器(WAE)[21]嵌入通过自适应调制与输入特征空间对齐,这些嵌入富含目标图像的深度特征表示。然后,我们使用这些潜在向量和随机噪声通过自适应调制模块(AMM)指导像素级特征调整,以增强生成病变的纹理细节和结构真实性。基于Freshet Inception Distance(FID)优化的加权移动平均选择机制确保了用于DR分类任务的最高质量合成图像的部署。本工作的主要贡献如下:
(1) 我们提出了一种端到端的条件图像合成框架,以轻量级残差密集块(LRDB)作为编码器的核心特征提取模块。该架构实现了对局部层次特征的全面捕捉和整合,同时将计算开销降至最低。
(2) 开发了一种创新的自适应跨层特征融合(ACFF)模块,用于动态加权整合来自编码器-解码器层次的特征。通过协同利用空间和通道注意力机制,该模块增强了对关键病变特征的敏感性,并促进了分布合理的细微病变细节的生成。
(3) 我们结合预训练的Wasserstein自动编码器(WAE)和自适应调制模块(AMM),使用富含深度语义信息的随机噪声和潜在向量对跨层融合特征进行动态调制。这进一步增强了病变纹理的真实性,确保了全局结构的一致性和多样性。
(4) 使用加权移动平均算法对Freshet Inception Distance(FID)分数进行平滑处理,以选择最佳模型。选定的生成器的高质量输出增强了原始数据集,用于DR分级实验,结果表明这些合成图像有效缓解了标注有限的DR数据集中的类别不平衡问题。
方法论
本节详细介绍了我们研究中用于糖尿病视网膜病变图像生成和分级的综合架构,以及所提出的ACFD-GAN框架及其组成子模块。
实验与结果
本节详细介绍了使用的数据集、数据预处理、实验配置、所提出的ACFD-GAN生成模型的定性和定量分析、消融研究以及DR分级评估。
讨论
本研究严格证明了ACFD-GAN可以从有限的数据中学习,生成高保真度和多样性的DR图像。如图8和表4所示,LRDB和AMM模块显著增强了合成图像的细节保留、多样性和结构一致性,而ACFF模块促进了浅层和深层特征的充分融合,提高了对关键病变区域的敏感性,并保留了必要的病理信息。
结论
在本文中,我们介绍了ACFD-GAN,这是一种端到端的条件生成模型,用于合成高保真度的DR图像,并提出了一种新颖的模型选择机制,确保仅使用高质量的合成图像来增强有限的标注数据集,从而解决类别不平衡问题并提高分类器的性能。具体而言,LRDB模块使网络能够捕捉深层和细粒度特征,而ACFF模块有效地融合了浅层和深层特征。
作者贡献声明
强杨洲玲(Yangzhouling Ou):撰写——原始草稿、验证、软件实现、方法论设计、研究实施、概念化。
朱俊煌(Joon-Huang Chuah):撰写——审稿与编辑、监督。
丁华农(Hua-Nong Ting):撰写——审稿与编辑、监督。
萨希尔-尼(Shier-Nee Saw):撰写——审稿与编辑、监督。
赵俊(Jun Zhao):撰写——审稿与编辑、监督。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文的研究工作。
致谢
我们感谢马来西亚马来亚大学在Faculty Research Grant(授权号:RMF0488-2021)项目下对本研究的支持。