用于眼科图像分割的Vision Transformer（ViT）：一种方法学框架并与U-Net的比较分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：Vision transformer for ophthalmic image segmentation: A methodological framework and comparative analysis with u-net

【字体：大中小】 时间：2026年06月07日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　自动化视网膜病变分割对于可实现规模化诊断危及视力的疾病具有重要临床意义。研究人员提出了一种方法学框架，用于在RFMiD（Retinal Fundus Multi-Disease）数据集上比较Vision Transformer（ViT）与U-Net架构用于眼科

自动化视网膜病变分割对于可实现规模化诊断危及视力的疾病具有重要临床意义。研究人员提出了一种方法学框架，用于在RFMiD（Retinal Fundus Multi-Disease）数据集上比较Vision Transformer（ViT）与U-Net架构用于眼科图像分割的性能。该框架建立了涵盖多个性能维度的综合评估方案：精确率–召回率（Precision-Recall）特性、错误模式分析、置信度校准（confidence calibration）以及按病例难度分层评价。研究人员提出了一种基于合成（synthesis-based）的估计流程，用以参照全局自注意力机制（global self-attention）的架构优势来预测可能的性能提升。框架表明Transformer架构如何克服卷积方法在视网膜图像长程依赖（long-range dependency）表示方面的固有局限。初步预测提示了增强困难病例及小结构分割的方向。本研究提供了可复现的比较方法论，并确定了需实证验证的关键方向，为后续基于Transformer的眼科分割研究奠定基础。

该研究发表于《Biomedical Signal Processing and Control》，围绕眼科图像自动分割这一关键问题展开。当前背景下，卷积神经网络（CNN，Convolutional Neural Network）尤其是U-Net已成为生物医学图像分割的主流基准，其在刻画局部空间层次与纹理方面表现良好，但受限于卷积核感受野的局部性，难以捕捉全眼底范围内的长程交互与上下文关系，而这对弥漫性病变及解剖上下文理解至关重要。Vision Transformer（ViT）借助自注意力机制（self-attention）可建模全局上下文，在医学影像中诊断特征常依赖于远端结构关联，但ViT在眼科精细像素级分割中的系统评估仍不足，且缺乏与U-Net在眼科图像上的专门端到端对比分析。为此，研究人员开展了一项方法学框架研究，在RFMiD（Retinal Fundus Multi-Disease）数据集上对标准U-Net基线与新ViT架构进行多维度比较，以明确Transformer全局建模在眼科分割中的实际增益、误差特性、置信校准及按难度分层的表现差异，为架构选型提供循证依据。

研究人员采用的主要关键技术方法如下：使用RFMiD数据集（包含3200幅视网膜眼底图像及出血、渗出、微动脉瘤、玻璃膜疣等病变标注），所有图像标准化为512×512像素并做z-score归一化，训练时采用随机旋转（±15°）、水平/垂直翻转、亮度/对比度扰动（±20%）作数据增强；数据按病理类型分层抽样划分为训练集70%、验证集15%、测试集15%；基线为经典U-Net（编码器四下采样块，每块两个3×3卷积+批归一化（Batch Normalization）+ReLU+2×2最大池化，解码器对称使用转置卷积上采样并带跳跃连接（skip connection），输出1×1卷积+sigmoid），损失为Dice损失与二值交叉熵（Binary Cross-Entropy，BCE）加权组合（L_U-Net=0.7×Dice_loss+0.3×BCE）；ViT架构将图像划分为16×16非重叠patch并线性投影为768维嵌入，加可学习位置编码（positional encoding），核心为12层Transformer编码器（多头自注意力（Multi-head Self-Attention，MHSA）12头，前馈网络用GELU激活与层归一化（Layer Normalization）），分割解码器为轻量CNN，用转置卷积上采样重建原分辨率，ViT初始化ImageNet-21k预训练权重后在RFMiD上微调，同损失函数与优化策略，训练50轮；评估指标包括Dice系数（F1分数）、精确率（Precision）、召回率（Recall）、交并比（IoU，Intersection over Union），并从精确率–召回率曲线、错误模式（假阳性FP、假阴性FN、边界误差）、按病例难度（Easy/Medium/Hard）与基线性能四分位数分层、置信校准、累积平均精度、成功率随精度阈值变化、改进幅度分布等多角度进行分析，同时给出参数规模、FLOPs、内存、训练/推理时间的理论复杂度对比，并规划超参数寻优范围与消融实验设计。

研究结果如下：

2.
Methodology：研究人员通过建立统一预处理流水线与分层数据划分，分别实现标准U-Net与ViT分割架构，并定义相同损失（加权Dice+BCE）、优化策略及一套多维评估协议，为后续公平比较提供方法学框架。
3.
Results and discussion：研究人员从定量、统计、错误分析、稳定性及定性多角度展开。

3.1. Comprehensive performance analysis and statistical validation：研究人员通过精确率–召回率曲线发现ViT点云整体向右上角偏移，即在同等召回下精确率更高；聚合指标显示ViT的Dice系数与精确率明显提升，召回基本持平；四项指标（Dice、Precision、Recall、IoU）均正向增长；统计检验表明精确率提升具有显著性（p=1.00–4为原文笔误，意指置信区间完全高于零参考线），证明改进非随机波动。

3.2. Error analysis and performance stratification：研究人员分析错误分布发现ViT大幅降低假阳性（FP）、略增假阴性（FN），趋向更保守、精确率优先的策略；边界误差两者相近；按临床难度分层（Easy/Medium/Hard）显示ViT在各层均提升，Hard病例精确率提升最显著；按基线U-Net性能四分位数（Q1–Q4）分层，最低四分位（Q1，原模型最差者）获益最大，说明ViT对困难病例更有效，高四分位仍有提升但呈边际递减。

3.3. Performance dynamics, stability, and reliability assessment：研究人员通过验证集上平滑后的精确率与召回率曲线发现ViT精确率稳定更高且召回降解极小；累积平均精度曲线显示各子集大小下ViT均占优，早期发散说明对高表现病例增益明显，整体平行上升说明全谱系受益；成功率随精度阈值（≥0.7、≥0.8等）提升ViT下降更慢，表明高置信预测更具临床可靠性；精度–收敛关系分析也支持上述结论。

3.4. Improvement quantification, training dynamics, and qualitative analysis：研究人员统计验证集上ViT相对U-Net的精确率提升直方图，均值约5.0%，右偏说明多数图像正增益；Dice与精确率提升分布均为正值，精确率提升中位数更大、离散度更高；散plot显示基线精度越低则改进幅度越大（负相关性），但各区间ViT最终Dice均维持较高水平；净效应为精确率明显提升、召回微降，加权总分正向；图像质量与改进幅度无简单线性关系，各质量层均可获益；训练动态上ViT损失下降与精度上升更快，渐近性能更高，训练/验证曲线平行且过拟合可控；定性可视化（输入、预测、金标准、置信度图）显示ViT预测与专家标注吻合较好，不确定边界对应困难区；极端案例分析给出最优（Dice≈0.743–0.787）与最差（Dice≈0.363–0.557）案例，最差多源于复杂病变或图像质量差；特征激活图显示ViT关注临床相关区域（病灶边界、病理结构）而非浅层纹理，证明学到解剖与病理语义表征；整体流程稳定性良好。

4.
Limitations and future work：研究人员指出ViT参数量（～86M）与计算（～140GFLOPs、内存～9–10GB）约为U-Net（～37M、～60GFLOPs、～4–5GB）的2.3倍，训练时间也更长（～12h vs ～5h/100轮），故临床部署前需模型压缩；关键超参数（学习率、损失权重、dropout率、patch size、Transformer层数、注意力头数等）需系统寻优；规划消融实验（预训练价值、位置编码必要性、头数/层数/嵌入维度精简、跳过连接、解码器复杂度、数据增强贡献）；计算缩放预估显示训练时间随数据集线性增长（2.5天/万图、25天/十万图）而推理时间恒定（～140ms），支持大规模筛查；未来工作包括实证训练、超参数优化、压缩、多中心测试。

结论部分翻译如下：该研究对Vision Transformer与U-Net架构在眼科图像分割中的性能进行了比较分析。改进后的Vision Transformer在最重要指标上取得具有统计学显著性的提升，其在精确率与临床相关阈值下的成功率方面优势更强。深入检查表明该模型能有效处理困难病例，错误模式向更少假阳性重新分布，且置信度校准良好。Transformer的全局上下文建模能力解决了卷积方法在医学影像中理解解剖关系的根本弱点，尽管计算需求带来部署考量，但性能增益证明探索高效Transformer变体用于临床的价值。本研究提供了基于Transformer的眼科分割详细基线，可为后续架构评审奠定基础。随着自动分割系统越来越多用于支持临床决策，对新架构进行全面循证评估对于保障其在医疗中的安全、有效、可扩展部署至关重要。

联系信箱：

粤ICP备09063491号

热点排行