参数高效对比语言-图像预训练（CLIP）适配的超广角眼底图像少样本异常检测框架：面向临床筛查的高效解决方案

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Photodiagnosis and Photodynamic Therapy》：Parameter-Efficient Contrastive Language-Image Pre-training (CLIP) Adaptation for Few-Shot Anomaly Detection in Ultra-Widefield Fundus Images

【字体：大中小】 时间：2026年04月11日 来源：Photodiagnosis and Photodynamic Therapy 2.6

编辑推荐：

　　针对超广角眼底（UWF）筛查中标注数据稀缺、传统深度学习模型泛化性差的痛点，研究团队开发了基于CLIP的少样本异常检测框架。通过双路径检测机制、混合低秩适配器（HLRA）及泊松融合合成算法，仅用32对样本实现高效检测，在8个跨源数据集（29739张图像）中平均AUC达85.23%，为眼底疾病规模化筛查提供了低资源、高鲁棒性的临床转化方案。

眼睛是心灵的窗户，但当这扇窗户蒙上病变的阴霾，全球超过11亿视力受损人群中，有4300万陷入黑暗——而其中90%的病例本可通过早期干预预防。超广角眼底（UWF）成像凭借220°全景视野、免散瞳采集等优势，成为眼底疾病筛查的理想工具，却面临着“病例海啸”与“眼科医生短缺”的矛盾。传统深度学习模型虽在病灶分类任务中表现亮眼，却像“偏科生”：依赖大规模标注数据、遇到未见过的疾病类型就“水土不服”，还总被长尾分布的数据集难住。如何让AI在“少样本”条件下依然精准识别异常？视觉-语言模型（VLM）中的明星模型CLIP（对比语言-图像预训练）带来了新思路——它通过在4亿图像-文本对上的对比学习，拥有了零样本和少样本泛化的“超能力”。但直接把CLIP用在医学影像上，就像让习惯了自然风景画的画家去鉴定病理切片，难免“水土不服”。

为解决这一难题，来自四川大学的研究团队在《Photodiagnosis and Photodynamic Therapy》发表研究，提出了一种面向UWF图像的少样本异常检测框架。该框架就像给CLIP装上了“医学眼镜”：通过双路径检测机制融合文本引导的零样本分类与少样本记忆库匹配，用混合低秩适配器（HLRA）实现参数高效微调，再借助泊松融合合成算法扩充异常样本库。最终，仅用32对训练样本，就在8个独立跨源数据集（共29739张图像，覆盖50余种异常模式）中实现了平均AUC 85.23%、峰值AUC 93.43%的检测性能，为临床筛查提供了“轻量、高效、泛化性强”的解决方案。

研究采用的关键技术方法包括：构建包含7个临床域的UWF数据库（29739张图像，含7455张正常、22284张异常图像，其中Val和WCH为私有同域数据集，其余6个为公共跨域数据集）；设计双路径检测架构，结合零样本文本引导分类（通过文本提示如“无缺陷视网膜图像”“受损视网膜图像”编码语义先验）与少样本记忆库匹配（存储正常patch级特征用于相似度计算）；开发混合低秩适配器（HLRA），在CLIP视觉编码器（ViT-L/14）的第12、16、20层插入并行低秩残差路径（A、B矩阵，α=16，r=32），通过公式H = Wx + α/r * ABx实现特征变换，保留原特征权重β=0.8；基于泊松融合的异常合成算法，从真实异常图像提取病灶区域，经随机仿射变换后粘贴至正常图像，通过求解泊松方程实现自然融合，生成合成异常样本存入异常池。

研究结果如下：

1.
数据集构建与评估指标

研究构建了包含8个数据集的多源数据库，其中Val（366张正常、824张异常，12种疾病）和WCH（779张正常、2667张异常）为私有同域数据集，Open（100张正常、600张异常，6种疾病）、UWF4DR（99张正常、112张异常，2种疾病）、OculoScope（482张正常、2193张异常，38种疾病）、TOP（2797张正常、8683张异常，9种疾病）、RP（223张正常、150张异常，1种疾病）、MMR（2609张正常、7055张异常，7种疾病）为公共跨域数据集。评估指标采用受试者工作特征曲线下面积（AUC）、准确率（Acc）和马修斯相关系数（MCC），其中MCC因适合不平衡数据集被重点关注。
2.
与SOTA方法的性能比较

在k-shot=32设置下，与IQECLIP、MadCLIP、MVFA、MediCLIP四种基于CLIP的SOTA方法对比，所提框架（Ours）在所有数据集中均表现最优：AUC在6个数据集超过0.8（临床可用阈值），最高达0.9343（Open数据集）；Acc在所有数据集超过0.7（可靠决策阈值）；MCC在5个数据集超过0.5（有意义相关性阈值）。基线模型（仅含双路径检测和HLRA）已优于其他SOTA方法，加入泊松融合合成算法后性能进一步提升，验证了合成策略的有效性。
3.
可视化结果与跨域泛化能力

模型可高亮潜在异常区域，对年龄相关性黄斑变性（AMD）、病理性近视（PM）、视网膜脱离（RD）、视网膜静脉阻塞（RVO）等疾病均能有效定位，即使是对训练中未见的疾病类型（如AMD、PM、RVO）也表现出高敏感性，尤其在视盘和黄斑区域的异常检测中表现突出。
4.
消融实验验证模块有效性

在Val数据集上的消融实验显示：基础模型（V1，仅线性适配器）AUC 0.8963、Acc 0.8387、MCC 0.6293；加入图像合成（V2）后性能提升有限（AUC+0.31PP，Acc+1.84PP，MCC+3.29PP）；加入HLRA（V3）后性能显著提升（AUC+1.37PP，Acc+5.04PP，MCC+11.07PP）；同时加入HLRA和图像合成（V4，Ours）达到最优（AUC 0.9252，Acc 0.8941，MCC 0.7507）。t-SNE可视化显示，HLRA使正常与异常样本的特征分布在特征空间中明显分离，验证了其对域适应的关键作用。
5.
不同k-shot设置下的稳定性

在k=4、8、16、32的设置下，所提框架在跨域数据集上性能下降最小，且MCC指标显著优于其他方法，证明了模型的稳定性和鲁棒性。即使在仅4个样本的条件下，仍能保持较好的检测性能。

研究结论与讨论部分指出，该框架通过HLRA实现了自然图像与UWF图像的域对齐，仅需微调1.12%的参数（总参数量432M，可训练参数量4.86M）即可完成适配；泊松融合合成算法有效缓解了异常样本稀缺问题，生成的合成图像在融合边界和纹理一致性上优于直接复制粘贴。尽管在TOP（含未见过的AMD、DR等疾病）和MMR（聚焦糖尿病视网膜病变，训练中未包含）数据集上性能有所下降，但仍优于其他对比方法，体现了更强的特征鲁棒性。研究局限性包括：对细微病变和低质量图像仍存在假阳性/假阴性，受硬件限制未使用全分辨率输入，异常样本类别覆盖不足，暂不支持疾病分类。未来计划引入更高分辨率骨干网络、扩大病灶库、开发细粒度提示调优或多标签推理以提升临床适用性。

该研究的重要意义在于：首次将CLIP适配于UWF图像少样本异常检测，通过参数高效微调和可控合成解决了医疗数据稀缺与域偏移难题；模型不仅能实现二分类异常检测，还可定位潜在病灶区域，为临床医生提供可解释的决策支持；整个框架轻量易部署，仅需12GB显存的GPU即可训练，为基层医疗机构开展大规模眼底筛查提供了可行的技术方案，展现了基础模型在医学影像领域的广阔应用前景。

联系信箱：

粤ICP备09063491号

热点排行