融合视觉Transformer与图神经网络的区域自适应注意力模型及其在皮肤癌增强预测中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Hybrid vision transformer and graph neural network model with region-adaptive attention for enhanced skin cancer prediction

【字体：大中小】 时间：2026年02月08日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对皮肤癌诊断中传统CNN方法难以捕捉复杂空间关联和全局上下文特征的瓶颈，创新性地提出融合视觉Transformer(ViT)与图神经网络(GNN)的区域自适应注意力模型。通过ViT分支提取皮肤镜图像全局依赖关系，结合GNN增强病灶空间特征交互，并引入区域自适应注意力机制动态优化诊断关键区域的特征提取。在基准数据集上验证表明，该模型在分类准确率和可解释性方面均优于现有先进算法，为临床皮肤病诊断提供了可靠工具。

皮肤癌作为全球范围内发病率和死亡率持续攀升的恶性肿瘤，其早期诊断直接关系到患者预后。目前临床主要基于皮肤镜图像进行人工判读，但受限于医生经验差异和视觉疲劳，诊断一致性难以保证。尽管卷积神经网络(CNN)在图像分类任务中表现出色，但其局部感知特性难以捕捉皮肤病灶中错综复杂的空间关联性及长程全局上下文信息，尤其对不典型病灶和罕见亚型的识别存在明显局限。

为突破这一技术瓶颈，发表于《Scientific Reports》的研究提出了一种融合视觉Transformer(ViT)与图神经网络(GNN)的混合架构，并创新性地引入区域自适应注意力机制。该研究通过ViT分支对输入图像进行分块序列化处理，利用自注意力机制建立全局依赖关系模型，有效克服了CNN感受野受限的缺陷。同时，GNN分支将病灶区域建模为图节点，通过消息传递机制聚合邻域特征，显式刻画病灶内部结构与边界特征的空间关联。区域自适应注意力模块则能动态识别并强化与诊断高度相关的图像区域（如色素网络异常、蓝白幕结构等），实现特征提取的精准聚焦。

关键技术方法包括：1）基于Vision Transformer的全局特征提取模块，处理尺寸为224×224的皮肤镜图像；2）图神经网络构建病灶区域拓扑关系图，节点特征包含颜色、纹理等多尺度信息；3）区域自适应注意力机制实现诊断关键区域的特征增强；4）元学习策略优化模型跨肤色和成像条件的泛化能力。实验使用公开数据集ISIC 2018-2020进行验证。

研究结果方面：

1.
全局-局部特征协同分析：ViT-GNN混合模型在ISIC 2020数据集上达到96.7%的准确率，较纯CNN基线提升8.3%。消融实验表明，ViT分支对弥漫性病灶的识别贡献率达42%，而GNN对边界不规则病灶的敏感度提升27%。
2.
区域自适应注意力效能验证：该模块使模型在黑色素瘤与色素痣的鉴别任务中AUC值达到0.98，注意力热图与皮肤科医生标注的关键诊断区域重合度达89%。
3.
多尺度特征融合机制：通过融合宏观病灶形态特征（直径>5mm）与微观纹理特征（色素颗粒分布），模型对早期黑色素瘤的检出率提升至94.2%，显著优于单尺度分析方法。
4.
跨人口统计学泛化测试：采用元学习优化后，模型在菲茨帕特里克皮肤分型IV-VI人群中的分类精度仍保持91.5%，较基线模型提升15.2%。

结论部分指出，该研究通过ViT-GNN的异构架构实现了皮肤镜图像全局语境与局部特征的统一建模，区域自适应注意力机制赋予模型类医生的诊断聚焦能力。讨论中强调，模型的可解释性输出（如注意力热图）为临床医生提供了决策依据，而元学习策略有效缓解了医疗数据分布偏移问题。该工作为皮肤病辅助诊断提供了新范式，其技术路线可扩展至其他医学影像分析领域。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号