XAAI-ledger：一个基于可解释的CNN变换器的多模态深度学习框架，利用皮肤镜和临床数据实现了黑色素瘤和非黑色素瘤皮肤癌的早期检测

《Biomedical Signal Processing and Control》：XAAI-ledger: An explainable CNN-transformer-based multi-modal deep learning framework for early detection of melanoma and non-melanoma skin cancers using dermoscopic and clinical data

【字体：大中小】 时间：2026年05月10日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　伊克拉姆·乌尔·哈克（Ikram Ul Haq）|胡马伊拉·阿蒂亚·乔阿尔德尔（Humayra Atia Joarder）|阿卜杜拉·阿尤布·汗（Abdullah Ayub Khan）|徐阳石（Xuyang Shi）|贾米尔·阿卜杜拉赫拉伊姆·贾米尔·阿尔赛亚德（Jamil Ab

　　伊克拉姆·乌尔·哈克（Ikram Ul Haq）|胡马伊拉·阿蒂亚·乔阿尔德尔（Humayra Atia Joarder）|阿卜杜拉·阿尤布·汗（Abdullah Ayub Khan）|徐阳石（Xuyang Shi）|贾米尔·阿卜杜拉赫拉伊姆·贾米尔·阿尔赛亚德（Jamil Abedalrahim Jamil Alsayaydeh）|莫赫德·法伊扎尔·本·优素福（Mohd Faizal Bin Yusof）|马斯鲁利扎姆·本·马特·易卜拉欣（Masrullizam Bin Mat Ibrahim）|哈努德·阿尔莫格拉比（Hannoud Almoghrabi）|艾哈迈德·阿里·阿尔祖比（Ahmad Ali AlZubi）

信息与控制工程学院， southwest大学科学技术学院，中国绵阳621010

摘要

在过去的几十年里，皮肤癌——尤其是黑色素瘤——由于其发病率的上升和诊断的挑战性，已成为一个重大的全球健康问题。人们认为，要改善患者的治疗效果，需要提高诊断的准确性和早期发现能力。本文介绍了一种名为XAAI-Ledger的多模态深度学习框架，该框架采用可解释的混合卷积神经网络（CNN）和Transformer技术，结合临床元数据和皮肤镜图像来分类皮肤癌，包括黑色素瘤和非黑色素瘤。除了使用CNN提取空间特征外，该解决方案中的Transformer编码器（TE）还有助于收集不同医疗记录模式之间的语义关联和长距离依赖关系。为了提高可解释性和决策准确性，本文采用了基于注意力的融合方法来结合视觉和非视觉元素。可解释AI（XAI）机制，如Shapley加性解释（SHAP）和梯度加权类别（Grad-CAM）激活映射，有助于建立治疗信任。这些机制不仅能够可视化模型的决策过程，还提供了有效性和可靠性。在多个基准数据集上的模拟测试表明，该模型在ISIC 2019数据集上的分类准确率为98.71%，灵敏度为97.45%，特异性为98.22%。与其他先进技术相比，该模型的这些指标更为优越。总之，XAAI-Ledger提供了一个透明、稳健且高性能的解决方案，适用于动态的临床环境，推动了基于AI的皮肤病学诊断程序的发展。

1. 引言

黑色素瘤是最具侵袭性和潜在致命性的皮肤癌类型之一，也是全球最常见的癌症之一。根据全球健康报告，遗传倾向、紫外线辐射暴露以及诊断延迟是导致黑色素瘤和非黑色素瘤皮肤癌的主要原因[1][2][3]。如今，皮肤科医生面临着这些问题的挑战。因此，早期、精确、高效和可靠的检测方法对于提高生存率和减少侵入性干预至关重要。目前，诊断过程主要依赖于临床经验和皮肤镜图像的主观解读，而这在不同的医生之间存在显著差异[3][4]。

人工智能（AI）的最新发展，特别是深度学习（DL），在改善医疗诊断方面显示出巨大的潜力，尤其是在皮肤病学领域[5][6]。卷积神经网络（CNN）在识别医学图像中的空间层次结构方面表现出色[1]。基于Transformer的学习编码器（TE）在表示语义关系和长距离依赖关系方面特别有效[6][7]。然而，目前的AI方法在分类皮肤癌时通常局限于单模态数据，而这对优先处理图像分析而不是结构化临床元数据（如患者病史、年龄、性别和病变位置）来说是一个问题[3][4]。

早期检测对于开发可行的皮肤癌治疗方法（尤其是黑色素瘤和非黑色素瘤）至关重要。然而，这一过程存在一些缺点，例如需要更快更高效的诊断流程、现有诊断技术的难度以及依赖于皮肤科医生的手动检查[8][9]。为了应对这些挑战和限制，本文提出了XAAI-Ledger，这是一个可解释的多模态深度学习框架，它结合了皮肤镜图像和临床元数据来分类黑色素瘤和非黑色素瘤。该框架利用CNN提取局部特征，并通过Transformer进行全局上下文学习，如图1所示。通过注意力机制，该模型实现了视觉和非视觉特征的高效、可靠集成，从而提高了模型的可解释性和预测性能。

1.1 研究动机

皮肤癌分类负担的加重，特别是黑色素瘤的早期诊断，突显了对准确可靠诊断方案的迫切需求。皮肤镜检查已成为评估皮肤病变的一种常见非侵入性方法。尽管如此，应用环境的效率仍需提高，因为它仍然严重依赖皮肤科医生的知识，这引入了主观性和观察者之间的差异。资源短缺的情况导致训练专业人员的缺乏，进一步加剧了诊断的延迟和错误，从而导致了可预防的医疗后果并增加了治疗成本。另一方面，深度学习技术（尤其是CNN）展示了自动从皮肤镜图像中分类皮肤病变的解决方案。然而，这种分类技术往往局限于单一模态数据，忽略了嵌入在临床元数据中的大量上下文信息，如病变位置、患者年龄等。这种单模态方法限制了诊断能力，特别是在模糊和早期阶段的情况中，此时临床记录管理的上下文变得至关重要[2]。

2. 相关工作

现有的AI在皮肤病学诊断中的应用迅速发展，这得益于大规模皮肤镜图像数据集的丰富以及深度学习模型的进步[12][13][14][15][16]。许多研究探讨了使用预定义的CNN进行皮肤癌自动分类的方法，因为它们在图像数据提取和调查方面表现出强大能力[12][13][14][15][16]。然而，大多数发展中国家仍然采用传统方法进行皮肤癌分析。同时，发达国家则更关注将传统方法与深度学习相结合的过程。评估传统方法时可以发现，皮肤科检查需要适当的皮肤镜层次结构和活检。虽然深度学习技术在自动检测和分类方面表现出色，但它通常只能处理图像数据，而忽略了临床元数据中的重要信息。这种单模态方法限制了诊断能力，特别是在诊断不明确或处于早期阶段的病例中。

2.2 本研究的目标和贡献

本研究的主要目标如下：
- 设计一种基于CNN的混合模型，能够有效从皮肤镜图像和数据中提取特征和上下文信息。
- 开发一种基于注意力的融合机制，以整合图像特征和结构化临床数据。
- 通过多基准数据集评估该解决方案的性能，并与其他先进方法进行比较。
- 促进临床可行性和可扩展的AI诊断应用。

本文的主要贡献包括：
- 提出了一种新颖的基于CNN和Transformer的多模态深度学习框架，将皮肤镜图像与结构化临床元数据结合，以实现准确的皮肤癌分类。
- 提出了一种定制的基于注意力的特征融合机制，能够有效整合上下文和视觉模式，满足皮肤科医生的需求。
- 该框架实现了SHAP和Grad-CAM，用于解释模型预测结果，并提高了临床信任度。

3. 结论

XAAI-Ledger提供了一个可解释、高性能且新颖的解决方案，适用于基于AI的皮肤癌诊断，特别是黑色素瘤和非黑色素瘤的诊断。它不仅提高了诊断准确性，还确保了AI应用的可靠性、透明度和可信度，符合现代皮肤病学实践的需求。总之，这项研究旨在不仅提高诊断准确性，还确保AI应用获得信任、透明度和来源的可验证性。### 基于CNN的皮肤癌检测模型

在论文[17]中，作者探讨了使用深度CNN与普通CNN模型在识别、评估和分类皮肤病变（尤其是黑色素瘤）方面的差异。这两种模型在大规模图像数据集上均取得了与皮肤科医生水平相当的准确率。此后，像ResNet、Inception和DenseNet这样的框架被广泛用于非黑色素瘤的检测[18],[19]。然而，这些模型通常仅限于单模态输入，仅关注皮肤镜图像而忽略了补充的临床数据。为了应对仅依靠图像模型的挑战，一些最新的研究[19],[20],[21]开始探索多模态学习方法，这种方法不仅整合了临床元数据，还保持了自动化的特点，特别是结合了患者的年龄、性别、病变位置及其严重程度等相关数据。另一方面，论文[22]证明，将元数据与图像特征成功结合可以提升分类性能。同时，一些模型采用简单的拼接方法主要是为了数据融合，但这些方法往往无法捕捉到复杂的多模态之间的关系。

随着Transformer在自然语言处理（NLP）中的应用越来越广泛，其在视觉任务中的使用也取得了进展[23],[24]。视觉Transformer（ViT）和混合CNN-Transformer模型已被证明在收集医学图像的全局依赖性方面优于传统的CNN[23],[24],[25]。论文[26]提出了一个基于Transformer的皮肤科模型，尽管其性能卓越，但缺乏可解释性以及与临床元数据的有效结合。可解释性是临床AI应用中的一个关键因素。Grad-CAM、SHAP和局部可解释模型等机制[27],[28]被广泛用于解释CNN的输出结果。然而，上述技术在多模型集成和相关框架关联方面应用有限，尤其是在涉及Transformer的CNN中。高性能模型缺乏透明性仍是其临床应用的主要障碍。

本文评估、强调和讨论的关键研究差距包括[28],[29],[30]：
- 大多数现有模型依赖于单模态输入
- 需要庞大的数据库
- 诊断准确性有限
- 缺乏复杂的多模态融合机制
- 将元数据降级为辅助角色
- 多模态AI应用中的可解释性不足
- 多模态推理缺乏标准化

### 方法与材料

本节首先介绍用于训练和评估所提出模型的大数据集。值得注意的是，其中一个数据集包含超过1000个数据点，分为3个子集，每个子集包含10个图像数据属性以及元数据标识符，被认为是基准数据集之一（例如ISIC）。以下是这些数据集的列表：
- Kaggle提供的ISIC数据集（链接：https://www.kaggle.com/datasets/nodoubttome/skin-cancer9-classesisic）
- MINIST提供的Skin Cancer MNIST数据集（链接：https://www.kaggle.com/datasets/kmader/skin-cancer-mnist-ham10000）
- CDAS-Cancer.Gov提供的黑色素瘤数据集（链接：https://cdas.cancer.gov/datasets/plco/11/）
- RCPath.org提供的癌症数据集和组织通路数据集（链接：https://www.rcpath.org/profession/guidelines/cancer-datasets-and-tissue-pathways.html）

训练和测试所使用的数据集规模如下：
- 训练数据 = 所列数据的75%
- 测试数据 = 25%

### 符号说明、问题描述和建模

本节讨论了所提出的XAAI-Ledger框架的数学原理，该框架主要结合了皮肤镜图像特征和结构化的临床元数据，使用了混合CNN和基于注意力的融合策略。这种集成方法有助于根据研究评估的具体问题设计和定制新型模型。所提出模型的各个组成部分的数学表述如下：
- 皮肤镜图像的输入约束和元记录定义如下（也在表1中描述，并在图3中示意）：
(1) \(I_e(h^*w^*c)\)
(2) \(M_e(c_d^*Numberoffeatures(d)|\{age, sex, locationoflesion\}\)

表1. 符号说明：
| 符号 | 解释 |
|----------------|----------------------------------------------------------|
| \(I_e\) | 输入的皮肤镜图像 |
| \(h\) | 高度 |
| \(w\) | 宽度 |
| \(c\) | 通道数 |
| \(F_m\) | 医学图像特征 |
| \(b\) | 偏置 |
| \(w'\) | 元数据权重 |
| \(F_meta\) | 元数据特征 |
| \(R\) | 预定义的评估标准 |
| \(f\) | 连接的特征 |
| \(f_f\) | 融合特征 |
| \(Time\) | 提取特征所需的时间 |

图3. 所提出的黑色素瘤和非黑色素瘤皮肤癌早期检测流程。

此外，设计的CNN框架结合了EfficientNet，从输入的皮肤镜图像中提取层次化特征（如图3所示）：
(3) \(ImageFeatures(F_mimg) = CNN(I)\) \(\rightarrow\)\ {numberofextractedimagepatches|FeatureToken(n) \cdot Dimensionoffeaturevector(f)\}

\(M\)通过一个全连接层进行处理，将其投影到相同的嵌入空间中（如图3所示）：
(4) \(MetaFeatures(F_meta) = \sigma(wightmetric(w'\) + bias(b))|R;\)
其中 \(\sigma\) 是激活函数（ReLU）。

我们将图像特征和元数据特征集成如下：
(5) \(FeatureIntegration(F_con) = (F_mimg + F_meta)|R(n+1) \cdot f\)

这些集成特征被输入到Transformer编码器中，以收集全局上下文和多模态关系（如图3所示）：
(6) \(FusedFeatures(f_f) = TransformerEncoder(F_con)\)

通过这个过程，每个编码的Transformer层包含多头自注意力层次结构（如图3s所示）：
(7) \(Multi-HeadSelfAttention[F_con, w', b] = RELU(F_con \cdot w' \cdot b \cdot t)\)

随后，前馈神经机制处理融合后的表示，并结合全局平均池化和CLS标记（如图3所示）：
(8) \(Probability_forrepresentingmelanoma, non-melanomaclasses(y) = RELU(ff + w' + b)\)

分类损失采用交叉熵损失（Categorical Cross-Entropy Loss）：
(9) \(Cross-EntropyLoss(L) = \sum{y' \cdot log(y)d\);\)
其中 \(y'\) 是真实标签。

另一方面，最后一个CNN层的激活映射‘AM’计算如下：
(10) \(AM = \sum\partial{y' \cdot C}\)
(11) \(Grad-CAM = RELU(\sum AM)\)

此外，通过估计Shapley值来计算元数据的贡献分数，为模型行为提供全局和局部解释。

### 提出的模型

所提出解决方案的运行流程如图4所示，初始化步骤是从ISIC 2019的多基准数据集中获取皮肤镜图像及相关临床元数据，包括年龄、性别和病变部位，使用MINIST HAM1000。如图2和图4所示，模型首先进行预处理，包括处理缺失数据、调整图像大小和归一化、编码分类元数据和数值元数据。接下来，模型使用CNN提取视觉特征。在这个过程中，深度CNN结合EfficientNet从图像中提取层次化空间特征，这些特征是黑色素瘤或非黑色素瘤的皮肤镜视图。这一步的输出是一个特征图，表示皮肤病变的视觉特征及其位置。

图4. 基于CNN的Transformer解决方案。

表2. 代码表示：
- \(I\) ← 皮肤镜图像
- \(M\) ← 临床元数据向量
- \(y'\) ← 真实标签
- \(y\) ← 分类预测（黑色素瘤或非黑色素瘤皮肤癌）
- \(y\) ← 以表格和可视化形式进行解释（Grad-CAM + SHAP）
- \(M\) ← 归一化和编码元数据
- \(M\) ← 归一化和调整图像大小
- \(IF_img\) → CNN(I)
- \(F_meta\) ← 扩展维度（\(F_meta\)
- \(FullyConnected(M\) ← 用于融合的平衡形状
- \(Integrate(F_img, F_meta) → F_con\)
- \(TransformerEncoder(F_concat)\)
- \(F_fused\)
- \(y\) ← \(ReLU(y_logits)\)
- \(y_logits\) ← \(FullyConnected(GlobalFeatures)\) → 全局特征
- \(GlobalAveragePooling(F_fused)\)
- \(CrossEntropy(y, y')\)
- \(GradCAM(CNN, I, y)\)

图5. Grad-CAM和SHAP的工作原理。

在下一步中，模型应用全局平均池化，并使用Transformer输出的特殊分类标记（如黑色素瘤和非黑色素瘤）。这个分类层将池化表示输入到全连接ReLU分类器中以识别和预测类别。我们使用‘Adam’优化器和分类交叉熵损失来训练整个模型。为了防止过拟合，模型采用了批量归一化技术。通过这种方式，我们可以监控数据验证的相关指标，如分类准确性、敏感性和特异性以及曲线下面积。

最后，我们对CNN特征图的输出应用Grad-CAM来可视化皮肤镜图像中的关注区域。同时，使用SHAP来识别各个临床特征的贡献（如对未见数据的泛化能力、集成到远程皮肤科工具的适用性以及在实时决策过程中的可解释性），如图5和图6所示。由于这些改进，模型通过视觉和表格解释实现了可解释性。

图6. 分类器层的工作原理及Grad-CAM和SHAP的作用。

### 仿真结果

本文讨论了确保仿真成功所需的软件和硬件要求。以下是满足的需求列表：
- 系统信息：
- 13代vPro CPU，时钟速度为4.2 GHz
- 16 GB RAM
- 1 TB SSD连接到4 TB HDD
- 配备专用显卡
- Windows 11操作系统
- 网络带宽至少为40 Mbps到1 Gbps

- 软件要求：
- Python 3.9.11
- TensorFlow
- Keras
- NumPy
- Matplotlib

所提出的XAAI-Ledger解决方案的仿真结果如图7所示，通过测试黑色素瘤皮肤问题来确定皮肤癌的类型。原始图像显示在图7中，图8和图9显示了更精确的皮肤病变分类的灰度收敛情况，图10显示了皮肤癌的影响和皮肤区域分析，图10显示了癌症的类型（是否为黑色素瘤），图11显示了皮肤癌的名称及其影响程度。图12显示了实时决策的元数据评估结果。图13展示了所提出的XAAI-Ledger解决方案的仿真结果，用于检测非黑色素瘤皮肤问题以确定皮肤癌的类型。图13显示了原始图像；图14和图15显示了更精确的皮肤病变分类的灰度收敛情况；图16显示了皮肤癌的影响和皮肤区域分析；图17显示了癌症的类型（是否为非黑色素瘤）；图18显示了皮肤癌的名称及其影响程度。图19显示了实时决策的元数据评估结果。

图13展示了所提出的XAAI-Ledger解决方案的仿真结果，用于检测非黑色素瘤皮肤问题以确定皮肤癌的类型。图13显示了原始图像；图14和图15显示了更精确的皮肤病变分类的灰度收敛情况；图16显示了皮肤癌的影响和皮肤区域分析；图17显示了癌症的类型；图18显示了皮肤癌的名称及其影响程度。图19显示了实时决策的元数据评估结果。

图13显示了所提出的XAAI-Ledger解决方案的仿真结果，用于检测非黑色素瘤皮肤问题以确定皮肤癌的类型。图14和图15显示了更精确的皮肤病变分类的灰度收敛情况；图16显示了皮肤癌的影响和皮肤区域分析；图17显示了癌症的类型。结果是最理想的：超过600张皮肤镜图像被分类，并连同其元数据一起创建并存储在数据库（ISCI 2019和MINIST HAM1000）中，同时评估了超过3500个通道，以确保由于元数据关联而提高分类的准确性。（见图23。）下载：下载高分辨率图片（86KB）下载：下载全尺寸图片图21. 非黑色素瘤分析-为改进结果分析而评估的皮肤镜图像和元数据的比率（测试1）。下载：下载高分辨率图片（87KB）下载：下载全尺寸图片图22. 非黑色素瘤分析-为改进结果分析而评估的皮肤镜图像和元数据的比率（测试2）。下载：下载高分辨率图片（59KB）下载：下载全尺寸图片图23. 数据量及其大小增加（黑色=1%至红色=100%）。在几个基准数据集上的模拟结果（如图19所示），特别是在ISIC 2019和MINIST HAM1000上，经过50多次迭代后，分类准确率为98.71%，灵敏度为97.45%，特异性为98.22%。这表明这种可定制的模型比其他最先进的方法[31]、[32]、[33]取得了更好的指标。图24和图25显示了图像加载和分析的速度，包括可解释性、灵敏度、可解释性、定位以及黑色素瘤和非黑色素瘤皮肤癌的分类，以及在检测过程中的参数变化。结果是最理想的：收到了超过2000个和14,000个通道的结果，并从数据库中获取了600多张照片。这些发现被认为是改进的结果，因为元数据已成功集成到皮肤镜图像中，确保了精确的分类，与其他最先进的方法[34]、[35]、[36]相比有了更好的效果。然而，根据图24和图25中显示的结果，我们必须得出结论，与其他尖端技术[37]、[38]、[39]相比，这种基于XAAI-Ledger的方法在实时工业应用方面是一个强有力的竞争者。下载：下载高分辨率图片（94KB）下载：下载全尺寸图片图24. 收到的改进结果比率及其比较（1）。下载：下载高分辨率图片（98KB）下载：下载全尺寸图片图25. 收到的改进结果比率及其比较（2）。为了评估所提出的XAAI-Ledger框架及其定制设计的CNN-Transformer模型的可靠性和有效性，我们使用多个数据集（特别是ISIC 2019皮肤癌数据集）对其进行了与不同最先进方法的比较分析。比较研究的标准如下（如表3、表4和表5所讨论）：•ResNet50 •DenseNet121 •MobileNetV2 •Multi-Modal CNN •Vision Transformer •Hybrid CNN-Transformer表3. 方法/模型的比较列表可解释性ResNet50这是一种用于基于图像的皮肤癌评估的深度CNN方法。DenseNet121它是具有密集连接的CNN架构之一，常用于皮肤镜图像分析。MobileNetV2需要安装MobileNetV2来仅检查图像性能和评估，特别是在边缘部署时实施皮肤癌评估模型。Multi-Modal CNN其主要目的是通过元数据连接进行融合的经典CNN。Vision TransformerViT是一种仅用于图像分类的Transformer模型，不使用元数据。Hybrid CNN-Transformer它主要整合了CNN和Transformer，以改进特征学习，特别是从临床图像中识别黑色素瘤和非黑色素瘤。表4. 比较分析测试（1）。评估的约束条件经典CNN带有多模型的CNN带有基于Transformer的深度学习的Hybrid CNN灵敏度是的是的是的分类准确性是的是的是的特异性是的是的是的曲线下面积是的不是是的可解释性支持N/A是的表5. 比较分析测试（2）。评估的约束条件经典深度学习深度卷积神经网络带有基于Transformer的深度学习的Hybrid CNN灵敏度N/A是的是的分类准确性是的是的是的特异性是的是的是的曲线下面积是的不是是的可解释性支持N/A是的6. 实施挑战使用XAAI-Ledger存在几个显著挑战，特别是在模拟管理方面。数据可用性和质量问题是一个主要限制。在公共数据库（如ISIC）中，黑色素瘤病例相对于良性和非黑色素瘤病变来说代表性不足，这些数据库在数据管理不当和相关变化方面经常存在不平衡[40]、[41]、[42]。这种不稳定的数据可能会使训练和测试偏向大多数类别，这不仅降低了检测恶性病变的灵敏度，也对早期诊断没有帮助，而早期诊断对皮肤科医生和患者生存至关重要。此外，皮肤镜图像在分辨率、照明和采集设备方面差异很大，这主要会导致领域偏移，可能会影响泛化层次。伴随这些数据集的临床元数据大多不一致且不完整[41]、[43]。因此，需要强大的预处理互连性和架构设计来处理缺失信息。另一方面，多模态特征融合的复杂性是一个突出的问题。尽管CNN对于高效提取局部空间信息非常有用，但将这些表示与结构化的临床数据整合仍然具有挑战性[44]、[45]、[46]。基于TE的融合模块在建模跨模型关系方面有效，但计算成本较高，并且当数据稀缺时更容易过拟合。一个关键问题是在保持每种模式的目标之间找到平衡。此外，很明显，可能会过度关注元数据或图像属性，这两种情况都表明性能不佳。最后，包括对临床应用至关重要的可解释性元素，如Grad-CAM和SHAP。这在需要资源限制的动态环境中会复杂化并增加计算负担。7. 开放性研究问题为了充分实现XAAI-Ledger的潜力，需要解决一些突出的研究课题。创建能够在面对多样化、稀疏和噪声输入模式时仍能正常运行的持久且可适应的融合过程是最紧迫的问题之一[47]、[48]、[49]。然而，当前的大部分研究集中在领域适应和迁移学习上，以提高模型在成像技术、临床程序和人口统计学变化面前的韧性[50]、[51]、[52]。它在保持准确性的同时保证了可解释性，但这仍然是一个缺点。此外，隐私、伦理考虑和减少偏见也是必不可少的。另一方面，基于AI的诊断应用程序可能会继承训练数据中的设备特定和人口统计偏见，这可能导致不同患者群体的诊断性能差异。8. 结论本研究探讨了皮肤癌诊断和严重程度评估中皮肤科医生注意到的缺陷和当前模式。本文强调并讨论了一些难题，包括分类准确性、灵敏度、特异性和可解释性。另一方面，本文介绍了XAAI-Ledger，这是一种基于可解释性Transformer的多模态DL框架，它通过CNN实现了定制模型设计，将皮肤镜图像和临床元数据结合起来，用于黑色素瘤和非黑色素瘤的早期检测和分类。除了使用CNN提取地理信息外，该解决方案中的TE有助于收集医学记录模式之间的语义连接和长期关系。采用基于注意力的融合方法来合并视觉和非视觉元素，以提高可解释性和决策准确性。为了促进治疗信任，使用了如Grad-CAM激活映射和SHAP这样的XAI技术。这些机制提供了有效性和可靠性，并使得模型思维可视化成为可能。使用多个基准数据集（特别是ISIC 2019），模拟结果显示分类准确率为98.71%，灵敏度为97.45%，特异性为98.22%。8.1. 未来方向然而，根据XAAI-Ledger的成功情况，后续研究可以调查以下不足之处：•伦理和隐私问题 •可解释性增强 •鲁棒性和泛化能力 •动态临床发展和数据交换政策 •临床工作流及相关管理的集成机制 •扩展的多模态数据源、组织和优化10. 涉及人类和/或动物的研究不适用。11. 出版同意在此研究中，没有人类受试者受到伤害，我们确认与参与者分享的所有数据均得到了他们的同意。所有参与者都对这项研究的发布版本表示同意。资助声明这项工作得到了马来西亚Teknikal大学（UTeM）和沙特阿拉伯利雅得King Saud大学的Ongoing Research Funding计划（ORF-2026-395）的支持。CRediT作者贡献声明Ikram Ul Haq：写作-原始草案，软件，方法论。Humayra Atia Joarder：调查，方法论，写作-审阅和编辑，概念化。Abdullah Ayub Khan：调查，方法论，写作-审阅和编辑，概念化。Xuyang Shi：写作-审阅和编辑，写作-原始草案，可视化，验证，监督，软件，资源，项目管理，方法论，调查，资金获取，形式分析，数据整理，概念化。Jamil Abedalrahim Jamil Alsayaydeh：写作-审阅和编辑，方法论，可视化。Mohd Faizal Bin Yusof：写作-审阅和编辑，方法论，可视化。Masrullizam Bin Mat Ibrahim：写作-审阅和编辑，方法论，可视化。Hannoud Almoghrabi：写作-审阅和编辑，写作-原始草案，可视化，验证，监督，软件，资源，项目管理，方法论，调查，资金获取，形式分析，数据整理，概念化。Ahmad Ali AlZubi：写作-审阅和编辑，方法论，可视化。9. 伦理批准和参与同意大学委员会确认所有实验方案均得到了组织的批准。确认实验符合伦理批准和参与者的同意标准。

热点排行