客观评估酒渣鼻红斑的严重程度：一种结合VISIA?成像技术和基于图像的表格特征的多模态人工智能框架

《Frontiers in Medicine》：Objective assessment of rosacea erythema severity: a multimodal artificial intelligence framework integrating VISIA? imaging and image-derived tabular features

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Medicine 3.0

编辑推荐：

　　摘要玫瑰痤疮是一种慢性炎症性皮肤病，其特征是面部持续红斑。其临床评估依赖于临床医生的红斑评估（CEA），这是一种容易受到观察者间变异影响的主观评分标准。为了解决诊断一致性的需求，本研究开发了一个多模式人工智能框架，利用标准化的VISIA?成像技术进行客观的CEA分级。我们分

　　摘要
玫瑰痤疮是一种慢性炎症性皮肤病，其特征是面部持续红斑。其临床评估依赖于临床医生的红斑评估（CEA），这是一种容易受到观察者间变异影响的主观评分标准。为了解决诊断一致性的需求，本研究开发了一个多模式人工智能框架，利用标准化的VISIA?成像技术进行客观的CEA分级。我们分析了一组1,001名患者的回顾性数据。为了建立可靠的参考标准，三位专家皮肤科医生进行了多步骤的集体审核，对每个病例达成了一致意见。该框架将手工制作的图像特征与深度学习表示相结合。在训练过程中，实施了空间数据增强和焦点损失（Focal Loss）来处理数据集不平衡问题并减少过拟合。结果表明，多模式融合模型在性能上显著优于仅依赖图像的基线方法（McNemar检验p=0.031；DeLong检验p=0.024），宏观AUC达到了0.902（95%置信区间：0.862–0.937）。此外，考虑到疾病严重程度的序数性质，融合模型的二次加权Kappa值（QWK）为0.800，类内相关系数（ICC）为0.801（95%置信区间：0.720–0.860），表明与专家共识高度一致。误差分析显示，中间等级（CEA3）的错误分类超过95%局限于相邻类别，反映了该方法的临床安全性。通过逐层相关性传播（Layer-wise Relevance Propagation）进行的可解释性分析证实了模型关注的是临床上公认的红斑易发区域。本研究建立了一个稳健的概念验证工具，将玫瑰痤疮的评估从主观检查转变为客观的数字测量，为临床试验和远程皮肤病学提供了重要的转化潜力。

1. 引言
玫瑰痤疮是一种主要影响面部的慢性炎症性皮肤病，表现为持续红斑、潮红、丘疹、脓疱和毛细血管扩张。它在全球范围内造成了显著的心理社会负担和生活质量问题，其发病率因人群和皮肤类型而异（1, 2）。尽管发病率很高，但红斑严重程度的临床分级仍然主要依赖于临床医生的主观观察，例如使用临床医生的红斑评估（CEA）评分标准。这种主观性导致了观察者间和观察者内的差异，从而导致分类不一致，可能影响治疗决策（3, 4）。
在过去十年中，大量研究致力于阐明玫瑰痤疮的发病机制。免疫学、转录组学和遗传学的进展揭示了先天免疫失调、异常的神经血管反应、微生物触发因素、氧化应激和激素调节是病理发生的关键因素（5–13）。例如，全基因组测序和组学研究发现了与疾病严重程度相关的易感位点和分子途径（6, 9），而单细胞转录组学发现了参与慢性炎症的异常成纤维细胞群（5）。其他研究强调了Toll样受体信号传导（8）、雌激素介导的免疫反应（10）以及通过NOX2/ROS/NF-κB轴的氧化应激的作用（11）。这些发现共同扩展了我们对玫瑰痤疮生物学的理解，为新的治疗靶点提供了依据，并推动了精准皮肤科的发展。
与此同时，临床研究描述了玫瑰痤疮患者的表型异质性和血管重塑模式。对眼睑血管和与年龄相关的血管变化的研究强调了详细表型分析的重要性（14, 15）。然而，这些描述性研究很少扩展到可应用于实际临床工作流程的定量、可重复的分级系统。虽然像VISIA?面部分析系统这样的标准化成像平台提供了高分辨率的多模态照片（包括用于突出血管病变的红斑增强视图），但大多数临床应用仍局限于半定量指标，未能实现客观和自动化的严重程度分级（3, 4）。
人工智能（AI），特别是深度学习和自主学习方法，为克服这些限制提供了机会。多模式AI在多个医疗领域显示出了巨大潜力，从协作手术器械分割（16）到精准皮肤科（17）。最近的多模态学习进展使得将多种数据流（包括成像和定量描述符）整合到统一的预测框架中成为可能，这在其他皮肤科背景下也显示出前景（7, 12）。然而，在玫瑰痤疮的研究中，以往的工作主要集中在病因学和机制研究上（5–13），在利用多模态成像进行临床可操作的严重程度评估方面进展有限。
因此，本研究旨在通过开发和验证一个多阶段AI框架来解决这一难题，该框架使用VISIA多模态成像自动进行玫瑰痤疮的CEA分级。我们的工作流程包括无监督聚类、带有手工特征和自主学习特征的监督机器学习，以及将正常图像和红斑增强图像与定量描述符结合的深度学习融合策略。我们还采用了逐层相关性传播（LRP）来评估模型的分类结果是否与临床意义上的红斑分布一致，从而提高了可解释性和临床可信度（18）。这项研究代表了向客观、可重复的AI辅助玫瑰痤疮红斑分级迈出的新一步。

2. 方法
2.1 研究人群和设计
这项回顾性研究包括1,001名患者，他们在2024年1月至2024年12月期间在武汉第一医院皮肤科接受了VISIA?面部分析系统的标准化成像检查，以评估玫瑰痤疮的严重程度。为了建立高度可靠的临床真实值并最小化个体主观偏差，三位副主任皮肤科医生对每个病例进行了严格的多步骤集体审核。任何初始分歧通过共同重新评估红斑增强视图来解决，直到达成一致意见。VISIA正常（M）和红色增强（MR）图像按患者ID配对，并随机分为训练集（n=600）、验证集（n=300）和独立测试集（n=101），比例约为6:3:1。这些队列中临床医生红斑评估（CEA，0-4级）等级的详细分布见表1。包括患者登记、成像、专家注释和多模式AI建模在内的整个方法流程如图1所示。由于CEA等级分布的固有不平衡性，没有进行过采样或欠采样；相反，根据训练集计算了逆频率类权重：
wc = 1/fc1K ∑k=1/fc1K ∑k=1K
其中fc是类别c的频率，K是类别的数量（19, 20）。这些权重随后被整合到模型训练的损失函数中。

表1 CEA严重程度等级
训练集（n=600）
验证集（n=300）
测试集（n=101）
总样本数（N=1,001）
等级 0 22 11 5
等级 1 74 37 12
等级 2 13 46 82 22
等级 3 19 79 83 33 28
等级 4 17 38 62 92 88
数据集分布。

图1 整体研究流程。流程包括患者登记、VISIA成像、专家分级、数据集分层、特征提取（传统方法 vs. SimCLR）、无监督聚类、监督机器学习、多模态深度学习和可解释的AI可视化。
该研究方案已获得武汉第一医院机构审查委员会的批准（IRB编号[2023] 53）。所有参与者都签署了参与和匿名图像发布的书面知情同意书。所有数据在分析前已去标识化。由于关于高分辨率面部图像的严格机构伦理指南，详细的人口统计信息被限制为临床严重程度分布的汇总统计数据，以防止患者重新识别。该研究遵循《赫尔辛基宣言》和相关国家法规进行。

2.2 图像预处理和数据集准备
所有VISIA正常（M）和红斑增强（MR）图像均经过标准化处理：图像以RGB格式加载，使用双线性插值调整为240×240像素，并根据ImageNet统计数据进行通道归一化，使其均值为零、方差为单位值（21）。对于深度学习，M图像保持为三通道RGB格式，而MR图像则处理为伪彩色三通道灰度输入。在多模态设置中，M和MR图像沿通道维度连接成六通道输入，或分别输入到双分支设计的CNN暗箱中（22）。
为了增强模型的泛化能力和减少过拟合，仅在训练集上应用了空间数据增强，包括随机水平翻转（p=0.5）和轻微的仿射变换（最多10°旋转和5%平移）。重要的是，严格排除了光度或颜色增强（如颜色抖动），以保持红斑强度的生理真实值。

2.3 模型架构和训练
本研究采用了三种监督学习策略。首先，使用从VISIA正常（M）和红斑增强（MR）图像中提取的手工特征，训练了传统的机器学习分类器，包括随机森林（Random Forest）、支持向量机（SVM）、逻辑回归（Logistic Regression）、k最近邻（KNN）、LightGBM和XGBoost（23–27）。这些手工特征包括：（i）全局颜色统计（RGB和HSV通道的均值和标准差），（ii）纹理描述符，如灰度共生矩阵（GLCM）特征（对比度、相关性、能量、均匀性）和局部二值模式（LBP），以及（iii）与红斑相关的定量指标（红色通道比率、红斑面积百分比）（28, 29）。
其次，在自主学习方法中，使用SimCLR（30）获得特征嵌入。具体来说，M和MR图像通过预训练的ResNet-50暗箱进行处理，然后通过PCA将2048维嵌入降维至256维以实现稳定性。这些表示随后被用作同一组分类器的输入（31）。
第三，构建了多模态深度学习模型，使用EfficientNet-B1暗箱评估四种配置：（i）仅MR模型，（ii）结合M RGB和MR灰度图像作为六通道输入的通道融合模型，（iii）图像加表格描述符（CNN + MLP后期融合），以及（iv）双分支模型，其中M和MR在特征融合前分别处理。为了解决固有的类别不平衡问题，并迫使网络关注难以分类的过渡样本（例如CEA3），我们用焦点损失函数（γ=2.0）替换了标准交叉熵损失，并根据先前定义的逆频率类权重进行了缩放。所有深度学习模型使用Adam优化器训练了最多40个周期（初始学习率=1×10^-4，权重衰减=1×10^-4），采用ReduceLROnPlateau学习率调度（因子=0.1，耐心=5）和提前停止（耐心=8）（22）。
在特征拼接实验中，结合了手工特征和SimCLR特征（Concat），并使用LASSO回归减少冗余，LASSO通过?1惩罚强制实现稀疏性：
?β = argminβ{1/|y?X|2 + λ|β|2}
最佳正则化参数（惩罚C，即λ的倒数）通过严格的5折交叉验证策略（LogisticRegressionCV）确定为0.3594。这一过程在分类前选择了一组最具信息量的特征，提高了稳定性并减少了过拟合（32）。

2.4 性能指标
使用准确性、宏观平均精度、召回率和F1分数以及每类和宏观平均接收者操作特征曲线下面积（AUC）来评估模型在独立测试集上的表现。指标定义如下：
准确性 = (TP + TN)/(TP + TN + FP + FN)
精度 = TP/TP
召回率 = TP/TP + FN
F1分数 = 2×（精度 + 召回率）
宏平均F1分数 = (1/K∑c=1 F1c)
加权平均F1分数 = ∑c=1 n_c×F1c
宏平均AUC定义为各类别AUC值的算术平均值。此外，为了明确考虑5级CEA评分的序数性质，我们引入了二次加权Kappa（QWK）和平均绝对误差（MAE），这些指标严格惩罚了严重的跨类别错误分类。使用类内相关系数（ICC，双向随机效应，绝对一致性）评估了临床评分者的可靠性。
为了确保统计严谨性，对测试集进行了1,000次迭代的自举重采样，以计算准确性、宏F1、宏AUC、QWK和ICC的95%置信区间（CI）。

2.5 统计分析
连续变量以平均值±标准差表示，分类变量以计数（百分比）表示。模型间的准确性差异使用McNemar检验进行评估，AUC差异使用DeLong方法比较；应用自助重采样估计宏AUC差异的抽样分布，得到近似的z统计量和双侧p值。统计显著性设定为p<0.05，并为模型比较报告了确切的p值。所有分析都在Python 3.10（scikit-learn 1.3.0，PyTorch 2.1.0，pingouin 0.5.3）中进行。训练过程中应用了提前停止和ReduceLROnPlateau学习率调度。随机种子固定（Python/NumPy/PyTorch=42），并启用了确定性计算（cuDNN基准关闭，确定性启用）（33–36）。

3. 结果
3.1 无监督聚类显示单一特征集的分离能力有限
使用手工制作的图像描述符（“传统特征”）和来自自主学习对比学习（SimCLR）的嵌入进行了无监督聚类。为了定量验证数据的自然聚类结构，进行了Silhouette Score分析，K的值 ranging from 2 to 6。数据天然倾向于形成较少的聚类（例如K=2），而不是5个明确的组（补充图S1）。
当强制K均值聚类（k=5）与5个临床CEA等级对齐时，调整后的Rand指数（ARI）和标准化互信息（NMI）显示聚类与专家标签之间的一致性有限。重要的是，完全使用匈牙利匹配算法对混淆矩阵中的标签进行排序以进行视觉对齐；作为排列不变度量，原始和匹配的ARI/NMI分数在数学上是相同的。这两种方法都没有产生纯等级的聚类。这些发现从经验上证实，单独使用无监督方法不足以进行细粒度的序数严重程度分级，从根本上证明了我们监督多模式框架的必要性（补充图S1）。
3.2 监督学习显示传统特征比自主学习嵌入具有更好的性能
使用多种算法对手工特征、SimCLR嵌入及其组合（Concat和Concat_LASSO）进行了监督分类。基于LASSO的特征选择步骤（最优惩罚C = 0.3594）被应用于减少冗余（见补充表S1和图2）。图2展示了不同特征家族在监督机器学习中的表现。（A–D）使用传统特征集、SimCLR、Concat和LASSO正则化Concat的特征集进行的多类ROC曲线（一对余策略）。（E–J）六种机器学习算法的比较性能分析。评估指标包括（E）准确率，（F）宏F1分数，（G）宏AUC，（H）二次加权Kappa（QWK），（I）类内相关系数（ICC），以及（J）平均绝对误差（MAE）。与传统手工制作的特征相比，LASSO优化的集成在捕捉疾病严重程度的序数等级方面表现更优。总体而言，手工制作的定量描述符在预测CEA等级方面的性能显著优于自监督的SimCLR嵌入。使用传统特征时，支持向量机（SVM）和随机森林成为表现最好的分类器，准确率分别为0.650[95%置信区间：0.560–0.740]和0.630[95%置信区间：0.530–0.720]，宏AUC分别为0.881[95%置信区间：0.836–0.918]和0.868[95%置信区间：0.817–0.911]。此外，对这些传统模型在序数严重程度指标上的评估显示了出色的临床一致性：逻辑回归和随机森林的类内相关系数（ICC）分别为0.807和0.797，二次加权Kappa（QWK）得分分别为0.805和0.796，证明了手工制作特征的强烈临床相关性。相比之下，单独使用SimCLR嵌入的分离能力较弱，宏观AUC始终低于0.77。虽然直接的特征连接（Concat）引入了噪声并稍微降低了大多数线性分类器的性能，但应用LASSO正则化（Concat_LASSO）有效过滤了冗余并恢复了稳定性。例如，在Concat_LASSO特征上训练的随机森林获得了0.622[95%置信区间：0.444–0.743]的宏F1分数和0.870的宏观AUC。尽管如此，在传统的监督设置中，手工制作的特征仍然是最稳健的独立预测因子，为多模态深度学习集成奠定了坚实的基础。总之，在监督设置中，手工制作的特征仍然是最强大的预测因子，而SimCLR嵌入需要集成策略才能有效。

3.3 深度学习分析：仅使用图像的CNN提供了强大的基线，而结合LASSO选定的特征的多模态融合则带来了额外的增益。系统地评估了深度学习模型，以测试整合LASSO选定的表格描述符是否可以进一步增强仅使用图像的CNN基线（见补充表S2和图3）。图3展示了单模态和多模态融合的结果。（A–D）仅使用图像的基线和（E–H）表现最佳的多模态融合模型的混淆矩阵和ROC曲线，显示了整合手工制作的表格特征的影响。（I–K）在序数敏感指标上对仅使用图像、仅使用表格和融合模型进行统计比较：（I）QWK，（J）ICC，以及（K）MAE。误差条代表从1000次自助法迭代中得出的95%置信区间（CI）。多模态融合方法在统计上显著优于单模态基线（p < 0.05）。（L）从0.0到1.0逐步改变表格融合权重（αα）的消融研究，强调了空间表示和定量表示之间的最佳平衡。（J）改变融合权重α的消融实验显示，当α = 0.8时性能稳定。空间数据增强和Focal Loss（γ = 2.0）的实现建立了异常强大的仅使用图像的CNN基线（准确率 = 0.630[95%置信区间：0.530–0.720]，宏AUC = 0.826[95%置信区间：0.700–0.901]）。关键的是，CNN特征与LASSO选定的表格描述符的多模态后期融合（在α = 0.8时最佳，见图4A）在统计上显著优于仅使用图像的基线。最佳融合模型的准确率达到0.700[95%置信区间：0.610–0.780]，宏AUC达到0.904[95%置信区间：0.860–0.938]。图4展示了模型的LRP可视化结果。（A–E）传统融合模型（CNN + 表格特征，α = 0.8）在VISIA红斑增强图像（CEA0–CEA4）上的代表性LRP热图，表明高相关性区域与临床认可的红斑分布一致。（F–J）Concat融合模型（α = 0.2）的代表性LRP热图，显示中央面部区域的一致性分配模式，且在更高的CEA等级下激活强度和范围逐渐增强。统计测试确认了多模态方法的优越性：McNemar检验表明，融合模型纠正的错误显著多于它引入的错误（p = 0.031），DeLong检验确认了宏观AUC的显著提升（p = 0.024）（见补充表S3）。此外，为了明确评估模型捕捉红斑严重程度序数进展的能力，我们评估了二次加权Kappa（QWK）和类内相关系数（ICC）（见图3）。融合模型获得了显著的QWK（0.800[95%置信区间：0.675–0.888）和临床ICC（0.801[95%置信区间：0.720–0.860），表明与专家共识小组的吻合度非常接近。平均绝对误差（MAE）也显著降低到0.360。针对难以分类的CEA3等级的针对性错误分析通过标准化混淆矩阵显示了强大的临床安全性。尽管CEA3的确切召回率较低，但其超过95%的误分类严格分配给了相邻类别（即被预测为CEA2或CEA4），且没有严重的跨等级错误（例如被误分类为CEA0或CEA1）。这种相邻误分类模式反映了现实世界中观察者之间的差异性，证明了模型有效内化了疾病的序数严重程度。

3.4 LRP可视化突出了临床一致红斑区域的相关性。将层级相关性传播（LRP）应用于表现最佳的模型，以评估模型的归因是否与临床红斑模式一致（见图4）。两种融合模型都一致强调了易发生红斑的区域，包括脸颊、鼻子和口周区域——这些都是酒渣鼻的标志性特征。随着CEA等级的提高，LRP图显示了扩展和加剧的归因模式，与临床严重程度的进展相平行。在CEA0病例中，归因最小且主要局限于背景皮肤纹理。这些发现证实了多模态CNN不仅具备了强大的定量性能，而且将相关性指向了生物学和临床上有意义的区域。

4 讨论
酒渣鼻的严重程度分级仍然是皮肤病学中一个关键的未满足需求，因为目前的评估主要依赖于主观解释，导致分类不一致和治疗升级延误（1, 4）。在这项研究中，我们开发了一个基于VISIA高分辨率成像的多阶段人工智能（AI）框架，整合了手工制作的定量描述符、自监督表示和多模态深度学习策略。我们的发现表明，空间数据增强、Focal Loss以及图像和表格描述符的多模态后期融合在统计上显著优于仅使用图像的强基线（p < 0.05）。这些结果突显了临床可解释特征和深度学习表示的互补价值，支持AI在减少酒渣鼻分级变异中的作用。从临床角度来看，自动化的红斑评估具有重要的转化潜力。在门诊实践中，由AI衍生的分数可以为皮肤科医生提供可复制的定量指标，使高风险患者能够更早地进行干预（37）。在远程皮肤病学中，客观的计算机化分级有助于可靠的远程监测，减轻患者负担并扩大获得专业护理的机会（3）。在临床研究中，标准化的自动化终点可以改善多中心试验的结果测量的一致性，从而加速针对红斑的新疗法和美容干预的评估（15）。这项研究的一个显著优点在于它展示了可解释性。层级相关性传播（LRP）可视化确认了模型相关性图与临床认可的红斑分布一致，这是建立医生信任和支持临床应用的关键步骤（38）。此外，尽管多模态融合的改进幅度适中，但仍表明有机会扩展该框架，以整合额外的VISIA通道（例如紫外线、褐斑、卟啉）以及超出红斑的多尺度描述符（14）。从单模态严重程度分级发展到多标签学习，可以进一步全面评估血管重塑、色素沉着、毛孔密度和皮脂分泌，有助于为酒渣鼻患者创建数字“皮肤孪生体”（5）。

几个局限性应该得到承认。首先，这是一个单中心的回顾性研究，这可能限制了其普遍性。未来需要前瞻性的多中心二期试验来直接比较不同经验水平的AI诊断性能（例如，初级与高级皮肤科医生）。其次，由于关于面部图像去识别的严格伦理指南，详细的人口统计学元数据被限制为聚合统计数据，从而限制了亚组人口统计学分析。第三，使用Focal Loss在很大程度上缓解了CEA等级分布的固有不平衡，但严重病例仍然相对较少。第四，分析仅限于VISIA生成的正常和红斑增强图像，没有结合其他模式，如皮肤镜检查或反射共聚焦显微镜（RCM）。最后，可解释性分析仅限于定性的LRP热图，没有系统的定量验证。因为酒渣鼻红斑表现为一种没有明显解剖边界的弥漫性血管状况，从临床医生那里获取像素级别的定量“红斑掩码”具有高度主观性和临床不可行性。因此，在这种情况下，与临床认可的红斑分布的定性对齐仍然是最可靠的可解释性标准。

5 结论
本研究开发了一个多阶段AI框架，将VISIA?高分辨率成像与图像衍生的表格特征、自监督表示和多模态深度学习相结合，用于自动化评估酒渣鼻红斑的严重程度。虽然无监督聚类显示出了有限的分离能力，但监督机器学习证实了手工制作特征的强大区分能力。重要的是，深度学习实验确认，结合空间数据增强和Focal Loss以及多模态后期融合，在统计上显著优于单模态基线（p < 0.05）。ICC超过0.80以及局部化的相邻误分类模式的实现证实了模型有效捕捉了疾病的序数临床严重程度。此外，LRP可视化显示了模型相关性图与临床认可的红斑分布之间的紧密对齐，提高了可解释性。这项工作的意义在于建立了一个客观且可复制的工具，用于评估酒渣鼻的严重程度，补充了皮肤科医生的评估，并减少了观察者之间的差异。研究结果表明，AI增强的成像可以在常规皮肤病学实践、远程皮肤病学和临床试验中作为一个有价值的辅助工具，特别是在诊断一致性至关重要的场景中。

热点排行