ATOMIC：基于图注意力网络和肠道微生物组共表达网络的特应性皮炎预测模型

《Frontiers in Immunology》：ATOMIC: a graph attention network for atopic dermatitis prediction using human gut microbiome

【字体：大中小】 时间：2026年01月08日 来源：Frontiers in Immunology 5.9

编辑推荐：

　　本文提出了一种创新的图注意力网络模型ATOMIC，通过整合微生物共表达网络和基因组信息，实现了对特应性皮炎（AD）的高精度预测（AUROC 0.810，AUPRC 0.927）。该模型不仅优于传统机器学习方法（如随机森林、支持向量机）和深度学习模型（如GCN、GraphSAGE），还通过注意力机制识别出与AD相关的关键微生物类群（如Ruminococcus_gnavus_group、Butyricicoccus等）。研究揭示了短链脂肪酸（SCFA）产生菌的减少和促炎菌（如Blautia、Streptococcus）的增加在AD发病中的作用，并通过富集分析发现Toll样受体（TLR）信号通路、IL-17信号通路等免疫相关通路显著富集。此外，研究团队公开了处理后的肠道微生物丰度数据集，为AD的个性化微生物组干预和生物标志物发现提供了重要基础。

1 Introduction

特应性皮炎（AD）是一种慢性炎症性皮肤病，以剧烈瘙痒和湿疹为特征，全球影响超过1.2亿人，其患病率持续上升。AD的发病机制涉及遗传、环境、皮肤屏障功能障碍和微生物群失衡等多种因素，但确切病因尚不清楚。当前治疗方法如dupilumab和局部皮质类固醇可缓解症状，但很少实现完全缓解，因此需要更深入地了解疾病机制。

近年来，肠道微生物群在AD发病机制中的作用受到越来越多的关注。肠道微生物群由约10-100万亿微生物组成，在免疫系统成熟中起关键作用。通过定植抗力（微生物之间对营养和空间的竞争过程），微生物群维持体内平衡并抑制致病生物。值得注意的是，在短链脂肪酸（SCFA）（如丁酸盐和丙酸盐）水平较高的婴儿中，观察到发生AD的风险降低。鉴于SCFA支持上皮屏障完整性并调节细胞因子产生和免疫反应，其耗竭可能削弱定植抗力并促进AD的发展。

随着肠道微生物群与AD关联的证据不断增加，益生菌和粪便微生物移植（FMT）等干预措施正被积极探索作为新型治疗策略。益生菌被定义为摄入后提供健康益处的活微生物，已显示可通过恢复肠道微生物群平衡来缓解AD症状。FMT涉及将健康捐赠者的粪便微生物转移给患者，具有抑制AD相关过敏反应和改善免疫调节的潜力。然而，这些基于微生物组的干预措施的有效性在很大程度上取决于准确识别疾病相关微生物类群。传统的基于丰度的统计分析在捕捉微生物组内复杂相互作用方面有限，可能忽略关键的疾病相关信号。为了克服这一限制，机器学习和深度学习模型正被越来越多地应用于从高维微生物组数据中学习复杂模式，并发现与疾病预测和治疗相关的新生物标志物。

例如，Pasolli等人提出了MetAML，应用随机森林（RF）和支持向量机（SVM）利用2,424个公开可用的微生物组样本预测疾病。然而，它仅使用微生物的丰度，未整合微生物基因组信息（如DNA序列），限制了其生物学可解释性。Oh等人开发了DeepMicro，一个基于自动编码器的深度学习框架，将微生物丰度数据转换为低维表示，然后使用RF、SVM和多层感知机模型进行分类以进行疾病预测。虽然这种方法在生成低维表示方面有效，但可能导致信息丢失且缺乏端到端架构。Liao等人引入了GDmicro，构建了每个节点代表一个个体样本的图，并通过域适应（DA）为每个节点导出潜在特征。然后使用图卷积网络（GCN）预测疾病。尽管DA增强了不同队列间的泛化能力，但将模型应用于新数据需要图重建和重新训练。尽管存在方法论差异，现有模型共享共同的局限性：它们通常未能纳入微生物关系并缺乏基因组信息，这阻碍了预测性能和生物学可解释性。传统机器学习方法（如RF和MLP）将微生物类群视为独立特征，因此忽略了微生物组固有的复杂相互作用网络。为了模拟这些相互作用，引入了基于图的方法；然而，经典图模型（如GCN）聚合来自相邻节点的信息而不考虑每个邻居的相对重要性。作为一种更先进的替代方法，图注意力网络（GAT）利用注意力机制动态分配相邻节点的重要性权重，允许模型聚合反映节点间差异重要性的信息。这种基于注意力的架构在捕捉复杂生物关系方面显示出潜力，并在染色质相互作用分析和单细胞Hi-C数据的细胞分类中表现出优越性能。然而，这些方法尚未应用于AD研究中的微生物组。此外，公开可用的肠道微生物组数据的稀缺性使克服这些限制变得复杂。根据最近的一项研究，仅220,017个人类肠道微生物组数据集可从美国国家生物技术信息中心（NCBI）公开获取，当仅限于AD时，这个数字可能更少。

为了解决这些局限性，我们提出了ATOMIC，一个用于利用人类肠道微生物组预测特应性皮炎的图注意力网络。ATOMIC是一种可解释的深度学习模型，结合了微生物共表达网络和微生物基因组信息来预测AD。与先前仅依赖丰度数据的模型不同，ATOMIC将微生物之间的关系及其基因组信息整合到基于图的架构中。通过利用GAT，模型学习捕捉微生物关系的表示，并识别对AD预测关键的微生物贡献者。此外，它通过注意力分数突出微生物级别的重要性来支持可解释性，从而能够发现与疾病预测和治疗相关的候选生物标志物。为了开发和评估，我们将ATOMIC应用于从成人AD患者队列收集的新肠道微生物组数据集，并公开了该数据集。

2 Materials and methods

2.1 Overview of ATOMIC

ATOMIC的概述如图1所示。我们首先构建了一个微生物共表达网络，其中每个节点代表一个微生物，每条边代表一个共表达关系。从每个样本中去除丰度值为零的微生物，以生成样本特异性图，这导致不同样本的图大小存在差异。图注意力网络v2（GATv2）层通过注意力权重合并来自相邻微生物的信息来更新节点表示。最后，通过自注意力读出获得图嵌入，并通过全连接层进行AD预测。

2.2 Atopic dermatitis sample collection and data preprocessing

我们从韩国春川江原国立大学医院（KNUH）皮肤科招募的99名成人参与者收集了肠道微生物组数据。该队列包括70名根据Hanifin和Rajka标准诊断为AD的患者，年龄18-69岁，以及29名无慢性炎症或自身免疫性疾病的健康对照。如果参与者使用了全身性免疫抑制剂或类固醇，有炎症或自身免疫性疾病史，或无法在预定日期±1周内访问，则被排除。研究方案经KNUH机构审查委员会批准（编号KNUH-2023-08-011-002），并获得所有参与者的书面知情同意。粪便样本收集在无菌容器中，并在收集后4小时内保存在-80°C。所有收集的样本储存在人类生物库的超低温冰箱（-80°C或以下）或液氮罐（-130°C至-196°C）中。分析完成后，剩余样本根据分析机构的处置协议进行处理。

为了增加样本量并提高微生物共表达网络构建的泛化能力，我们从NCBI数据库额外收集了1,392个来自AD患者和健康对照的样本。这些公开可用的数据集作为外部资源，通过增强微生物关联推断来训练更稳健的模型。这些额外样本来自韩国、香港、中国和日本进行的五项独立研究。

所有测序数据，包括来自KNUH和公共存储库的数据，均使用Illumina双端测序平台进行测序，靶向16S rRNA扩增子测序（V3-V4区域），并使用统一的生物信息学流程处理。使用的引物是314F（CCTACGGGNGGCWGCAG）和806R（GACTACHVGGGTATCTAATCC）。PCR产物的预期大小为460 ± 10 bp。我们在使用QIIME2预处理所有序列后，基于SILVA 138.1参考数据库进行微生物分类学分类和丰度估计。然而，由于在物种水平匹配的序列比例较低，我们将物种的丰度汇总以获得属级微生物丰度数据。然后将属级丰度在每个样本内归一化至总和为100。

2.3 Microbial co-expression network construction

我们构建了一个全局微生物共表达网络作为一个无向图G = (V, E)，其中节点代表微生物，边表示统计上显著的共丰度关系。为了定义边，我们使用成分调整阈值（COAT）方法计算微生物类群之间的相关系数，该方法基于成分变量之间的对数比推断相关性。为了构建稳健的网络，我们随机抽样数据集的80%五次，并在每次迭代中计算COAT相关性。仅在所有五次迭代中一致观察到的微生物相关性被保留为最终网络中的边。微生物共表达网络使用KNUH和公共数据集构建，而模型训练和评估仅在KNUH队列上进行。

我们将n个微生物节点集合表示为V = { (v_i, s_i) }_i=1ⁿ，其中每个节点i由一个64维丰度向量v_i∈ R⁶⁴和一个768维基因组向量s_i∈ R⁷⁶⁸表征。微生物i的丰度向量v_i是通过将微生物i的标量丰度乘以一个从均匀分布随机初始化的64维可学习向量获得的。基因组向量s_i源自DNABERT-2，一个基因组基础模型。具体来说，对于每个属级分类单元，我们对所有可用组成物种的DNA序列进行编码，然后计算这些向量的平均值。因此，每个微生物节点i具有初始表示h_i⁽⁰⁾∈ R⁸³²，通过连接其丰度向量v_i和基因组向量s_i获得。这些节点之间的连接由边集E = { e_ij| |c_ij| ≥ 0.1, i, j = 1,2,…,n, i ≠ j }定义，其中e_ij代表微生物节点(v_i, s_i)和(v_j, s_j)之间的共表达边，c_ij是其相应的COAT相关系数。

尽管共表达图的拓扑结构（即边集E）在所有样本中是固定的，但活动节点的集合因样本特异性微生物组成而异。对于每个样本，我们通过去除对应于丰度为零的微生物的节点来构建子图。因此，每个样本具有不同的图大小，反映其个体微生物谱。这种策略能够在保留一致共表达骨干的同时实现样本特异性图表示，从而以生物学上有意义且可扩展的方式促进微生物相互作用的有效学习。

2.4 Graph neural network for learning microbial co-expression relationships

构建微生物共表达网络后，我们应用GATv2来模拟微生物之间的关系并预测AD。GATv2是原始GAT的改进架构，解决了静态注意力的局限性，即某些关键节点无论查询节点如何都持续获得高注意力权重。这种静态排序降低了模型捕捉上下文相关相互作用的能力。相比之下，GATv2引入了动态注意力，允许注意力权重根据查询节点而变化。这使得能够对图中复杂的关系结构进行更具表达力和灵活性的建模，这对于捕捉样本特异性微生物相互作用尤为重要。

在每个GATv2层l中，相邻节点j对目标节点i的重要性使用注意力系数计算。GATv2采用多头注意力机制，其中每个注意力头k独立学习不同的注意力模式。然后使用softmax函数对所有邻居j ∈ N_i的这些注意力系数进行归一化，正式定义为公式1：

α_ij^(l,k)= exp( a^(l,k)T· LeakyReLU( W^(l,k)· [h_i^(l-1)|| h_j^(l-1)] ) ) / ∑_{j'∈N_i}exp( a^(l,k)T· LeakyReLU( W^(l,k)· [h_i^(l-1)|| h_j'^(l-1)] ) ) (1)

其中a^(l,k)表示注意力向量，W^(l,k)表示层l中第k个注意力头的线性变换矩阵，||表示向量连接。

层l中节点i的更新表示通过聚合其邻居的特征（由所有K个头的注意力系数加权）计算，如公式2所示：

h_i^(l)= ||_k=1^K∑_{j∈N_i}α_ij^(l,k)· W^(l,k)h_j^(l-1)(2)

其中h_i^(l)表示层l中节点i的更新表示，K是注意力头的数量；W^(l,k)是层l中第k个注意力头对应的线性变换矩阵。

在最终的GATv2层L中，所有注意力头的节点嵌入被平均，如公式3所示：

h_i^L= (1/K) ∑_k=1^K∑_{j∈N_i}α_ij^(L,k)· W^(L,k)h_j^(L-1)(3)

得到的节点嵌入h^L= [h^L₁, h^L₂, …, h^L_n], h^L_i∈ R^F，其中F表示更新后节点嵌入的维度，用于通过基于注意力的读出计算图嵌入。每个节点嵌入h^L_i使用可学习的线性变换矩阵W_p∈ R^1×F投影为标量重要性分数?_i，如公式4所示：

?_i= W_ph^L_i(4)

为了将基于注意力的节点重要性纳入用于AD预测的图嵌入中，我们通过应用softmax函数计算每个节点i的注意力分数A_i，如公式5所示：

A_i= exp(?_i) / ∑_j=1ⁿexp(?_j) (5)

最终的图嵌入P然后使用注意力分数A_i作为节点嵌入的加权和计算。最后，图嵌入P被馈送到具有两个隐藏层的全连接网络中以预测AD。在我们的实现中，我们使用了三个堆叠的GATv2层（L = 3），每个层配置有八个注意力头（k = 8）。每个节点表示的输出维度设置为32（F = 32）。为了提高泛化能力，我们应用了边丢弃（p = 0.3）、Mish激活、节点丢弃（p = 0.3）。

2.5 Model implementation

我们的99个样本数据集被分为59个样本的训练集、20个样本的验证集和20个样本的测试集，对应大约60:20:20的比例。我们使用PyTorch实现了ATOMIC架构，并使用AdamW优化器优化模型。初始学习率设置为0.0001，批量大小为16，学习率计划每10个周期衰减1%。超参数，包括层数、注意力头数、丢弃率和学习率，基于使用4折交叉验证策略的网格搜索进行优化，以最小化验证损失。我们在配备Intel Xeon Gold 6230 CPU、512 GB内存和NVIDIA A100 GPU的计算机器上训练我们的模型。

3 Results

3.1 Performance on the KNUH dataset

我们通过将ATOMIC与几种基线模型进行比较来评估其在KNUH数据集上的性能，包括基于深度学习的方法，如GDmicro、DeepMicro、GCN和GraphSAGE，以及传统机器学习模型，如MetAML、RF和SVM。GDmicro最初设计带有域适应（DA）以增强跨队列泛化能力。然而，由于我们的模型专注于在单个AD队列内优化性能，我们禁用了GDmicro的DA组件，以确保在同一队列设置下进行公平和直接的比较。

结果，ATOMIC在大多数基线模型中表现优异，在五次独立运行中实现了接收者操作特征曲线下面积（AUROC）为0.752 ± 0.069（95% CI: 0.666-0.838），精确召回曲线下面积（AUPRC）为0.894 ± 0.027（95% CI: 0.860-0.928），F1分数为0.784 ± 0.108（95% CI: 0.650-0.918）。尽管观察到一些性能变异性，可能是由于训练样本量有限，但模型展示了强大的整体预测能力。通过对具有不同随机初始化的五次独立运行中训练的模型的输出概率进行平均，集成实现了更稳定和准确的预测。具体而言，基于集成的ATOMIC与非集成版本相比，AUROC提高了7.71%，AUPRC提高了3.69%，F1分数提高了7.91%。与没有DA的GDmicro相比，我们基于集成的ATOMIC实现了具有竞争力的AUROC性能，并在AUPRC（17.6%）和F1分数（12.8%）上显示出显著增益，表明更大的鲁棒性和判别力。值得注意的是，没有DA的GDmicro表现出更高的AUPRC方差，而我们的模型在运行间保持更稳定的性能。使用Mann-Whitney U检验评估统计显著性。具有集成的ATOMIC实现了显著高于RF（p = 0.004）、SVM（p = 0.002）、MetAML（p = 0.004）、GCN（p = 0.004）、GraphSAGE（p = 0.004）和DeepMicro（p = 0.004）的AUROC分数，证实了我们的方法在识别真阳性方面的鲁棒性。一些基线模型显示出相对较低的AUROC性能，可能是因为它们捕捉非线性微生物间依赖性的能力有限以及缺乏微生物基因组特征整合。相比之下，ATOMIC受益于利用微生物共表达模式，能够更有效地建模复杂微生物相互作用，最终导致更准确和稳定的AD预测。

我们使用从自注意力读出导出的图嵌入和微生物丰度数据可视化样本表示，以检查AD和健康对照样本之间的聚类模式。图2显示了KNUH数据集的t-SNE图，其中图A对应于图嵌入，图B对应于微生物丰度数据。基于图的表示揭示了AD和健康对照组之间比基于丰度的特征更清晰的聚类边界。为了定量评估组间可分离性，我们计算了两种表示的轮廓分数。图嵌入产生了显著高于微生物丰度数据（0.055, p = 0.119）的轮廓分数（0.566, p = 0.001），表明优越的类别分离。这些结果表明，ATOMIC中基于图的注意力机制捕捉了微生物组中潜在的结构模式，这些模式从丰度 alone 来看并不明显，从而有助于其增强的分类性能。

3.2 Ablation study

为了评估ATOMIC内各个组件的贡献，我们通过移除微生物基因组信息并改变共表达网络的结构进行了消融实验。如图3所示，从节点表示中排除基因组信息导致模型AUROC性能显著下降（p = 0.045, Mann-Whitney U检验），突出了在丰度数据旁边整合基因组背景对于微生物特征表征的重要性。此外，当移除基因组信息并为每个样本随机打乱共表达图的边时，AUROC性能进一步下降（p = 0.028）。这表明编码在共表达网络中的结构化微生物关系在增强预测准确性中起关键作用。总的来说，这些结果证实了微生物基因组信息和生物学上有意义的共表达结构对于使用ATOMIC进行稳健的AD预测都是必不可少的。

3.3 Model interpretation with attention scores

ATOMIC的一个关键优势是其可解释性，这是由自注意力读出层导出的注意力分数实现的。在图表示中，每个节点对应一个微生物属，节点i的注意力分数A_i量化了其在模型预测中的相对重要性。由于样本中所有节点的注意力分数总和为1，它们允许进行微生物相关性的样本内比较。请注意，这些分数是非方向性的；高分表示预测重要性，但并不暗示该微生物在样本中是富集还是耗竭。

为了识别与AD预测最相关的微生物，我们在测试集中正确分类为AD的样本中汇总了注意力分数。由于每个样本包含不同的微生物子集，直接比较原始注意力分数跨样本是不合适的。为了解决这个问题，我们应用了中心对数比（CLR）变换，这是组合数据归一化的常用方法。CLR通过将每个注意力分数除以同一样本中所有分数的几何平均值来变换分数，从而实现样本间比较。归一化后，我们计算并排名每个微生物的平均CLR变换注意力分数。表3列出了具有最高CLR变换注意力分数的前10个属，以及支持文献，所有这些都先前被牵涉到AD中。因为高注意力分数反映了预测贡献，所以如果它们为AD分类提供信息模式，保护性和风险相关类群都可以被优先考虑。

排名最高的属是Ruminococcus_gnavus_group（CLR分数 = 4.877），一种众所周知的SCFA生产者。SCFA促进调节性T细胞（Treg）的分化，支持肠道和表皮屏障完整性，并发挥广泛的抗炎作用。其他高度排名的属，包括Buty