引言
阿尔茨海默病(Alzheimer's Disease, AD)是一种不可逆的神经退行性疾病,其特征是细胞外β-淀粉样蛋白(Aβ)沉积和细胞内神经原纤维缠结,主要影响老年人群,导致记忆、思维、语言和日常生活能力严重受损。根据世界卫生组织2019年的统计,AD和其他形式的痴呆症是全球十大死因之一。患者的长期治疗和护理管理给家庭生活带来显著影响,并产生巨大的社会成本。
在AD的无症状期,部分患者可能在未经特殊治疗的情况下自发逆转。然而,一旦进入痴呆期,即使进行积极治疗,疾病也无法逆转,只能延缓其进展。在轻度认知障碍(Mild Cognitive Impairment, MCI)阶段,部分患者可能通过合理有效的治疗实现逆转。因此,在临床前期治疗AD是延缓疾病进展的最佳时机,这使得早期筛查和诊断至关重要。
成像技术是诊断AD的常用方法。通过磁共振成像(MRI)和正电子发射断层扫描(PET)对脑代谢进行的研究揭示了AD患者的特征性变化。一些研究通过神经影像处理工具(如FreeSurfer、MIPAV、FSL和SPM)手动从多张脑图像中提取特征,然后使用机器学习分类器实现AD分类。深度学习,特别是卷积神经网络(CNNs),能够有效从数据中提取潜在模式,并在AD诊断中取得了显著成功。典型的CNN架构如LeNet、AlexNet、GoogleNet、VGGNet、ResNet和DenseNet已被广泛用于早期AD诊断。尽管深度学习方法在疾病诊断中具有较高的预测准确性,但其在可解释性方面存在局限。在临床实践中,决策过程仍具有挑战性,并且在识别MCI患者方面的准确性并不高。
随着高通量检测技术的不断进步,积累了大量的多组学数据。研究人员致力于识别和诊断AD的关键生物标志物。全基因组关联研究、差异基因分析、基因共表达网络分析和机器学习等方法被用于筛选关键基因。这些关键基因的表达水平随后被用作输入特征来构建AD诊断模型。
一些研究人员通过整合不同模态的数据,构建了多模态AD诊断模型。例如,有研究将基于sMRI、PET和多模态融合图像的改进LeNet-5模型的结果,与基于临床痴呆评定量表的贝叶斯方法分类结果相结合,证明多模态辅助诊断方法可以取得良好的诊断效果。另有研究整合了人口统计数据、神经心理学测试和MRI相关生物标志物特征,应用机器学习模型来预测从MCI到AD的进展。还有研究结合了非侵入性特征(脑电图EEG、APOEε4基因型、人口统计数据、神经心理学和MRI数据)用于AD预测任务,发现多模态生物标志物有助于早期AD诊断。许多研究结果表明,基于多模态数据融合的诊断模型相比单模态诊断模型具有更高的准确性和更好的鲁棒性。因此,利用多模态数据融合开发早期AD筛查模型是一个重要的研究方向。然而,多模态数据在收集和处理困难、成本高昂、数据一致性和匹配等方面存在挑战。针对上述数据匹配挑战和病理修饰因素的双重影响,本研究从病理机制角度出发,提出了一种适应于非配对多模态组学数据的性别校正AD早期筛查诊断方案,并在配对数据上测试了该方法的性能。
数据与方法
GEO数据集
本研究从美国国家生物技术信息中心(NCBI)的基因表达综合数据库(Gene Expression Omnibus, GEO)下载了GSE84422数据集。该数据集包含来自125名不同程度痴呆症患者19个脑区的1053个样本。诊断标签包括“正常”、“可能AD”、“很可能AD”和“确诊AD”。
基因表达数据预处理
使用GEOquery包下载GSE84422数据集。首先,基于19个脑区类别对数据进行分组,随后进行预处理。预处理任务包括:基于平台探针信息进行基因注释,当一个探针映射到多个基因名时保留第一个基因名,对重复的基因名取其表达值平均值,删除包含缺失值的记录,保留表达值排名前40%的基因记录,并使用limma包进行归一化。
此外,为与ADNI数据集的类别标签保持一致,我们对诊断标签进行了合并:“正常”标记为CON(对照),“很可能AD”和“可能AD”标记为MCI(轻度认知障碍),“确诊AD”标记为AD(阿尔茨海默病)。数据集包含362个AD样本、439个MCI样本和252个CON样本。按不同脑区分组并清理数据后,得到的基因数据如表1所示。值得注意的是,本研究通过构建两个比较组:MCI-CON和MCI-AD,专注于提高对MCI类别的诊断准确性。
ADNI数据库
阿尔茨海默病神经影像计划(Alzheimer's Disease Neuroimaging Initiative, ADNI)数据库于2004年由美国国家衰老研究所、美国国家生物医学成像和生物工程研究所、美国食品药品监督管理局、私营制药公司和非营利组织发起。这项价值6000万美元、为期5年的公私合作项目,旨在测试系列MRI、PET、其他生物标志物以及临床和神经心理学评估是否可以结合起来衡量MCI和早期AD的进展。
本研究包含了来自ADNI 1、ADNI 2和ADNI GO队列的1530名个体的数据。ADNI数据集提供了一套全面的多模态数据,包括人口统计信息、临床指标、精神状态检查评分和神经影像特征,这对于与基因表达数据整合以构建稳健的AD早期筛查诊断模型至关重要。
ADNI数据预处理
我们利用FreeSurfer 6.0的纵向数据流,通过全自动工作流程处理图像。使用Destrieux(2009)脑图谱,我们在每个半球的灰质中识别了74个感兴趣解剖区域。值得注意的是,我们通过颅内体积(Intracranial Volume, ICV)对区域体积进行了标准化,以补偿个体在脑形态和整体头部大小上的差异。
为可视化疾病状态,使用Destrieux图谱计算了组织密度图。每张图像首先配准到单一脑模板,并分割为灰质和白质组织。Destrieux图为每种组织类型提供局部和独立的编码,并在配准过程中观察到体积变化。最后,提取了六个脑区的灰质体积特征:脑室(Ventricles)、全脑(Whole Brain)、海马体(Hippocampus)、内嗅皮层(Entorhinal)、梭状回(Fusiform)和中颞叶(Middle Temporal, MidTemp)。
保留的样本数据包括临床指标(认知测试)和T1加权体积MRI扫描。排除有任何数据缺失模式的样本。如果参与者至少有两个T1加权体积MRI扫描,则被纳入研究。为确保选择信息丰富的临床变量并稀释变量间的相关性,仅纳入缺失率低于30%的临床变量。使用链式方程多重插补(Multivariate Imputation by Chained Equations, MICE)方法对缺失率低于30%的数据进行填充,利用了R包MICE(版本3.14)。
在删除缺失值并进行插补后,预处理后的数据集(Dataset2)包含2186条记录,患者表型如下:635条CON记录、1043条MCI记录和508条AD记录。数据集包括27个特征,具体为:年龄、性别、APOEε4基因携带状态、三个脑脊液生物标志物(ABETA、TAU、PTAU)、来自精神状态检查和临床痴呆评定量表的15个特征,以及使用FreeSurfer提取的六个脑区的灰质体积特征。
我们从ADNI数据库下载了基因表达数据,其中包括745个样本,总计49,387个原始基因特征。基于患者标识符,将基因表达数据与Dataset2进行内连接,形成外部验证集(Dataset5)。最终得到的数据集包含148个配对样本,患者表型如下:22条CON记录、111条MCI记录和15条AD记录。Dataset5由325个特征组成。
差异表达分析
差异表达分析是通过搜索不同表型之间的差异基因数据来识别潜在生物标志物的最简单方法之一。我们使用limma包分别对19个脑区进行差异表达分析。
使用Limma提供的“lmFit”函数,将线性模型拟合到归一化数据。模型拟合后,使用limma中的“eBayes”函数计算经验贝叶斯修正t统计量和每个基因的p值。筛选差异表达基因的阈值设置如下:|logFC| > 1.5 且 p < 0.05。
最后,在MCI组和CON组之间以及MCI组和AD组之间设置了比较实验。为每个脑区汇编了满足阈值标准的差异表达基因。
加权基因共表达网络分析
加权基因共表达网络分析是研究基因共表达的典型方法,它通过构建无标度共表达网络,探索具有相似表达模式的基因与外部临床信息之间的关系。在基因共表达网络中,节点代表基因,边代表它们的共表达程度。我们使用“WGCNA”包构建共表达网络。实验的具体步骤包括:
- 1.
层次聚类和异常值检测:构建层次聚类树以观察和移除异常样本。
- 2.
邻接矩阵构建:选择软阈值幂为8,将相似性矩阵转换为邻接矩阵。基因i和j之间的共表达相似性Sij在邻接矩阵中定义。邻接性基于基因i和j的表达谱之间的皮尔逊相关系数|cor(xi, xj)|计算,其中aij=Sijβ,β是大于或等于1的软阈值幂,由无标度拓扑标准确定。
- 3.
拓扑重叠矩阵:构建拓扑重叠矩阵以测量每个基因的平均网络连通性。
- 4.
动态树切割:设置参数deepSplit为2,minModuleSize为20,并使用动态树切割方法将具有相似表达谱的基因划分到不同的模块,设置cutHeight值为0.9。
- 5.
模块特征基因计算:通过层次聚类构建树状图,并计算模块特征基因及其与性状的相关性。对于两个对照实验中的19个脑区,保留在基因共表达网络中相关性最高的基因模块。
通过这些步骤,WGCNA分析识别出与感兴趣表型关联最强的基因模块,同时保留在每个脑区表达的基因。
GO富集分析
GO分析广泛用于描述与特定生物过程、分子功能和细胞成分相关的基因和基因产物的生物学属性。我们使用R包clusterProfiler进行GO通路分析。GO富集结果使用Chiplot函数绘制的气泡图进行可视化。p值小于0.05被认为是显著的。
蛋白质-蛋白质相互作用网络分析
蛋白质-蛋白质相互作用网络由蛋白质及其相互作用组成。我们使用STRING数据库构建了与最相关差异表达基因相关的PPI网络,最低要求的相互作用置信度为中等(0.400)。
多模态数据融合
基于统计一致性匹配评分方法的核心思想,本研究实现了不同模态的非配对样本的随机匹配。众所周知,性别是调节AD发生和进展的关键修饰因素。为减少人群异质性引入的噪声,在随机匹配过程中增加了性别分层设计。以从GEO数据中筛选出的枢纽基因特征数据集(Dataset1)和来自ADNI数据的临床指标及影像特征数据集(Dataset2)为基础,分别构建了仅按患者类别标签匹配的非配对多模态数据集(Dataset3),以及按类别标签和性别两者匹配的性别校正多模态数据集(Dataset4)。同时,从ADNI数据库中提取了包含上述对应特征的配对多模态数据集作为模型的外部验证集(Dataset5)。
模型构建
本研究通过多阶段建模验证了多模态数据融合策略的有效性,并筛选了最优模型。首先,为4个数据集分别构建了随机森林分类模型。所有数据集按8:2的比例划分为训练集和测试集,模型采用默认超参数。为处理类别不平衡问题,仅对训练集应用SMOTE算法进行过采样。通过十倍交叉验证计算平均准确率、平衡准确率和宏观F1分数,以比较不同数据集的建模性能。
随后,专门针对Dataset4进行了优化:使用训练集进行特征选择,并使用独立的测试集验证特征有效性。特征选择在10折交叉验证框架内完成。对于每一折,在仅对子训练集应用SMOTE过采样后,使用随机森林计算特征重要性。基于从10个重要性排名结果中获得的前40个稳定特征,将其保留。
最后,以稳定特征为输入,构建了总共9个机器学习模型,包括逻辑回归、K近邻、决策树、随机森林、AdaBoost、梯度提升、支持向量机、极限梯度提升和轻量梯度提升机。所有模型基于Dataset4的训练集进行调整,并在独立测试集上初步评估其性能。使用外部验证集进一步验证泛化能力。评估指标包括准确率、加权精确率、召回率和F1分数,最终筛选出最优的AD诊断模型。
结果
差异基因分析结果
MCI-CON组和MCI-AD组在19个脑区差异分析的火山图如图2和图3所示。在MCI-CON组中,共鉴定出342个差异表达基因,其中顶叶上小叶脑区的差异表达基因数量最多,总计153个。在MCI-AD组中,发现了426个差异表达基因,其中伏隔核脑区数量最多,达到169个。
值得注意的是,在伏隔核、枕叶视皮层和壳核等脑区,两组间的差异表达基因数量存在显著差异。
加权基因共表达网络分析结果
对MCI-CON组和MCI-AD组在19个脑区进行了加权基因共表达网络分析。基于不同基因模块的相关系数,为每组提取了相关系数最高的基因模块。在MCI-CON组中,19个脑区的基因模块共包含2077个基因,而在MCI-AD组中,基因模块共包含2446个基因。考虑到19个脑区的基因总数庞大,我们考虑了脑区之间的潜在关联,并将至少在两个脑区中共表达的基因视为高度相关基因。最终,MCI-CON组有491个高度相关基因,MCI-AD组有895个高度相关基因。
蛋白质-蛋白质相互作用网络分析结果
合并MCI-CON组的342个差异表达基因和491个高度相关基因,共得到935个基因。同样,合并MCI-AD组的426个差异表达基因和895个高度相关基因,共得到982个基因。
对每组筛选出的基因进行了蛋白质-蛋白质相互作用网络分析。该分析在MCI-CON组鉴定出174个枢纽基因,在MCI-AD组鉴定出258个枢纽基因。
富集分析结果
合并MCI-CON组的174个枢纽基因和MCI-AD组的258个枢纽基因,共得到369个基因。对这些合并基因进行了GO富集分析,结果显示差异表达基因在突触信号传导、神经营养因子和联想学习等关键通路中富集。
多模态数据融合
通过对GEO数据集的分析,共鉴定出369个枢纽基因,其中301个基因在19个脑区的基因表达数据中被覆盖。为确保在ADNI外部验证数据集中的完全覆盖,将这301个枢纽基因的名称与ADNI数据库中的基因名称取交集。该交集结果在外部验证集中识别出298个基因特征,有三个基因的表达数据未被匹配。因此,GEO基因表达数据集最终包含298个基因特征。
基于样本类别标签,将GEO基因表达数据集与ADNI临床和影像数据进行随机合并,完成特征融合,得到一个随机匹配的多模态数据集。考虑到AD发病与性别的显著关联,进一步基于类别标签和性别信息对样本进行随机合并,创建了一个性别校正的随机匹配多模态数据集。值得注意的是,GEO数据集中MCI类别的女性样本数量超过了ADNI临床数据集,导致最终匹配的样本数量为1019,从而使得数据集规模有所减小。
此外,我们还考虑了早发型AD,即年龄在65岁以下的AD患者,试图构建一个年龄校正的随机匹配多模态数据集。然而,由于早发型AD病例稀缺,最终样本量不足100,这导致我们放弃了对该数据集的建模探索。表2展示了所构建数据集的详细信息。
基于随机森林的AD早期筛查诊断模型结果分析
使用随机森林方法开发了一个早期AD筛查模型。各数据集的平均交叉验证结果如表3所示。
如表3所示,单模态基因表达数据的诊断性能不佳。整合来自ADNI的临床指标、神经心理学评估和神经影像生物标志物,实现了优异的判别能力。随机配对融合进一步增强了预测能力,而性别校正的多模态集成尽管样本量适度减少,但仍保持了稳健的准确率。不同数据集的比较结果验证了本研究中构建的随机匹配多模态数据集的可行性。
特征选择与特征重要性分析
在Dataset4的训练集中进行了特征选择,获得了通过10折交叉验证产生的平均重要性最高的前40个特征。我们分析了Model4的特征重要性,图4显示了前40个贡献特征条形图。从图中可以明显看出,来自ADNI数据库的神经心理学评估量表贡献度最高,占据了前10名的所有位置。它们的合计贡献达到48.14%,对模型的预测性能具有决定性影响。在这些量表中,临床痴呆评定量表框总和排名第一,其平均重要性是第二名的近两倍。来自影像数据的脑区体积特征,如内嗅皮层、梭状回和海马体,分别排名第14、16和22位,中颞叶和全脑体积也位列前20。这些结果表明,结构和代谢影像特征有效增强了模型的性能。新引入的基因特征在贡献度上排在神经心理学评估量表、神经影像特征和核心AD病理指标之后。然而,包括IFI27、SERPINA3、RAP2A、S100A13、IFITM1、KIF5C和IFIT3在内的基因特征值得注意。这些基因中大多数比认知评估指标中的“RAVLT_forgetting”特征和影像数据中的“脑室”体积特征贡献更多,其中一些甚至接近海马体体积特征的重要性水平,这证明了它们对AD预测不可忽视的辅助价值。
基于机器学习的多模态融合AD诊断模型
利用随机森林模型对多模态融合数据的特征重要性评分,从Dataset4中筛选出前40个高贡献特征。比较了各种机器学习模型的AD诊断预测性能,包括逻辑回归、K近邻、支持向量机、随机森林、极限梯度提升、AdaBoost、决策树和轻量梯度提升机等。准确率和加权平均指标如表4所示。
在传统机器学习模型中,K近邻和支持向量机的表现明显较差,在测试集和外部验证集上的加权F1分数均低于0.60。逻辑回归表现出中等的稳定性,而决策树模型在不平衡的测试集上表现极差,尽管在外部验证集上有所恢复。
相比之下,集成学习算法表现出显著优越的性能。轻量梯度提升机模型在测试集上取得了最高指标,而随机森林模型在外部验证集上优于所有其他模型。值得注意的是,集成模型在两个数据集上都保持了稳定的性能,指标波动最小,而传统模型则表现出很大的波动性。这表明集成学习算法对不平衡数据具有优秀的拟合能力和强大的泛化性能,这是AD诊断应用的一个关键优势。
讨论
本研究首次尝试整合多模态特征用于阿尔茨海默病早期筛查和诊断的预测,其新颖之处在于整合了从ADNI和GEO数据库检索到的非配对数据集的数据。整合的多模态特征涵盖了AD患者的临床指标、血液生物标志物、神经心理学评估量表、从MRI成像中提取的脑区体积特征,以及通过差异表达分析和共表达网络分析识别的潜在遗传生物标志物。
通过整合多源数据集并采用随机森林算法,进行了AD诊断的比较实验,结果验证了多模态数据的预测性能显著优于单模态数据。提出的针对非配对多模态数据的性别校正随机匹配策略在早期AD筛查中表现出优异的预测性能,这也证明了其在小样本医学研究领域的潜在适用性。这种性别校正策略的合理性得到了关于AD性别二态性的丰富流行病学和神经病理学证据的有力支持。流行病学调查一致表明,与男性相比,女性晚发型AD的患病率更高,认知障碍进展更快,这与雌激素介导的对β-淀粉样蛋白清除和异常tau蛋白过度磷酸化的调节作用密切相关,这两个因素是AD的核心病理标志。此外,APOEε4基因型作为公认的AD遗传风险因素,已被证实在增加AD易感性和病理进展方面与女性性别具有协同效应。另外,神经影像学研究广泛观察到AD相关脑区结构可塑性的性别差异,这进一步凸显了在多模态特征融合中引入性别校正以消除性别二态性混杂影响的必要性。通过将性别校正纳入非配对多模态特征的随机匹配,本研究有效增强了特征融合的生物学可解释性,并确保了模型预测与AD临床病理特征的一致性。
我们也尝试构建基于深度学习算法的早期AD筛查诊断模型;然而,由于集成数据集本身存在小样本量和高特征维度的固有局限,模型出现了严重的过拟合。因此,选择了随机森林算法,这种基于装袋法的集成学习的经典代表,具有强大的抗过