编辑推荐:
基因共表达网络优化与多目标NSGA-II算法在异构数据集上的应用
贝赫纳姆·阿加詹(Behnam Aghajan)| 穆罕默德·雷扎·加埃米(Mohammad Reza Ghaemi)| 阿里·M·莫萨马姆(Ali M. Mosammam)| 埃姆兰·赫什马蒂(Emran Heshmati)| 科斯罗·哈利费(Khosrow Khalifeh)
伊朗赞詹大学(University of Zanjan)理学院数学系
摘要
基因共表达网络(Gene Co-expression Networks, GCNs)为从复杂的转录组数据中揭示功能基因模块和生物途径提供了一个强大的框架。然而,从噪声数据集中构建可靠的GCNs时,常常会产生虚假的边和生物学上不可信的拓扑结构。为了解决这一挑战,我们提出了一种基于非支配排序遗传算法II(Non-dominated Sorting Genetic Algorithm II, NSGA-II)的新型多目标优化方法,以改进GCNs中的边选择。我们的流程整合了方差稳定转换(Variance Stabilizing Transformation, VST)用于RNA-seq标准化、斯皮尔曼等级相关性(Spearman rank correlation)用于稳健的共表达估计、排列测试(permutation testing)来确定初始显著性阈值,以及自助重采样(bootstrap resampling)来评估边的稳定性。我们将这一框架应用于两个异构数据集:GSE10245(微阵列,n = 58)和GSE102349(RNA-seq,n = 113),同时优化了多个网络属性,包括稀疏性、模块性、无尺度拓扑结构和边的可重复性。与传统的广泛使用的方法(加权基因共表达网络分析Weighted Gene Co-expression Network Analysis, WGCNA)和准确细胞网络重建算法(Algorithm for the Reconstruction of Accurate Cellular Networks, ARACNE)进行比较分析后表明,我们的方法一致地产生了更稀疏、更具模块性的网络,这些网络更符合两种数据类型的生物学预期无尺度架构。这种自适应的、以优化为导向的策略为整合基因组学研究提供了坚实的基础,并在生物标志物发现和疾病机制建模方面具有重大潜力。
引言
通过微阵列和RNA-seq技术进行的基因表达分析通过重建基因共表达网络(Gene Co-expression Networks, GCNs),极大地推进了我们对生物系统的理解。在这些网络中,基因被表示为节点,统计上显著的共表达关系被表示为边,从而有助于发现功能模块、枢纽基因和潜在的调控途径(Stuart等人,2003年)。然而,由于技术噪声、批次效应和间接相关性等混淆因素,推断出生物学上有意义的GCNs仍然具有挑战性。这些因素常常导致网络过于密集,缺乏许多生物网络所具有的无尺度拓扑特性(Barabási和Oltvai,2004年)。过高的边密度增加了虚假关联的出现频率,从而降低了网络的精确度,网络的精确度通常定义为所有预测边中真正阳性边的比例(定义为1 - 密度,表示被排除为不相关的潜在边的比例)。此外,较差的拓扑收敛性(例如,通过偏离理想的模块性或聚类系数目标来量化,这在生物学上连贯的模块中通常观察到,例如约0.8,这是生物学上合理网络的一个目标截止值)可能会阻碍连贯功能模块的可靠检测(Langfelder和Horvath,2008年)。
在GCNs中,聚类系数衡量基因形成紧密相连模块的倾向,较高的值表示更强的模块性,通常对应于生物学上的功能组(Ravasz等人,2002年)。Kolmogorov-Smirnov(KS)统计量评估度分布与幂律模型的拟合程度,较低的值表示更好地符合无尺度拓扑结构,这是真实生物网络的标志,其中少数枢纽基因连接到许多其他基因(Clauset等人,2009年)。自助重采样通过量化边在子样本数据集中重新出现的频率来评估边的稳定性,较高的百分比(>0.8)表明连接是稳健的、非虚假的,能够抵抗抽样变异性(Efron和Tibshirani,1994年)。
传统方法如加权基因共表达网络分析(WGCNA)(Langfelder和Horvath,2008年)采用软阈值来实现无尺度拓扑结构,而ARACNE(Margolin等人,2006年)使用互信息和数据处理不等式来消除间接边。最近,Yakushi等人(2024年)应用WGCNA来识别预测乳腺癌生存的基因模块,重点关注免疫和炎症标志基因,并强调了它们与淋巴细胞渗入三级淋巴结构(TLS)的关联(Yakushi等人,2024年)。
此外,Karabekmez和Yar?c?(2024年)专注于在WGCNA中参数化非对称Sigmoid函数,以提高基因共表达网络的准确性,从而突出了传统方法的参数限制(Karabekmez和Yar?c?,2024年)。
尽管这些方法有效,但它们通常依赖于固定参数或启发式方法,这限制了它们对异构数据集(如微阵列(连续的、标准化的)和RNA-seq(基于计数的、异方差)的适应性(Conesa等人,2016年)。在微阵列数据中,由于预标准化,方差更加稳定,允许使用较少的排列重复次数(n_perm = 500)进行阈值估计而不会损失精度。相比之下,RNA-seq的较高噪声需要更多的重复次数(n_perm = 1000)来准确捕捉零分布的方差(Anders和Huber,2010年)。
为了解决这些挑战,我们提出了一个新框架,该框架采用非支配排序遗传算法II(NSGA-II)(Deb等人,2002年)进行动态优化边阈值。该模型整合了方差稳定转换(VST)用于RNA-seq标准化(Love等人,2014年)、斯皮尔曼相关性用于稳健的共表达估计、排列测试用于阈值初始化,以及自助重采样用于稳定性评估。通过优化四个目标(最小化密度、最大化聚类性、将伽马值近似为2.5以及增强稳定性),该框架产生了生物学上真实的网络。我们将该模型应用于GSE10245(来自人类样本的微阵列数据,重点关注疾病相关表达)和GSE102349(来自类似背景的RNA-seq数据),并将其与WGCNA和ARACNE在包括密度、伽马值、Kolmogorov-Smirnov(KS)统计量、平均度数、聚类系数、巨组件大小、节点数、边数、精度(1 - 密度)和收敛性(与理想聚类的距离为0.8)等常见指标上进行比较。我们的模型在无尺度拟合和稀疏性方面表现出优越的平衡性,突显了其在生物信息学中整合分析的潜力。综合方法,如Sahu和Mallick(2016年)使用共表达子网络来预测干细胞特性和细胞分化,强调了聚类和优化在增强生物学真实性方面的关键作用。我们的框架通过结合NSGA-II多目标优化算法以及自助重采样和聚类系数等工具,使得更有效地去除虚假边,并将基因网络引导向生物学上有意义的应用(Sahu和Mallick,2016年)。
因此,本研究介绍了一个基于NSGA-II的新型多目标优化框架,该框架同时优化了稀疏性、模块性、边稳定性和无尺度拓扑结构,从而从异构转录组数据中推断出生物学上合理的基因共表达网络(图1)。
所提出框架的基本方法创新不仅在于应用了NSGA-II算法,还在于其在多目标优化方案中紧密整合了稳健的统计评估步骤。与通用优化方法不同,我们的流程独特地(1)使用排列测试来特定于数据地初始化相关性的搜索空间,(2)将基于自助重采样的边稳定性作为优化的核心目标,(3)从帕累托前沿(Pareto front)自适应地选择最终阈值,以同时平衡稀疏性、模块性、无尺度拓扑结构和边的可重复性。这种闭环的、基于统计的优化方法使其区别于固定参数的启发式方法(例如WGCNA的软阈值)和其他不将排列/自助重采样与统一网络推断参数的搜索内在结合的多目标方法。
数据获取
数据获取
GSE10245:微阵列数据集来自基因表达综合数据库(Gene Expression Omnibus, GEO),包含58个样本,其表达值经过对数缩放和分位数标准化(图2)。原始数据以矩阵形式加载,基因作为行,样本作为列(Kuner等人,2009年)。
GSE102349:RNA-seq原始计数数据集也来自GEO,包含113个样本(图2)(Zhang等人,2017年)。
数据预处理
对于GSE102349,使用DESeq2中的VST(Love等人,2014年)对原始计数进行标准化,以稳定方差
GSE102349(RNA-seq)指标
所提出的NSGA-II框架为GSE102349数据集确定了最优的斯皮尔曼相关阈值0.600(从帕累托最优前沿中选择作为拐点解),得到的网络具有度分布指数(γ)为3.007、边密度为0.106、聚类系数为0.852、KS统计量为0.207、平均度数为78.38、巨组件大小为663个节点、总节点数为741个、总边数为29,040条、精度为0.894以及收敛度量为0.148。
算法特定性能特征
基于Z分数的全面比较分析揭示了三种网络推断算法在基本原理和性能权衡方面的根本差异。NSGA-II利用多目标优化框架,在竞争性拓扑目标之间实现了更好的平衡。它同时促进了稀疏性的提高并保持了生物学上合理的网络结构。其自适应配置包括特定于数据集的排列次数(n_perm = 1000
结论
我们提出的框架通过利用基于NSGA-II的多目标优化和管理密度、聚类和Kolmogorov–Smirnov(KS)统计量等指标,提高了传统方法的有效性,从而去除了非生物边并增加了网络的生物学真实性。多目标NSGA-II框架在广泛的评估指标和数据集类型中表现出卓越的适应性和平衡性。全面的Z分数分析确认了没有
CRediT作者贡献声明
穆罕默德·雷扎·加埃米(Mohammad Reza Ghaemi):监督、方法论、概念化。阿里·M·莫萨马姆(Ali M. Mosammam):方法论、调查、概念化。贝赫纳姆·阿加詹(Behnam Aghajan):撰写——原始草稿、方法论、调查、概念化。科斯罗·哈利费(Khosrow Khalifeh):撰写——审阅与编辑、验证、监督、概念化。埃姆兰·赫什马蒂(Emran Heshmati):验证、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了赞詹大学研究委员会通过博士论文资助的支持。