解码早发性卵巢功能不全:组蛋白家族基因的作用及其诊断潜力
《Egyptian Journal of Medical Human Genetics》:Decoding premature ovarian insufficiency: the role of histone family genes and their diagnostic potential
【字体:
大
中
小
】
时间:2026年05月10日
来源:Egyptian Journal of Medical Human Genetics 1.1
编辑推荐:
摘要
背景
目前,先天性卵巢功能不全(POI)的诊断受到对其分子基础理解有限的制约。尽管临床评估主要依赖于激素分析和超声检查,但POI固有的遗传异质性和复杂的病因学需要识别出可靠的基因组生物标志物,以阐明发病机制并提高早期检测能力。
主体
这项整合生物信息学分析
摘要
背景
目前,先天性卵巢功能不全(POI)的诊断受到对其分子基础理解有限的制约。尽管临床评估主要依赖于激素分析和超声检查,但POI固有的遗传异质性和复杂的病因学需要识别出可靠的基因组生物标志物,以阐明发病机制并提高早期检测能力。
主体
这项整合生物信息学分析通过多队列表达谱分析来研究POI的遗传特征。我们对汇总的卵巢数据集进行了加权基因共表达网络分析和差异表达筛选,以识别共同的致病信号。功能富集分析显示,这些信号与系统性红斑狼疮通路和以着丝粒蛋白A变异核小体为中心的染色质组织有显著关联。蛋白质相互作用网络构建确定了一组紧密相连的组蛋白家族成员及其他基因,包括HIST1H4F(H4C6)、HIST1H4K(H4C12)、HIST1H2AK(H2AC13)、HIST1H4H(H4C11)、HIST1H2AJ(H2AC14)、RNF213、STAT2、MT1E和MT1A作为核心枢纽基因。随后的免疫浸润评估表明,这些组蛋白转录本与幼稚B细胞群体之间存在优先关联。利用小鼠卵巢转录组数据进行跨物种验证,进一步支持了这一组蛋白轴的失调。此外,接收者操作特征分析表明,在候选基因中,HIST1H4F具有最具区分能力,其潜在的信号传导途径与视黄酸诱导的基因I样受体相关。
结论
这项探索性研究表明,特定组蛋白家族基因在POI的病理生理学中起着关键作用,HIST1H4F成为进一步诊断评估的显著候选基因。这些发现强调了从纯描述性遗传学转向人类外周样本功能验证的必要性。未来的研究应聚焦于这些染色质调节因子的纵向分析,以确定其在指导患者分层和监测卵巢储备动态中的临床应用价值。
引言
先天性卵巢功能不全(POI),也称为卵巢早衰(POF),是一种发生在40岁之前的女性生殖系统疾病,其特征是促性腺激素水平升高和雌激素缺乏,主要机制与卵巢卵泡衰竭或破坏有关[1]。POI的发病率高达3.7%,并且每年有上升趋势[3],越来越多的年轻女性被诊断出患有此病。其临床表现包括月经失调、闭经以及绝经后症状,如情绪异常、失眠、潮热和骨质疏松[4, 5]。它是不孕症和妊娠失败的重要原因之一[6],也是女性生殖健康的关键挑战。目前,激素替代疗法用于改善POI患者因雌激素水平低下引起的绝经期症状[2]。这种方法可以通过平衡激素水平来改善某些卵泡的功能并缓解症状。然而,长期使用不仅不能完全恢复卵巢功能,还会增加乳腺癌等风险。
POI具有高度异质性和广泛的病因学。现有研究表明,POI的病因复杂,与自身免疫、遗传和医学因素密切相关;但在大多数情况下,其确切病因尚不清楚[7, 8]。各种病因因素之间是否存在关联仍需进一步探索。POI的发病机制与种族、环境和营养因素密切相关,表明遗传因素是POI的主要原因,25%–30%的POI病例由遗传缺陷引起[9];因此,探索遗传缺陷是研究特发性POI病因的主要方向。相关的遗传异常包括染色体异常和基因表达异常。当前的研究主要集中于探索与POI相关的异常表达基因[10, 11]。虽然POI的候选致病基因谱逐渐丰富,但导致POI的相关遗传因素较为复杂,需要进一步研究异常表达的基因或基因组。POI是女性不孕的主要原因,及时诊断和干预对于控制高风险群体的疾病发展至关重要,尤其是对于初期没有典型症状的POI患者以及月经初潮前就出现POI的女性[2]。研究POI机制及其致病基因不仅有助于理解卵子发生和卵巢功能的分子基础,还为早期诊断和药物靶点提供了有力依据。通过明确多态性变异的表达,有助于改善患者的预后和生育能力,并为POI患者的生育理论提供指导。
材料与方法
数据来源
通过输入“Premature Ovarian Insufficiency”或“Premature Ovarian Failure”在Gene Expression Omnibus(GEO)数据库(https://www.ncbi.nlm.nih.gov/gds/)中搜索相关数据集。搜索截止日期为2024年4月3日。我们从GEO数据集中选择数据进行后续筛选。检索与POI相关的数据集时设置了以下标准:(i)每组的样本量≥3个;(ii)包含正常组和对照组样本;(iii)故意从不同物种中选择发现数据集和外部评估数据集,以评估这些发现是否反映了哺乳动物间的保守生物学机制(考虑到核心组蛋白基因的高进化保守性);(iv)数据集必须包含可导出的原始完整数据。所有分析均在R版本4.4.3中进行。
加权基因共表达网络分析
为了识别与POI相关的基因共表达模块,我们使用基因表达谱排除了MAD最小的前50%的基因,利用WGCNA包(v1.72)中的goodSamplesGenes功能识别并移除了异常基因和样本,并使用WGCNA构建无尺度共表达网络,通过功率函数构建加权邻接矩阵。软阈值参数β强调了基因间的强相关性,并惩罚弱相关性。确定功率值后,将邻接矩阵转换为拓扑重叠矩阵并计算相应的差异性。表达谱相似的基因被分组为基因模块,最小模块大小为30个。灵敏度设置为3。为了进一步分析这些模块,我们计算了模块特征的相似性,选择了模块树图的切割线,并合并了距离小于0.25的模块。选择与POI高度相关的模块,并从中获取基因进行进一步分析。
差异表达基因识别及GSEA分析
使用R包limma(v3.28.6)识别POI中的差异表达基因(DEGs)。具体而言,处理数据集,将其转换为表达矩阵并进行分组。数据集被标准化并设定P<0.05,表达差异倍数(FC)>1.2。结果显示出上调和下调的基因信息。基因集富集分析(GSEA)使用MSigDB基因集进行,显著性设定为P<0.05。
其他数据库筛选和模型构建
为了更广泛地利用数据,我们从四个常用数据库CTD、GeneCards、OMIM和DISGENET中编译了更全面的POI相关基因集合。搜索截止日期为2024年4月3日。在每个数据库中输入关键词“Premature Ovarian Insufficiency”或“Premature Ovarian Failure”进行搜索和筛选。我们使用在线工具(https://jvenn.toulouse.inra.fr/app/example.html)生成了数据库、WGCNA和DEGs中重叠基因的维恩图。为了进一步探索这些重叠基因的诊断价值,我们使用机器学习构建了可靠性预测模型。回归分析使用R包glmnet(v4.1-8)中的最小绝对收缩和选择运算符(LASSO)进行。基因表达值作为预测变量,样本组作为响应变量。使用cv.glmnet函数进行模型的交叉验证(cv),并绘制cv图以确定最佳正则化参数。基于Lasso回归的系数,将非零系数的基因识别为候选标志基因。这提供了对这些基因的更细致理解。
基因富集分析
为了进一步了解参与基因富集的信号通路和生物过程,我们使用R包clusterProfiler(v3.0.4)进行了KEGG富集分析和GO功能注释。结果在P<0.05的水平上进行了筛选。KEGG富集分析提供了关于关键基因所富集的信号通路的清晰理解,GO功能注释涵盖了生物过程、分子功能和细胞功能,有助于更全面地理解基因功能。
枢纽基因识别与分析
为了阐明分析中获得的蛋白质之间的相互作用,我们使用在线工具STRING(https://string-db.org)构建了蛋白质-蛋白质相互作用(PPI)网络。物种设定为“Homo sapiens”,将获得的蛋白质数据导入Cytoscape(http://www.cytoscape.org)(v3.8.2)进行PPI网络分析和可视化。为了理解该网络中单个基因的重要性并识别枢纽基因,我们使用Molecular Complexity Detection(MCODE)插件分析了PPI网络的关键功能模块,参数设置为:度数截断=2、最大深度=100、节点得分截断=0.2和k-core=2。然后我们基于度数值算法使用cytoHubba插件分析了PPI基因。
机器学习模型验证
为了评估识别出的枢纽基因的诊断性能,我们构建了四种机器学习模型:随机森林(RF)、支持向量机(SVM)、极端梯度提升(XGB)和广义线性模型(GLM)。分析使用R包randomForest(v4.7-1.2)、e1071(v1.7-17)、xgboost(v3.2.0.1)和glmnet(v4.1-8)进行。模型性能通过AUC值进行评估。
免疫细胞
尽管CIBERSORT和ssGSEA最初是为了固体组织开发的,但它们已被广泛应用于血液来源的转录组数据,因为循环免疫细胞的比例可以从外周血表达谱中可靠地估计出来[12,13,14,15]。因此,我们使用这些工具来表征感兴趣区域(POI)中的免疫景观。首先,我们对数据集的表达谱进行了全面的免疫相关性分析。差异表达基因(DEGs)接受了ssGSEA和CIBERSORT的处理,然后使用R包GSVA(v1.14.1)和IOBR(v0.1.3)根据之前获得的表达谱计算了每个样本的免疫浸润细胞评分。接下来,我们进一步分析了每个样本的免疫浸润细胞,以获得中心基因与免疫细胞比例之间的相关性。
中心基因的验证
为了进一步了解从分析中获得的中心基因的重要性,我们使用R语言用另一个数据集对它们进行了验证。统计显著性设定为P < 0.05。
接收者操作特征曲线(ROC)分析
使用R包pROC(v1.17.0.1)进行了接收者操作特征(ROC)曲线分析,以评估每个基因的诊断性能。计算了曲线下方的面积(AUC)及其95%置信区间。
单基因GSEA和GSVA
为了辨别从分析中得出的最具特征性的基因的功能动态和通路变化,我们使用了GSEA和基因集变异分析(GSVA)。这些分析有助于识别这些基因中的功能性和通路变化。通过评分和可视化描述,我们阐明了可能与每个基因相关的生物学过程和通路,从而更细致地理解了它们在疾病机制中的作用。
结果
我们从GEO数据库中检索了20个以“早发性卵巢功能不全”为关键词的数据集,以及25个以“早发性卵巢衰竭”为关键词的数据集。根据条件筛选,我们选择了GSE48902数据集进行数据分析。为了减少使用单一数据集可能产生的误差,我们选择了另一个数据集GSE39501,在独立的背景下评估结果。发现数据集GSE48902包含6个对照组样本和18个POI样本,而验证数据集GSE39501包含3个对照组样本和3个POI样本。有关数据集和特性的具体信息,请参见表1。
表1 数据来源的具体信息
全尺寸表格
在这项研究中,发现数据集(GSE48902)来自具有脆弱X突变个体的外周血,这是早发性卵巢功能不全(POI)的一个已知遗传原因。尽管这个数据集不代表特发性POI或卵巢组织,但它提供了与POI发病机制相关的转录组数据,并由于数据的可用性而被选为发现队列。外部评估数据集(GSE39501)来自肌肉组织(Mus musculus)的卵巢组织。鉴于核心组蛋白基因在哺乳动物中的高度进化保守性,我们采用了这种跨物种设计来探索组蛋白相关的表达模式是否可能反映了POI中的保守机制。
POI的加权基因共表达网络分析
对GSE48902数据集进行了预处理和分析,以获得样本聚类,如图2所示。然后选择β = 8作为构建共表达网络的软阈值。使用动态树切片算法进行了模块识别,在合并相似模块后,生成了39个模块,每个模块内的基因高度相关。通过将GSE48902数据集中的模块与样本的临床特征(治疗组和对照组)相关联,并将MM阈值设为0.7,GS阈值设为0.1,权重阈值设为0.1,我们发现GSE48902数据集中前三个相关的模块(洋红色(r = 0.36,P = 0.08),黄绿色(r = -0.37,P = 0.07)和中等紫色2(r = 0.48,P = 0.02)与临床特征高度相关。因此,我们从这些模块中选择了500个基因进行关键基因的进一步筛选。
图2
此图像的替代文本可能是由AI生成的。
全尺寸图像
加权基因共表达网络分析。选择了β = 8(红线)作为软阈值。B 模块邻接热图:白色 = 低相关性,红色 = 高正相关性,蓝色 = 高负相关性。C 基因聚类树状图。每个叶子代表一个基因;分支根据动态树切割的结果进行着色。D 模块特征基因与临床特征之间的相关性热图。行:模块;列:特征
差异表达基因分析(DEG)和GSEA
使用GSE48902数据集进行了limma差异分析。共获得了116个差异表达基因(图3A,B)。经过limma差异分析后,筛选出116个差异表达基因,其中27个上调,89个下调。从GSEA富集分析的结果来看,我们得出GSE48902的基因表达谱与乙醛酸和二羧酸代谢、DNA复制、类固醇生物合成、色氨酸代谢以及IGA产生的肠道免疫网络相关(图3C)。这些发现表明,代谢和免疫相关的通路可能对POI的发病机制有贡献,这促使我们在后续分析中进一步研究免疫细胞浸润。
图3
此图像的替代文本可能是由AI生成的。
全尺寸图像
POI和对照组之间差异表达基因(DEGs)的火山图。红色点代表显著上调的基因(log2FC > 1.2,P < 0.05);绿色点代表显著下调的基因(log2FC < -1.2,P < 0.05);灰色点代表非显著基因。B DEG表达谱的热图。行:单个基因;列:样本。颜色范围从绿色(低表达)到粉色(高表达)。顶部色条表示样本分组:对照组 vs. 治疗组。C 选定的通路的GSEA富集图。绿色曲线代表运行富集得分(ES)。正ES表示在POI组中富集,负ES表示在对照组中富集。每个通路的名义P值(NP)显示为P < 0.05
其他数据库筛选和机器学习分析
为了进一步筛选与POI相关的基因,我们分别从CTD、GeneCards、OMIM和DISGENET数据库中获得了20,697、5823、264和300个与POI相关的疾病基因(图4A)。通过结合在线数据库的目标并去除重复项,我们获得了21,399个与POI相关的目标。从数据库集合中获得的WGCNA、DEG和POI相关基因的交集得到了32个关键POI基因(图4B)。使用LASSO回归算法探索了这32个基因作为潜在标记物,HIST1H4F和WDR86被认为是与样本显著相关的特征基因(图4C,D)。
图4
此图像的替代文本可能是由AI生成的。
全尺寸图像
不同数据库中的基因分布。B 来自WGCNA、DEG分析和其他数据库的交集基因。C 使用LASSO回归对32个POI相关基因进行回归。D 在LASSO回归中使用交叉验证来微调参数选择
基因富集分析
为了探索识别出的关键基因的潜在功能,我们分别进行了KEGG通路富集分析和GO功能注释。KEGG通路富集分析显示,关键基因主要在与系统性红斑狼疮、酒精中毒、病毒致癌、矿物质吸收、坏死性凋亡、Kaposi肉瘤相关疱疹病毒感染、病毒性心肌炎和Epstein-Barr病毒感染相关的通路中富集(图5A,B)。特别是,HIST1H4I(H4C9)、HIST1H4K(H4C12)、HIST1H2AK(H2AC13)、HIST1H4H(H4C11)、HIST1H2AJ(H2AC14)和HIST1H4F在最多的通路中富集(图5C,F)。
图5
此图像的替代文本可能是由AI生成的。
全尺寸图像
基因富集分析。A KEGG富集分析的直方图。B KEGG富集分析的气泡图。C KEGG富集分析的圆形图。D GO功能分析的直方图。E GO功能分析的气泡图。F GO功能分析的圆形图
然后对同一基因集进行了GO功能富集分析。结果显示,关键基因主要与与染色质结构和着丝粒功能相关的GO术语相关,包括细胞对含有CENP-A的染色质的响应、巨核细胞分化负调节、含有CENP-A的核小体、含有CENP-A的染色质、染色体、着丝粒核心结构域和染色质的结构组成(图5D,E)。这些GO术语反映了组蛋白基因在染色质组织和染色体分离中的核心生物学作用,这与上述与免疫和病毒相关的KEGG通路不同。
中心基因的识别和分析
从分析中获得的32个基因被导入到STRING10.0中,并在选择了“Homo sapiens”物种后进行了蛋白质相互作用网络分析。排除了彼此不相互作用的基因。剩余的13个基因被用来构建蛋白质相互作用网络(图6A)。这个PPI网络使用Cytoscape 3.4.0中的MCODE插件进行了分析,并提取了紧密相关的基因聚类模块(图6B)。该聚类包括HIST1H4I、HIST1H4K、HIST1H2AK、HIST1H4H、HIST1H2AJ和HIST1H4F。这个聚类包含6个节点和15条边。使用cytoHubba插件进一步分析网络后,识别出十个中心基因(图6C,D):HIST1H4I、HIST1H4K、HIST1H2AK、HIST1H4H、HIST1H2AJ、HIST1H4F、RNF213、STAT2和MT1E、MT1A。
图6
此图像的替代文本可能是由AI生成的。
全尺寸图像
中心基因的识别和分析。A 蛋白质-蛋白质相互作用网络的构建。B MCODE聚类:红色 = 上调;绿色 = 下调;聚类的连通性较高。(C)通过CytoHubba识别中心基因。颜色越红,基因越重要;颜色越黄,反之则越不重要
模型验证
我们使用在GSE48902数据集上训练的四种机器学习模型评估了这十个中心基因的诊断性能。RF、SVM和XGB的AUC值为1.000,而GLM的AUC值为0.600(图7)。值得注意的是,GLM模型的表现明显低于其他三种方法。这种差异可能是由于样本量相对较小、基因表达特征之间的非线性关系,或者在更灵活的模型(RF、SVM、XGB)中过拟合,这些模型实现了完美的分离,这应谨慎解释。总体而言,集成模型(RF、SVM、XGB)在训练数据集上显示出了很强的预测能力,而线性模型(GLM)表现较差,表明非线性关系对于这个分类任务可能很重要。
图7
此图像的替代文本可能是由AI生成的。
全尺寸图像
模型验证。A 残差表达模式。B 模型表达模式。C 模型的AUC。D 模型性能比较
免疫细胞
免疫因素在POI的发展中起着关键作用。CIBERSORT分析显示,数据集中的基因参与了多种细胞的免疫浸润,包括M0巨噬细胞、浆细胞、CD8+ T细胞、CD4+ T细胞和幼稚B细胞(图8A)。ssGSEA分析显示与包括巨噬细胞、自然杀伤细胞和调节性T细胞在内的免疫细胞有相关性,且差异具有统计学意义(P < 0.05)(图8B)。免疫浸润分析显示,这些组蛋白家族主要与幼稚B细胞、M0巨噬细胞和活化的树突状细胞相关,其中与幼稚B细胞的相关性最高。RNF213、STAT2、MT1E和MT1A主要与活化的树突状细胞、幼稚B细胞和滤泡辅助T细胞相关,与树突状细胞激活的相关性最高(图8C)。
图8
此图像的替代文本可能是由AI生成的。
全尺寸图像
免疫相关性分析。A DEGs的CIBERSORT分析。B DEGs的ssGSEA。C 中心基因的CIBERSORT分析
中心基因表达的验证
我们使用独立的小鼠卵巢数据集GSE39501对六个POI中心基因进行了跨物种评估。结果显示有五个差异表达的中心基因:HIST1H4I、HIST1H4K、HIST1H2AK、HIST1H2AJ和HIST1H4F。在这些基因中,HIST1H4I、HIST1H4K、HIST1H2AK和HIST1H4F的表达水平较低(P < 0.05)。这与GSE48902数据集中的趋势一致,在该数据集中,HIST1H4I、HIST1H4K、HIST1H2AK、HIST1H4H、HIST1H2AJ和HIST1H4F在疾病中的表达水平都较低(P < 0.05)。如图9所示,HIST1H4I、HIST1H4K和HIST1H4F在疾病中的表达显著降低(P < 0.01)。
图9
此图像的替代文本可能是由AI生成的。
全尺寸图像
使用GSE39501验证6个组蛋白家族基因的表达。
图9
ROC曲线
使用PlotROC分析了HIST1H4I、HIST1H4K、HIST1H2AK、HIST1H4H、HIST1H2AJ和HIST1H4F的ROC曲线。ROC曲线显示,这六个基因在GSE48902数据集中对POI的诊断效率都很高,AUC值大于0.8,表明它们有可能作为POI的生物标志物。其中,HIST1H4F在该数据集中的诊断潜力最高,AUC = 0.92(95% CI = 0.79-1.00),表明它可能是一个值得进一步研究的候选标志物。为了进一步在跨物种背景下评估这些基因,我们使用小鼠卵巢数据集GSE39501重新分析了它们,结果表明HIST1H4I、HIST1H4K、HIST1H2AK和HIST1H4F在该跨物种评估中显示出较高的诊断潜力,AUC=1(95% CI=1.00–1.00),如图10所示。鉴于发现数据集和评估数据集之间的物种和组织差异,这一完美的AUC应谨慎解读。可能的解释包括小鼠数据集的样本量较小,以及组蛋白基因的高度序列保守性。因此,我们认为这一发现支持这些基因具有保守的诊断潜力,而不是直接验证其作为人类临床测试的适用性。图10的替代文本可能是使用AI生成的。全尺寸图像。
在GSE39501中6个组蛋白家族基因的ROC曲线。B. 在GSE48902中6个组蛋白家族基因的ROC曲线。
单基因GSEA和GSVA分析显示,HIST1H4F可能是与POI(多囊卵巢综合征)最相关的基因。KEGG分析的GSEA结果显示,HIST1H4F主要参与Toll样受体信号通路、RIG I样受体信号通路和胞质DNA感知通路。GO分析的BP显示,HIST1H4F主要参与了对抗共生体的反应、对病毒的响应以及病毒基因组的复制,如图11A、B所示。
单基因GO在HIST1H4F中的GSEA结果。B. 单基因KEGG在HIST1H4F中的GSEA结果。C. 单基因GSVA在HIST1H4F中的GO结果。D. 单基因GSVA在HIST1H4F中的KEGG结果。KEGG分析的GSVA显示,HIST1H4F主要参与了RIG I样受体、Toll样受体和NOD样受体信号通路。GO分析显示,HIST1H4F在主要通路中表现一致,包括负调控趋化因子C-C基序配体2的产生、负调控病毒基因组的复制以及Isg15蛋白的结合,如图11C、D所示。
POI(多囊卵巢综合征)的病因复杂,是女性不孕的主要原因之一,其发病率每年都在增加。此外,早期没有明显临床症状的POI患者以及月经初潮前就出现POI的女性面临复杂的生育挑战。目前,遗传因素是POI发病的主要原因,也是研究的主要方向[16]。因此,识别新的生物标志物是POI诊断和治疗创新的关键。生物信息学是一种可以从庞大的生物信息网络中寻找生物标志物的方法,而机器学习已成为生物信息学中的有用工具[17]。它通过分析数据来发现隐藏的模式,建立模型,并基于这些模型进行预测,从而有效地辅助生物信息学分析并大大提高其可靠性。
在这项研究中,我们通过分析与POI相关的数据集GSE48902,确定了POI的主要DEGs(差异表达基因),并从其他数据库中获得了32个关键的POI DEGs。通过机器学习和蛋白质相互作用网络分析,我们初步确定了POI排名前十的枢纽基因,发现组蛋白家族基因起着关键作用,其中最显著的基因是HIST1H4F。进一步分析这些枢纽基因的免疫相关信息后发现,组蛋白家族基因之间的免疫相关信息没有显著差异,而非组蛋白家族基因之间的差异明显,它们影响了不同的免疫因子。随后,我们使用外部数据集验证了这些关键的组蛋白家族基因,这证实了研究的可靠性。同时进行了ROC分析以了解这些基因的诊断潜力,结果显示HIST1H4F具有最强的诊断相关性;因此,对这个基因进行了GSVE和GSEA分析,揭示了其相关的信号通路。最后,我们使用四种机器学习计算方法验证了我们构建模型的可靠性,结果表明该模型具有良好的预测能力,并对早期识别和及时干预具有临床意义。
组蛋白是染色质的结构蛋白,它们与DNA一起形成染色质的基本单位——核小体[18]。目前研究已经确定了五种组蛋白类型:组蛋白1(H1)、组蛋白2A(H2A)、组蛋白2B(H2B)、组蛋白3(H3)和组蛋白4(H4)[19]。其中,H2、H3和H4的N末端容易发生甲基化和乙酰化等常见的共价修饰,这些部位含有丰富的赖氨酸和精氨酸残基[20]。组蛋白修饰是一种共价的翻译后表观遗传修饰,可以改变染色质结构并调节基因表达,包括组蛋白甲基化、乙酰化等。表观遗传学是指研究在不改变DNA序列的情况下,由某些机制引起的可遗传基因或细胞表达的变化。表观遗传调控是基因表达调控的重要机制,其中DNA甲基化和组蛋白修饰是最著名的表观遗传调控方式。当前研究表明,表观遗传修饰在自身免疫疾病的进展中起着重要作用[21, 22]。组蛋白乙酰化可能对卵母细胞的减数分裂抑制和恢复有重要影响[23]。组蛋白蛋白的甲基化,特别是H3K4的甲基化,也会影响卵母细胞的成熟,通过调节染色质的转录活性和减数分裂进程。排卵前的组蛋白乙酰化或甲基化可以促进类固醇激素的合成和分泌[24]。组蛋白乙酰化主要发生在H3和H4上,主要参与的蛋白质有组蛋白乙酰转移酶、组蛋白去乙酰酶和赖氨酸乙酰转移酶KAT8[23, 25]。这可以提高H4K16的乙酰化水平,从而促进抗氧化基因的表达,进而影响小鼠卵母细胞的发育。相比之下,组蛋白甲基化主要与染色质转录活性、基因激活和转录抑制有关,与乙酰化不同,涉及多个组蛋白家族,如H3K4、H3K36、H3K9和H4K20[26, 27]。H3K4的甲基化几乎涉及整个卵泡发育过程[28, 29]。因此,组蛋白的翻译后修饰与卵泡形成和发育成熟密切相关(图12)。组蛋白修饰可以影响POI的表型,即卵泡耗竭。遗传因素也影响其病因。此外,HIST1H4K和HIST1H4F也与男性不育有关,HIST1H4K可以通过免疫相关因素导致精神分裂症[30]。这种具体机制是与组蛋白甲基化还是乙酰化相关,尚需进一步探索。
图12的替代文本可能是使用AI生成的。全尺寸图像。
虽然我们的研究在外周血中发现了组蛋白基因的失调,但血液表达模式与卵巢病理生理学之间的机制联系仍需进一步探讨。几种非相互排他的解释可能解释了这种关联:首先,循环中的免疫细胞表达组蛋白,可能反映了POI卵巢微环境中活跃的系统性炎症或自身免疫过程[31, 32];其次,组蛋白可以通过细胞死亡或细胞外囊泡释放到血液中,其水平可能与远端组织(包括卵巢)的疾病活动相关[33, 34];第三,共同的调控通路可能同时改变血液中的组蛋白基因表达并影响卵巢卵泡的发育[35]。尽管使用小鼠卵巢组织的跨物种评估支持了组蛋白失调的保守性,但尚缺乏将血液来源的组蛋白特征与特定卵巢病变直接联系起来的证据。未来的研究应该比较POI患者的配对血液和卵巢组织样本,以澄清这一关系。
观察到的组蛋白基因与幼稚B细胞及活化树突状细胞之间的关联虽然具有推测性,但仍提供了潜在的生物学见解。幼稚B细胞在自身免疫过程中起着核心作用,而POI与自身免疫性卵巢炎有关。B细胞中组蛋白基因的失调可能有助于自身抗体的产生或改变B细胞的耐受性。同样,树突状细胞是关键的抗原呈递细胞,它们的活化可能反映了全身性炎症,这也影响到卵巢微环境。然而,由于我们的免疫细胞比例是根据原本为固体组织优化的算法从血液转录组数据估计的,且未经功能验证,这些解释仍然是需要实验验证的假设。
在这项研究中,与POI最强烈相关的基因HIST1H4F(也称为H4C6)属于组蛋白家族,它在细胞核内编码基础蛋白质。作为一种基础蛋白质,它主要调节DNA复制和转录,并与免疫调节和自身免疫疾病密切相关[36]。目前的研究表明,HIST1H4F的超甲基化与许多癌症有关。它已被用作多种肿瘤的潜在诊断生物标志物,并且在癌症中发现了异常的超高甲基化[37, 38, 39]。此外,HIST1H4F还与神经发育综合征有关[40]。值得注意的是,FMR1是一种负责POI发展的关键基因,它也导致神经发育综合征[41]。然而,关于该基因的研究不足。环磷酰胺是一种常用的化疗药物和强效免疫抑制剂[42],对卵巢具有高度毒性,可永久性损害生殖组织。卵巢是环磷酰胺对女性生殖的主要毒性目标器官[43]。本研究中发现的H4C6的超甲基化与肿瘤密切相关,而环磷酰胺的活性代谢物磷酰胺氮芥作为一种烷化剂,会与DNA交联,抑制DNA合成并抑制肿瘤或免疫细胞的增殖[44]。尽管当前研究没有直接探讨环磷酰胺与HIST1H4F之间的联系,但基于该基因在其他情境下的已知超甲基化,可以推测环磷酰胺可能会影响HIST1H4F的表达或甲基化。然而,这一假设仍需专门的基础研究来探讨环磷酰胺是否通过HIST1H4F相关机制导致POI。这样的研究可以为化疗引起的卵巢功能不全提供见解,但超出了当前生物信息学研究的范围。
在这项研究中,我们通过生物信息学和机器学习探索了HIST1H4F作为POI候选生物标志物的可能性,为POI的诊断和治疗提供了一种新方法。我们还从另一个角度探讨了POI的潜在机制,为后续研究开辟了新的思考方向。虽然在本研究中数据集是根据特定条件筛选的,但仍存在一些局限性。
这项研究的一个主要限制是使用了来自不同物种(人类发现数据集与小鼠评估数据集)和不同组织类型(外周血与卵巢组织)的数据集。尽管核心组蛋白基因的高度进化保守性为跨物种分析提供了生物学依据,但直接比较绝对表达水平或AUC值在方法学上存在问题。此外,血液中的基因表达模式可能不会直接反映卵巢中的分子事件。因此,我们从小鼠卵巢数据集中获得的发现应被视为支持保守机制的证据,而不是直接验证基于人类血液的诊断特征。未来的研究必须在独立的、特征明确的POI患者样本中验证这些结果。另一个主要限制是发现数据集(GSE48902)来自脆性X预突变携带者,而非特发性POI患者。脆性X预突变是已知的POI遗传原因,但它代表了一种特定的分子亚型。因此,我们的发现可能不能完全推广到其他原因引起的POI。未来的研究应在没有脆性X突变的特发性POI患者独立队列中验证这些已识别的组蛋白基因特征。其他限制包括:(i) 验证数据集(GSE39501)的样本量较小(每组3例),这增加了假阳性的风险。尽管发现数据集的样本量足够(6例对照组,18例疾病),但较小的验证队列限制了我们发现的普遍性。我们试图通过观察两个独立数据集中的一致表达趋势来缓解这一问题。尽管如此,结果仍应在更大的队列中进行验证。(ii) HIST1H4F在POI中的具体机制和作用,特别是它们是否与免疫或表观遗传组蛋白修饰相关,仍需阐明。这些机制需要通过基础实验和临床研究来验证。从POI患者中收集血液并进行PCR和Western blot分析将为确定HIST1H4F是否可以准确用作诊断标志物提供关键基础。(iii) 需要通过基础实验来研究POI是否涉及HIST1H4F的甲基化或乙酰化及其相关的组蛋白修饰机制。这是我们未来实验研究的一个关键方向。其他具有复杂内部相互作用的组蛋白家族基因也应进一步探索,如图13所示。总结来说,跨物种和跨组织的设计是一个主要的限制因素,我们的发现应被视为支持性证据,而非直接的临床验证。图13的替代文本可能是使用人工智能生成的。全尺寸图像展示了区分假设生成性发现(左侧)和支持性跨物种证据(右侧)的示意图。右侧面板包括了差异表达验证和ROC曲线验证(小鼠卵巢数据集中的AUC为理想值,但由于样本量较小需谨慎对待)。所有结论仍属探索性研究,需要在未来的临床试验中得到验证。
本研究丰富了关于POI(早发性卵巢功能不全)发病机制的研究。利用生物标志物进行疾病诊断和治疗将提高诊断的准确性和便利性,这是未来的发展方向。
**结论**
POI的发病机制和进展是由复杂的多种因素相互作用引起的。我们利用生物信息学和机器学习技术从复杂的基因相互作用簇中识别出潜在的候选基因。在组蛋白家族基因中,HIST1H4I、HIST1H4K、HIST1H2AK、HIST1H4H、HIST1H2AJ和HIST1H4F可能起着关键作用,其中HIST1H4F在我们的生物信息学分析中显示出与POI最强烈的关联,表明其作为候选生物标志物的潜力。然而,这些发现基于血液转录组数据和跨物种评估的结果,未来需要在经过充分表征的POI患者队列中进行人体血液或血清样本的研究,以确定其临床实用性。本研究为理解POI的潜在机制提供了新的知识和见解,并为探索遗传标记物与POI预后或进展之间的关系开辟了可能性。
**缩写说明**
POI:早发性卵巢功能不全(Premature Ovarian Insufficiency)
GEO:基因表达组学数据库(Gene Expression Omnibus)
ROC:接收者操作特征曲线(Receiver Operating Characteristic)
DEGs:差异表达基因(Differentially Expressed Genes)
GSEA:基因集富集分析(Gene Set Enrichment Analysis)
LASSO:最小绝对值收缩选择算法(Least Absolute Shrinkage and Selection Operator)
CV:交叉验证(Cross-Validation)
PPI:蛋白质-蛋白质相互作用(Protein-Protein Interaction)
MCODE:分子复杂性检测(Molecular Complexity Detection)
AUC:曲线下面积(Area Under the Curve)
GSVA:基因集变异分析(Gene Set Variation Analysis)
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号