《PLOS One》:Comprehensive in silico analysis of genetic landscape and pathways involved in Stickler syndrome
编辑推荐:
这篇生物信息学综述采用文本挖掘(TM)、蛋白互作网络(PPI)及富集分析,系统揭示了Stickler综合征(SS)的潜在关键基因(如COL2A1、COL11A1/A2等)与核心通路(如ECM组织、胶原纤维形成),并预测了13种FDA批准药物与部分枢纽基因的相互作用,为这一孤儿病的生物标志物发现和药物重定位研究提供了新框架。
引言
Stickler综合征(Stickler syndrome, SS)是一种遗传性结缔组织疾病,主要表现为眼部异常、听力损失、关节问题和特殊面容。其患病率约为1/7500至1/9000,属于孤儿病。遗传上,SS具有异质性,最常见为常染色体显性遗传,与编码II型(COL2A1)和XI型(COL11A1、COL11A2)胶原蛋白的基因突变有关;少数为常染色体隐性遗传,涉及IX型胶原蛋白基因(COL9A1、COL9A2、COL9A3)。由于机制复杂且缺乏有效疗法,本研究旨在通过计算生物学方法,系统探索SS的遗传图谱与分子通路。
研究方法
研究采用整合性生物信息学策略。首先,利用PubMed2Ensembl工具进行文本挖掘(text mining),使用“Stickler综合征”等关键词,从文献中筛选出与人类SS相关的基因,并手动交叉核对OMIM和DisGeNET数据库以确认关联。研究设计概览如图1所示。
其次,对筛选出的文本挖掘基因(TMGs)使用GeneCodis进行基因本体(Gene Ontology, GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路富集分析,以揭示其参与的生物学过程与通路。
接着,利用STRING数据库构建蛋白-蛋白互作(Protein-Protein Interaction, PPI)网络,并应用Cytoscape及其插件(如MCODE和cytoHubba)进行模块分析和枢纽基因识别。网络分析采用了度中心性(Degree Centrality)、中介中心性(Betweenness Centrality)等多个指标。
最后,将识别出的枢纽基因提交至Drug-Gene Interaction数据库(DGIdb),筛选与FDA批准药物的潜在相互作用,为药物重定位(drug repurposing)提供线索。
结果
文本挖掘筛选出24个与Stickler综合征相关的基因
通过文本挖掘方法,共鉴定出24个与人类SS相关的独特基因。通过GeneMania分析这些基因的网络、共表达和通路关系,结果如图2所示。基于GO注释和通路相关性,其中22个基因被选中用于后续富集分析。
富集分析揭示10条KEGG通路和16个生物学过程
GO和生物学过程(Biological Process, BP)富集分析显示,21个基因显著富集于与SS病理直接相关的功能中。排名前15的富集项包括“胶原纤维组织”(Collagen Fibril Organization, P = 4.80e-08)、“骨骼系统发育”(Skeletal System Development, P = 3.95e-06)、“骨化”(Ossification)、“细胞外基质组织”(Extracellular Matrix Organization)等。KEGG通路分析则识别出10条主要通路,其中最显著的是“蛋白质消化与吸收”(Protein digestion and absorption, P = 1.88e-08)和“ECM-受体相互作用”(ECM-receptor interaction, P = 7.31e-03)等。富集结果总结于表1和表2。
PPI网络构建、模块分析与关键基因识别
基于22个TMGs构建的PPI网络包含22个节点和46条边,如图3A所示。通过MCODE模块分析,识别出一个重要的功能模块,该模块包含九个枢纽基因:COL2A1、COL5A2、COL9A2、COL9A3、COL11A1、COL11A2、ACAN、FBN2和LOXL3(图3B, 表3)。对这些枢纽基因的REVIGO分析显示,它们主要富集于骨骼系统发育、胶原纤维组织、动物器官形态发生、细胞外基质组织等簇中(图4)。进一步的层级聚类树分析(图5)强调了这些基因与胚胎发育、感觉系统形成(如声音的感觉知觉)等过程的强关联。
核心基因的药物-基因相互作用分析
药物-基因相互作用分析显示,9个枢纽基因中有6个(COL2A1、COL5A2、COL9A2、COL9A3、COL11A1、COL11A2)被预测为可行的药物靶点,共关联13种FDA批准的化合物(表4)。而ACAN、FBN2和LOXL3未发现显著的相互作用。预测的化合物包括直接靶向细胞外基质的酶(如ocriplasmin、胶原酶梭菌溶组织素)以及多种磷酸二酯酶(Phosphodiesterase, PDE)抑制剂(如阿普斯特、罗氟司特、西洛他唑等),它们分别具有抗炎、血管舒张等作用。
讨论
本研究通过整合文本挖掘、网络分析和富集分析,为理解SS的分子机制提供了系统框架。鉴定出的9个枢纽基因功能上与细胞外基质组织、胶原形成和骨骼发育紧密相关。例如,COL2A1编码软骨和玻璃体的主要胶原;COL11A1/A2的突变与SS的眼、耳、颅面异常相关;ACAN编码的聚集蛋白聚糖对软骨形态发生至关重要;FBN2编码的原纤维蛋白-2是弹性纤维的关键组分;LOXL3则参与胶原和弹性蛋白的交联。
药物-基因相互作用分析的结果具有假设生成价值。预测的化合物,尤其是那些直接作用于细胞外基质的酶和调节细胞内信号(如cAMP/cGMP)的PDE抑制剂,为探索SS的治疗策略提供了新方向,例如药物重定位。然而,这些预测亟需通过细胞模型、动物实验和临床研究进行功能验证。
结论
本项in silico研究得出结论,枢纽基因COL2A1、COL5A2、COL9A2、COL9A3、COL11A1、COL11A2、ACAN、FBN2和LOXL3参与了SS的发生发展。这些基因主要关联骨骼系统发育、器官形态发生、细胞外基质组织、胶原纤维组织等功能,可能导致肌肉退化等表型。针对这一病理机制复杂、遗传异质性的孤儿病,本研究为优先研究基因与通路、发现生物标志物以及探索治疗方向提供了系统的计算生物学框架和资源。最终的功能与临床相关性有待进一步的实验验证。