《Biochemistry and Biophysics Reports》:Computational identification of rare pathogenic genomic variants in esophageal cancer markers: Transcript-level analysis, sequence-based insights, and structural-functional impacts of non-synonymous SNPs
编辑推荐:
本研究针对食管癌(EC)这一进展迅速、死亡率高的恶性肿瘤,聚焦于其不完全明确的遗传病因——特别是罕见的编码致病性变异。研究人员采用扩展的计算框架,在28个EC相关基因中识别并分析了罕见编码非同义单核苷酸多态性(nsSNPs)。他们发现了一批具有潜在致病性的罕见nsSNPs,例如SLCO1A2基因中的rs1591837395 (G68R)和HIF1AN基因中的rs758624092 (D201H),并系统评估了这些变异在转录、序列和结构水平上的影响。研究结果为深入理解食管癌的分子机制提供了新的见解,并为未来基于精准医学的早期诊断和靶向治疗奠定了基础。
食管癌是全球范围内癌症相关死亡的重要原因之一,其病理过程高度复杂,侵袭性强且预后通常较差。尽管遗传因素在食管癌的发病中扮演着重要角色,但其具体机制,特别是那些不常见的基因编码变异如何导致疾病,仍然是一个有待深入探索的谜团。这些“罕见”的基因突变虽然在人群中频率不高,但可能对个体患病风险有巨大影响。识别并理解这些变异如何破坏关键蛋白质的功能,是迈向精准医疗、开发新疗法和诊断方法的关键一步。
为了探索食管癌中的罕见遗传变异,研究人员采用了全面的计算生物学方法。他们系统地鉴定了28个与食管癌密切相关的基因,并从公共数据库(如NCBI、ENSEMBL)中筛选出126个蛋白质异构体,重点关注了那些在人群中发生频率低于1%的罕见编码变异。研究团队利用一系列成熟的生物信息学工具,对这些非同义单核苷酸多态性(nsSNP)进行了功能预测,以判断其潜在的致病性。随后,他们构建了蛋白质结构模型,并分析了突变对蛋白稳定性和动态特性的影响,以评估这些变异对蛋白质功能的潜在破坏。
本研究运用的关键技术与方法包括:
研究人员首先通过数据库检索确定了28个与食管癌相关的基因及对应转录本。使用VEP(Variant Effect Predictor)等工具预测了基因组变异的潜在功能影响,并利用千人基因组计划和gnomAD数据库筛选出罕见变异(次要等位基因频率<1%)。接着,他们运用了多款致病性预测工具(包括SIFT、PolyPhen-2、CADD、REVEL、MetaLR、Mutation Assessor)对筛选出的nsSNPs进行功能评估。在转录水平,使用了PANTHER-PSEP、PhD-SNP、SNPs&GO和MutPred2等算法进行深入分析。为了探究突变对蛋白结构和稳定性的影响,团队使用了iStable、MUpro、I-Mutant、INPS-MD、DDGun和ConSurf等工具进行预测。此外,利用Phyre2和SWISS-MODEL进行了蛋白质同源建模,并通过DynaMut、CABS-Flex 3.0分析蛋白质动态灵活性。最后,采用CUPSAT和Cscape等工具评估了突变对蛋白质热力学稳定性和致癌潜能的影响。GTEx数据库被用于分析基因在不同食管组织中的特异性表达模式。
3.1. EC相关的基因和蛋白质生物标志物
研究人员从NCBI数据库检索并整理了一份包含28个与食管癌相关的生物标志物基因列表。分析显示这些基因大多是蛋白编码基因,广泛分布在多条染色体上。不同基因在转录本和内含子数量上存在显著差异,例如DMBT1拥有最多的内含子(56个)和较多的转录本(21个),而EVPL尽管内含子较少,但转录本数量最多(22个),这表明存在复杂的转录后调控。这些差异提示了基因在功能复杂性、潜在的可变剪接和调控多样性方面的不同。
3.2. EC相关基因生物标志物的突变谱
对28个基因的分析揭示了广泛的单核苷酸多态性(SNP)分布差异。KCNQ3基因拥有最多的SNP(140,533个),而RNF187、CRNN等基因的SNP数量则较少。在编码区变异方面,SLCO1A2基因拥有最多的外显子变异(94,323个),表明其在食管癌背景下可能具有较高的序列多样性或较低的序列约束。这些变异模式为理解不同基因在食管癌中的潜在角色和突变耐受性提供了线索。
3.3. EC基因生物标志物中罕见编码有害nsSNPs的转录水平计算筛选和功能预测
通过基于次要等位基因频率(MAF)和下游功能效应(DSFE)的筛选,研究最终锁定了5个基因中的10个罕见编码有害nsSNPs,共对应23个转录本水平的变异。这些基因包括GRB7、SLCO1A2、HIF1AN、KCNQ3和DLL1。多个预测工具(SIFT、PolyPhen-2、CADD、REVEL等)一致将这些变异分类为“有害”、“可能有害”或“高影响”,证实了它们具有很高的致病可能性。
3.4. 选定EC基因生物标志物的组织特异性表达模式
利用GTEx数据库,研究人员分析了上述5个基因在三个食管相关组织(胃食管连接部、黏膜层、肌层)中的表达水平。结果显示,GRB7和DLL1在食管黏膜中表达量最高,这与食管癌主要起源于上皮层的事实相符。而SLCO1A2在食管组织中的表达量极低,提示其在正常食管生理中作用有限。HIF1AN和KCNQ3的表达水平则相对中等或较低。
3.5. EC生物标志物基因中罕见编码有害nsSNPs的共识预测分析
利用PredictSNP共识分类平台整合MAPP、PhD-SNP、SIFT、PolyPhen等多种算法,进一步评估了候选nsSNPs的有害性。结果显示,所有筛选出的变异,例如GRB7基因的多个突变位点(如W454C、R461H/L等)和SLCO1A2基因的G68R变异,都获得了高预测准确率(多数>80%),这些高置信度的预测结果强化了这些变异具有潜在致病性的假设。
研究还利用一系列工具评估了这些突变对蛋白质稳定性和进化的影响(3.6部分),并通过结构建模和动态模拟分析了突变如何改变蛋白质构象和柔性(3.7, 3.8, 3.9, 3.10部分)。例如,结构分析显示,某些突变(如SLCO1A2的G68R)位于高度保守的残基,可能破坏蛋白质结构域完整性或影响信号转导通路。利用Cscape工具进行的致癌潜能计算验证也表明,一些保守的变异(如rs1591837395和rs758624092)具有驱动癌症发展的潜力。
本研究成功识别并系统分析了食管癌相关基因中的一组罕见且可能具有致病性的编码变异。通过整合多种生物信息学方法,研究人员从基因变异识别、功能预测、保守性分析到结构建模,全面评估了这些nsSNPs对蛋白质功能和稳定性的潜在影响。研究发现,位于GRB7、SLCO1A2、HIF1AN等关键基因中的特定变异,很可能通过破坏保守残基、影响蛋白质稳定性或干扰重要结构域来促进癌症发生。这项计算生物学研究不仅为理解食管癌的遗传基础提供了新的分子见解,更重要的是,它筛选出的候选致病变异(如SLCO1A2中的G68R和HIF1AN中的D201H)为未来的实验验证(例如功能获得/缺失实验、细胞模型研究)和潜在的精准医疗策略(如针对特定突变开发靶向药物或诊断标志物)奠定了重要基础。将这些发现整合到食管癌的分子机制图谱中,有望推动该疾病的早期诊断和个性化治疗发展。