《Journal of Structural Biology》:Linking protein aggregation and structural stability to predict pathogenic
MYH7 variants via machine learning
编辑推荐:
该研究开发了一种基于机器学习的预测工具RDSM-MYH7,用于评估MYH7基因杆状域错义突变致病性,结合蛋白质结构稳定性与聚集倾向性分析,显著优于现有方法(F1=0.869,准确率=0.875),为肌病早期诊断提供新手段。
Ivan A. Pyankov | Marina A. Kokorina | Georgy N. Rychkov | Anna A. Kostareva | Mayya V. Uspenskaya | Andrey V. Kajava
圣彼得堡国立大学化学研究所化学医学系,俄罗斯联邦圣彼得堡
摘要
随着基因组和基因测序技术的快速发展,生成的数据量远远超过了将遗传变异与特定疾病联系起来的研究速度,这使得利用计算方法将潜在突变与病理学特征关联起来变得既必要又可行。我们发现,导致肌球蛋白贮积性肌病(MSM)的变异通常会比非疾病相关变异更严重地破坏MYH7 α-螺旋卷曲-卷曲结构。结构分析显示,致病性变异集中在卷曲-卷曲二聚体的局部解旋区域,这表明这些区域的改变可能会促进二聚体的不稳定和聚集。然而,仅凭这些特征还不足以可靠地预测肌球蛋白贮积性肌病。通过整合蛋白质聚集、结构稳定性以及其他相关信息特征,我们开发了RDSM-MYH7这一基于机器学习的预测工具,用于评估MYH7杆状结构中错义突变的致病性。与现有工具相比,RDSM-MYH7的表现更为出色(F1=0.869,准确率=0.875),可以应用于单个基因测序数据以识别与贮积性肌病相关的致病性MYH7变异。将其应用于临床筛查有助于早期诊断肌病和其他遗传性蛋白质贮积疾病,因为在这些疾病中,蛋白质的展开先于病理性的聚集。
引言
MYH7
基因编码慢/β-肌球蛋白重链(MyHC I),它是I型骨骼肌纤维和心室心肌细胞中的主要肌球蛋白亚型(Naderi等人,2023年;Viswanathan等人,2017年)。这种收缩蛋白与两条轻链结合,构成了肌肉细胞主要收缩单位——肌节的关键运动蛋白复合体。除了MYH7蛋白外,肌节结构还包括许多其他蛋白质;然而,MYH7是其中最大的一种,在肌节的组装、三维组织和功能中起着核心作用。因此,MYH7结构和功能的变化会导致多种与MYH7相关的疾病,这些疾病会显著影响心脏和骨骼肌的功能。
MYH7分子由N端头部(S1区域)组成,该区域具有ATP酶活性;S2区域作为连接部分;以及长的C端杆状区域,其α-螺旋卷曲-卷曲结构使其能够形成二聚体(图1)。在其大部分序列中,卷曲-卷曲结构遵循一个由七个残基组成的重复模式(abcdefg)n,其中疏水残基通常位于a和d位置,极性残基位于其他位置。MYH7的这些不同区域使其具有多种功能,因此每个区域的变化都可能导致不同的人类疾病和表型。大多数影响肌球蛋白头部的MYH7致病性变异会导致肥厚型或扩张型心肌病,这是由于ATP酶活性改变、与肌动蛋白-原肌球蛋白复合体的异常相互作用,从而导致肌节收缩力和Ca2+敏感性的异常。相比之下,MYH7杆状结构远端区域的突变会导致肌球蛋白贮积性肌病和其他肌病,这是由于蛋白质异常聚集、蛋白质-蛋白质相互作用不稳定以及突变肌球蛋白在I型肌纤维中积累形成高分子量蛋白质包涵体(Naderi等人,2023年;Viswanathan等人,2017年)。然而,与影响肌球蛋白头部的突变相比,这些突变的特征研究相对较少。尽管针对MYH7相关心肌病的分子机制正在被深入研究,并已引入新的治疗方法和个性化药物(Braunwald等人,2023年),但对于MYH7相关的MSM和其他MYH7相关的骨骼肌疾病了解仍然有限。在某些与MYH7 α-螺旋卷曲结构相关的肌肉疾病中,观察到了心肌病表型(Fiorillo等人,2016年)。因此,MYH7的结构变化导致其形成不可溶性蛋白质聚集,这可能同时引发骨骼肌病和心肌病。后一种分子机制被严重低估了,关于MYH7聚集体形成导致心脏和肌肉表型的结构和功能研究数量远低于对S1相关突变的研究。
迄今为止报道的大多数导致MSM的变异都集中在MYH7的杆状结构区域(称为light meromyosin,Dye等人,2006年;Naderi等人,2023年)。Armel和Leinwand首次发现了四种这样的杆状结构突变(L1793P、R1845W、E1886K、H1901L),它们会破坏肌丝组装并导致肌球蛋白贮积性肌病(Armel和Leinwand,2010年)。后续研究还发现了其他杆状结构突变:例如,X1936Wfs终止丢失突变和K1784框内缺失突变都会导致MSM(Stalpers等人,2011年)。这些突变位于外显子37-40,通常影响对卷曲-卷曲二聚体组装至关重要的区域。MSM通常是常染色体显性遗传的,但也有罕见的纯合子突变(如E1886K),这些突变会导致严重的隐性遗传病,表现为早发性心肌病(Armel和Leinwand,2010年)。
随着个体基因组及选定基因测序的持续扩展,生成的数据量不断超过将遗传变异与特定病理学特征联系起来的研究速度。因此,开发能够将突变与疾病关联起来的“计算机模拟”预测方法变得越来越重要。此前,我们开发并应用了一种机器学习方法,该方法主要利用已知的TTR三聚体三维(3D)结构数据来检测可能导致心肌病的潜在致病性变异(Pyankov等人,2025年)。这种方法的有效性取决于所分析蛋白质的结构数据的可用性和质量。在这项研究中,我们对MYH7采用了类似的方法,利用了来自已知3D结构和先进建模方法的可用结构信息。结果,我们开发了基于机器学习的预测工具RDSM-MYH7,用于评估MYH7突变的致病性。基准分析表明,RDSM-MYH7在预测突变影响方面优于现有的计算工具。该预测工具可以应用于单个基因测序数据,以识别与肌球蛋白贮积性肌病相关的MYH7变异。
模型片段
MYH7二聚体全长的结构建模
为了构建人类MYH7二聚体(UniProt: P12883,1935个氨基酸)的原子模型,我们采用了一种结合使用AlphaFold3网络服务器(Abramson等人,2024年)对七个独立片段进行建模的方法,然后组装出全长结构。
使用AlphaFold3进行片段建模
在模拟非常大且复杂的结构时,AlphaFold3有时会人为地使结构弯曲或变形,导致模型与其预期的线性或延展排列不符。
开发用于预测MYH7聚集的计算协议
在天然条件下,MYH7会折叠成稳定的三维同源二聚体结构(Dutta等人,2023年)。在MSM中,这种蛋白质可以通过分子间相互作用形成聚集体,表明它能够发生构象变化,形成与其天然球状形式不同的结构。为了实现这种转变,MYH7结构必须首先变得不稳定并部分展开。一旦展开,如果MYH7含有易于聚集的成分,它就可能会发生聚集。
结论
肌球蛋白贮积性肌病是由MYH7卷曲-卷曲结构中的某些错义突变引起的,这些突变导致蛋白质聚集。这类疾病属于一类疾病,其中在结构化结构内的易聚集区域发生的突变会在部分展开时触发蛋白质聚集。因此,准确预测这类突变的致病效应需要同时评估其聚集倾向和对蛋白质稳定性的影响。
Ivan A. Pyankov:撰写初稿、可视化、方法论、正式分析。
Marina A. Kokorina:撰写初稿、可视化、软件开发、资源管理、数据整理。
Georgy N. Rychkov:撰写初稿、可视化、验证、软件开发、方法论、正式分析。
Anna A. Kostareva:撰写初稿、项目监督、方法论、概念构思。
Mayya V. Uspenskaya:项目监督、项目管理、方法论、概念构思。
Andrey V. Kajava:
资助
本研究由俄罗斯科学基金会资助,项目编号为21-74-20093-P。本研究中使用的聚集计算预测器的开发得到了AFM-Téléthon(资助编号28988)对AVK的支持。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
我们感谢A. Kostyukova教授对本文的手稿提出的建设性意见和修改。