《Current Opinion in Structural Biology》:Ligand-like lipid interactions with membrane proteins: Simulations and machine learning
编辑推荐:
这篇综述系统地探讨了膜脂质以类似配体的方式特异性结合膜蛋白,并调控其结构与功能的最新研究进展。作者重点评述了分子动力学(MD)模拟在发现和阐明此类互作原子机制中的关键作用,并展望了机器学习(ML)技术利用模拟与实验数据加速新生物学发现的潜力。文中通过具体案例(如GPCR、离子通道、IDR区域等)展示了模拟如何揭示脂质调控的分子基础。
引言
生命体脂质组包含约50,000种脂质,但其功能远不止形成细胞膜的脂双层。越来越多的证据表明,特定的膜脂质能够像配体一样,特异性地结合在膜蛋白的特定位点,从而通过改变蛋白结构、动力学、定位及与其他膜蛋白的相互作用来调控其功能。这些被称为“配体样”的脂质,其功能效应在体外和体内均可测量,并能在原子分辨率结构(如冷冻电镜和X射线晶体结构)中被解析。脂质也以类似溶剂的方式影响膜蛋白,例如通过形成“脂质指纹”或改变脂质包装缺陷来调控蛋白二聚化等反应。
模拟配体样脂质-蛋白相互作用
分子动力学(MD)模拟在研究配体样脂质-蛋白相互作用中扮演着独特角色,能提供高时空分辨率的原子级细节。设计良好的模拟既能从零开始(de novo)发现新的相互作用,也能为已有的实验观察提供可检验的原子机制假说。根据研究问题的需要,可以选择全原子模拟以获得精细化学细节,或采用粗粒度(CG)模拟来探索更长的时间和空间尺度。
G蛋白偶联受体(GPCR)因其在信号传导和药物开发中的重要性而受到特别关注。无偏模拟已预测了包括Smoothened、GLP-1R、A2AR和β2AR在内的多个受体上的胆固醇结合位点,其中一些与实验结构观察到的位点吻合。
通过精心设计的模拟方案,研究者能够阐明功能性脂质-蛋白相互作用的机制。例如,Thakur等人的研究结合19F NMR和模拟,揭示了阴离子磷脂(PS)通过结合A2AR第6和第7跨膜螺旋上的保守正电荷基序,使受体构象向完全激活状态转变,从而为其与G蛋白偶联做准备。模拟也阐明了PIP2调控G蛋白选择性及β-抑制蛋白(β-arrestin)相互作用的分子基础。
除了对单个蛋白质的深入研究,对整个蛋白质家族进行大规模模拟分析也成为一种强有力的方法。Selent及其同事构建了一个包含数百个不同GPCR及其状态、近3000条轨迹的全原子模拟数据库。通过与实验结构中的脂质相互作用比较,他们证明模拟能频繁识别出相同的脂质-蛋白相互作用。这种大规模数据库对于评估分子模拟的预测有效性至关重要。
模拟在揭示磷酸肌醇(phosphoinositide)脂质生物学方面也贡献显著。一个特别引人入胜的新兴研究方向是磷酸肌醇与膜蛋白内在无序区域(IDR)的相互作用。由于其动态特性,这类相互作用超越了冷冻电镜和X射线晶体学等方法的研究范围。例如,Kragelund等人利用模拟结合NMR和细胞信号传导实验,研究了催乳素受体(PRLR)单次跨膜蛋白中PIP2与IDR的特异性相互作用。模拟显示PIP2在IDR周围(特别是紧邻跨膜螺旋的膜旁“JM”区域)形成纳米尺度的簇集,并鉴定出KxK基序是关键相互作用位点。有趣的是,IDR中一个富含脯氨酸的疏水区域会插入脂双层,从而将带正电的KxK基团定位在最佳距离以“拥抱”带负电的PIP2头基。类似的PIP2在JM区域的纳米簇集现象,在人类所有58个受体酪氨酸激酶家族的CG模拟中也有报道,这可能是一个广泛存在的特征。模拟还可用于估算IDR(如EGFR的TM-JM单元)与脂质相互作用的自由能,表明PIP2等紧密结合脂质可能通过直接竞争蛋白-蛋白相互作用来调控二聚化。
脂质与IDR的相互作用挑战了“特异性”脂质相互作用的传统概念。它们可能具有高度选择性,但存在于具有三级结构的整合膜蛋白所采用的“环状/非环状”框架之外。这些复合物在多大程度上以动态构象集合存在?它们是形成“套索”半稳定地捕获PIP2头基,还是保持完全无序仅通过电荷互补斑块实现特异性?酰基链扮演什么角色?最近的力场发展和对IDR作用的日益重视,使得模拟能够更好地探索这一领域。
模拟在识别和表征外周膜蛋白(PMP)的脂质相互作用中也起着关键作用。例如,关于固醇转运蛋白StarD4的全原子模拟工作,阐明了其与不同脂质组成膜的结合、固醇货物的结合,以及将固醇摄取与PIP2识别连接起来的变构网络耦合。对于某些长时间尺度的现象,粗粒度和高流动性膜模拟体(HMMM)模拟仍在揭示新的生物学。通过CG模拟,现在可以对非常大的PMP群体进行全局分析。通过使用专用超级计算机和增强采样技术,可以在全原子细节下捕获某些长时间尺度的过程,例如Bruton激酶在PIP膜上的自发结合与二聚化。近期关于WIPI2、K-Ras的研究以及脂质转运蛋白(LTP)的系统分析也展示了模拟在揭示脂质-PMP生物学中的效用。
对某一领域的精通往往体现在设计能力上。在脂质-蛋白相互作用领域,最近一项由Abramsson等人开展的研究迈出了重要一步。作者采用多尺度模拟、冷冻电镜、天然质谱(nMS)和功能测定相结合的方法,通过设计特异性的心磷脂结合位点,实现了此前人工设计的膜蛋白四聚体ROCKET的稳定。他们首先通过CG模拟鉴定出两个相邻的心磷脂结合位点,并揭示通过计算机(in silico)诱变可以实现心磷脂分子从位点1到位点2的重新分布。全原子力牵引模拟结合nMS实验和低分辨率冷冻电镜图谱表明,位于位点2的心磷脂能够通过桥接螺旋来稳定四聚体ROCKET的结构。随后,作者利用从人工ROCKET系统中获得的设计原则,扫描了一个先前由模拟预测的、自然存在的E. coli心磷脂结合位点数据库,寻找那些在螺旋间起桥接作用的位点。菱形蛋白酶GlpG被确定为最佳匹配,nMS证实了其特异性结合心磷脂的能力。热位移和蛋白酶实验进一步验证了心磷脂的稳定作用及其对蛋白质功能的影响。这项工作不仅展示了最小人工系统在解析脂质-蛋白相互作用基本原理方面的实用性,也为从模拟衍生的膜蛋白配体样脂质结合位点数据库中获取新见解提供了一个强有力的用例。
机器学习:挑战与机遇
能够高精度预测蛋白质结构的机器学习模型已对生物学产生重大影响。虽然蛋白质结构/动力学预测方面已有大量工作,但在脂质-蛋白相互作用领域仍存在大量机遇。例如,Chao等人最近利用Chai-1模型预测了所有15个Class B1 GPCR上的胆固醇和PIP2相互作用位点。模拟与机器学习预测的PIP2位点显示出良好的一致性。有趣的是,Chai-1未能捕获模拟中观察到的“膜深处”胆固醇结合位点,这可能反映了PDB训练数据的偏差以及缺乏明确的膜环境。与模拟和结构数据相比,Chai-1也能准确识别其他类型膜蛋白上的“经典”配体样脂质结合位点,例如四聚体Kir通道上的PIP2位点。可以设想一种“Chai2AT”方法,类似于多尺度“CG2AT”流程,即机器学习预测的蛋白-脂质复合物作为初始输入点,随后在全原子MD中进行细化。这种方法在蛋白-脂质和蛋白-配体复合物预测中已显示出前景。最终,主要机遇之一在于利用现有的大规模MD数据集,推导出构成脂质物种X结合位点的分子特征启发式规则。这方面的早期努力已在PMP的PIP位点预测中有所报道。
机遇与挑战并存。对于蛋白质-脂质相互作用,训练数据的可用性和质量是关键限制因素。数据的孤岛化(存在于个别公司和研究小组内部)限制了其效用,而来自多个非协调来源的数据混合由于存储方式、质量标准和分析协议不同,往往导致结果不佳。OpenBind联盟等计划旨在通过自动化化学和高通量X射线晶体学,在5年内生成超过50万个蛋白质-配体复合物结构和亲和力测量数据,这可能间接受益于配体样脂质生物学的研究。即将推出的分子动力学数据库(MDDB)等倡议也可能推动用于模型训练的、分类清晰的模拟数据的可用性。
结论
物理学基础的模拟是发现脂质-蛋白相互作用生物学的一个强大工具,它提供了关于特定相互作用的高分辨率、详细的原子级信息,是对天然质谱、NMR、结构生物学和功能测定等实验方法的补充。结构、计算资源、参数、组学数据和分析工具的日益丰富,将导致脂质-蛋白模拟研究的复杂性和规模不断增加。诸如膜蛋白-脂质复合物的直接原位冷冻电镜成像等技术的快速进步,为协同建模更真实的类天然系统提供了新机遇。在这个数据丰富的环境中,精心设计模拟策略并与实验进行深思熟虑的整合仍然至关重要。机器学习方法有望协同利用这些数据,揭示配体样脂质生物学的新层面。