可解释生成式深度学习模型揭示相分离内在无序基序的机制与设计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Nature Communications》：Interpretable and generative deep learning models explicate phase separating intrinsically disordered motifs

【字体：大中小】 时间：2026年02月11日 来源：Nature Communications 15.7

编辑推荐：

　　本研究针对蛋白质内在无序区域(IDR)介导的相分离(PS)机制不明确的问题，开发了深度学习框架PhaSeMotif。该工具通过可解释性预测精准识别IDR中驱动PS的关键基序，并利用生成式模型创建可验证的基序变体。实验证实突变预测基序会显著削弱PS能力，揭示了氨基酸组成特征对生物分子凝聚体形成的调控作用，为相分离机制研究提供了创新工具。

在细胞这个精密运转的"微型工厂"中，蛋白质的内在无序区域（Intrinsically Disordered Regions, IDRs）如同灵活的分子开关，通过液-液相分离（Liquid-Liquid Phase Separation, LLPS）形成动态的生物分子凝聚体。这些无膜细胞器像分工明确的"车间"，精准调控基因转录、信号转导等生命活动。然而科学界面临核心难题：如何从复杂的IDR序列中系统性识别决定相分离的关键基序？这些基序的氨基酸组成规律是什么？这些"分子密码"的破译对理解神经退行性疾病中蛋白质异常聚集机制至关重要。

为破解这一难题，研究团队在《Nature Communications》发表了创新性研究。他们开发的PhaSeMotif深度学习框架，首次实现了相分离驱动基序的可解释预测与生成式设计。该研究通过实验验证了预测基序的功能重要性，并创新性地结合生成式模型构建可验证基序变体，为相分离研究提供了从预测到验证的完整解决方案。

关键技术方法包括：1）构建基于注意力机制的深度学习模型解析IDR序列特征；2）利用生成对抗网络（Generative Adversarial Network, GAN）生成保留关键氨基酸组成的基序变体；3）通过荧光成像和体外相分离实验验证预测基序功能。研究涉及多种典型相分离蛋白的IDR序列分析。

可解释深度学习模型精准识别相分离驱动基序

通过训练深度神经网络对大量实验验证的相分离蛋白序列进行模式识别，PhaSeMotif的注意力机制可可视化IDR中关键氨基酸残基的贡献度。结果显示，不同蛋白的相分离驱动基序具有显著的氨基酸组成偏好性，如芳香族氨基酸和带电荷残基的特定排列模式。

基序突变实验验证功能必要性

研究人员对FUS、hnRNPA1等典型相分离蛋白的预测基序进行定点突变，发现突变体相分离能力显著降低。荧光漂白恢复实验显示突变体凝聚体流动性增强，证明预测基序对生物分子凝聚体的物质状态具有决定性作用。

生成式模型构建功能可调基序变体

通过约束生成模型在保持关键物理化学特征（如净电荷、疏水性）的前提下生成基序变体，成功获得系列具有梯度相分离能力的序列。这些"设计型基序"为研究序列-相分离关系提供了理想模板。

氨基酸组成决定相分离倾向与分配特性

对鉴定基序的组成分析发现，特定氨基酸组合（如酪氨酸-精氨酸的π-阳离子相互作用）的出现频率与相分离阈值呈强相关性。这些分子特征同时影响蛋白质在凝聚体中的分配系数，揭示了序列特征调控相分离热力学与动力学的双重作用。

该研究建立了从序列预测到功能验证的相分离基序研究新范式。PhaSeMotif不仅破解了IDR中相分离驱动元件的识别难题，更通过生成式模型实现了基序的理性设计。这些发现为阿尔茨海默症、肌萎缩侧索硬化等蛋白质相分离异常相关疾病的机制解析提供了新视角，开创了相分离研究从"描述现象"到"预测设计"的新阶段。该工具的开源发布将加速相分离领域的发展，推动生物凝聚体工程化应用的研究进程。

联系信箱：

粤ICP备09063491号

热点排行