解码人类基因启动子的调控语法:深度学习方法揭示可预测的调控密码与可编程设计潜力

《Cell Research》:Decoding the regulatory grammar of human gene promoters

【字体: 时间:2026年03月31日 来源:Cell Research 25.9

编辑推荐:

  转录调控功能预测存在巨大鸿沟,为直接预测启动子活性,研究人员结合大规模平行报告基因检测(MPRA)与深度神经网络(PARM模型),成功从DNA序列中解码了人源启动子的调控语法。该研究表明启动子活性可直接从局部序列预测,并能实现理性设计,标志着基因组功能研究迈入了真正的可编程时代。

基因的表达并非随机,它受到一套精密“语法”的控制,而启动子(promoter)就是这套语法的核心执行单元。长久以来,科学家们致力于绘制各种调控元件图谱,但一个核心难题始终横亘在前:从识别这些调控元件,到功能性地预测它们如何决定最终的转录输出,之间存在巨大鸿沟。尽管染色质分析结合深度学习能提高预测能力,但仍难以捕捉细胞类型和状态特异的动态调控本质。为了直接破译隐藏在DNA序列中的“调控语法”,并实现对基因表达活动的理性预测与设计,一项研究应运而生。
研究人员开展这项研究的核心技术方法是结合大规模平行报告基因检测(MPRA)与深度学习卷积神经网络(PARM模型)。他们利用MPRA技术,在多种人类细胞类型中高通量测量了启动子序列的活性,并以此数据直接训练PARM模型,从而将转录输出因果性地归因于局部基因组序列,而不受其原生染色质环境干扰。
启动子活性可由局部DNA序列预测
通过训练PARM模型,研究人员发现,即使脱离染色质构象背景,启动子活性也能在多种人类细胞类型中从其局部DNA序列进行预测。这证明调控信息本身就编码在启动子DNA序列之中。
系统扰动分析揭示“调控语法”规则
对模型进行系统性扰动分析,揭示了“调控语法”的存在。结果表明,相对于转录起始位点(TSS)的位置效应强烈影响转录输出。此外,激活和抑制的基因组元件在启动子占据上表现出可重现的空间构型,暗示了底层的位置规则在起作用。这支持了转录调控是一种组合序列句法,而非孤立元件的观点。
启动子作为动态调控平台与整合单元
研究表明,在细胞分化过程中,转录调控程序分布于启动子和增强子区域以协调基因激活,模糊了启动子与增强子位点功能调控的界限。PARM模型通过展示刺激和细胞类型特异的启动子反应直接编码在基因组序列中,适应了这种功能冗余性。启动子作为转录因子(TF)可用性和细胞信号输入整合者的角色得以明晰,它们充当着活跃、动态的调控单元。
实现启动子的理性设计与编程
该研究最引人注目的成果之一是能够在计算机中(in silico)设计启动子,并通过实验验证获得与内源性启动子相当的转录活性。这种能力标志着功能基因组学的一个转折点,正迈入真正的DNA可编程性领域。
该研究通过整合功能实验与深度学习,成功解码了人类基因启动子的调控语法,证明了启动子活性可直接从DNA序列预测,且其核心规则具有可解释性。这不仅极大增进了对转录调控基本逻辑的理解,更重要的是,它首次展示了理性设计具有特定活性的启动子的可行性,为在再生医学和基因治疗等领域按需编程基因表达打开了全新的大门。尽管当前模型尚未完全捕捉三维基因组组织下的复杂互作,但这项研究无疑将我们对调控基因组的理解推向了一个更精细的新时代,朝着最终理解基因调控的复杂语言迈出了关键一步。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号