基于染色质可及性利用多种机器学习模型预测酿酒酵母(Saccharomyces cerevisiae)中的基因表达水平

《Computational Biology and Chemistry》:Prediction of gene expression levels in Saccharomyces cerevisiae based on chromatin accessibility using multiple machine learning models

【字体: 时间:2026年03月24日 来源:Computational Biology and Chemistry 3.1

编辑推荐:

  本研究开发Yeast-Gene机器学习模型,利用染色质可及区域的k-mer序列特征预测酿酒酵母基因表达,AUC达0.90。通过可解释性分析发现AAGAA和CAAGA关键调控元件,提示其与mRNA剪接及高表达元件设计相关。

  
Biyu Dong|Bin Hu|Peiheng Jia|Chao Ren|Pengzhen Hu|Guohang He|Song He|Hebing Chen|Yiming Lu|Yating Liang
中国人民解放军军事医学科学院,北京100850

摘要

染色质的可及性通常与转录因子和其他调控蛋白的结合有关,这是调控基因转录的基础。尽管染色质可及性与基因表达水平之间的关联对转录调控至关重要,但这一关联尚未得到充分研究。Saccharomyces cerevisiae是一种关键的真核模式生物,在合成生物学中也被广泛使用,但关于从染色质可及区域预测基因表达的研究还比较缺乏。我们开发了Yeast-Gene这一监督机器学习模型,该模型利用染色质可及区域的k-mer特征来预测基因表达。Yeast-Gene主要关注染色质可及区域内几百个碱基对的局部序列。该模型的曲线下面积(AUC)达到了0.90。可解释性分析表明,AAGAA和CAAGA是预测基因表达中具有高度影响力的motif,这两种motif可能与mRNA剪接有关。这些预测特征可能有助于在合成生物学中合理设计高表达调控元件。

引言

染色质状态在基因表达调控中起着重要作用(RANDO和WINSTON,2012;RADMAN-LIVAJA和RANDO,2010;LEE等人,2007;BOEGER等人,2008)。染色质可以保持开放或闭合的构象,这通常分别与活跃或抑制的基因表达相对应。染色质可及区域通常更容易被转录因子和其他调控蛋白结合,且常常与活跃的基因表达共存。相反,染色质不可及区域通常与因子结合受限和表达水平降低相关。S.cerevisiae中关于染色质可及性与基因表达水平之间关联的研究仍然相对有限。这为通过染色质可及区域的序列特征预测基因表达提供了可能性(SINGH等人,2016a)。理解染色质可及性与基因表达之间的关系对于解码的转录调控网络至关重要,也有助于优化生物合成过程中的基因组设计。
目前利用DNA序列特征预测转录调控网络的研究主要集中在启动子、增强子或其他非编码区域,对染色质可及区域的关注较少(ZHOU和TROYANSKAYA,2015;QUANG和XIE,2016;DEY等人,2020;KELLEY,2020;AVSEC等人,2021)。例如,DeepSEA从序列中学习与染色质调控效应相关的调控序列代码,并能预测变异对这些调控效应的影响(ZHOU和TROYANSKAYA,2015)。DanQ提高了DNA序列功能的预测准确性(QUANG和XIE,2016)。DeepATT(LI等人,2021)通过引入注意力机制来优先考虑与特定DNA功能相关的序列区域,从而增强了DanQ的性能。Basenji有效捕捉了远距离基因调控元件之间的相互作用,提高了对基因表达调控的理解和预测能力(KELLEY等人,2018)。此外,Enformer利用卷积神经网络捕捉序列motif,并通过变换器网络模拟长距离相互作用,从而基于基因组序列有效预测基因表达。然而,酵母基因组相对紧凑,启动子序列较短,缺乏远端增强子。像Enformer这样的模型严重依赖于长距离染色质相互作用和复杂的表观遗传信号——这些特征在酵母中往往不存在。机器学习不仅能够有效捕捉生物数据中固有的复杂非线性关系(SINGH等人,2016a;LIBBRECHT和NOBLE,2015;LEUNG等人,2014),还能识别与基因表达水平密切相关的关键序列或染色质特征。这些发现有助于未来的基因调控实验研究。
为了利用染色质可及区域预测的基因表达水平,我们开发了一个名为Yeast-Gene的机器学习模型,该模型利用染色质可及区域的k-mer特征进行基因表达水平预测。最终通过基于性能的评分机制选择了随机森林算法,模型实现了0.90的AUC。为了提高模型的鲁棒性和准确性,我们在的野生型和突变型菌株上对Yeast-Gene进行了训练。可解释性分析表明,AAGAA和CAAGA是高基因表达的关键特征。这些motif可能与mRNA剪接有关,使其成为在合成生物学中设计高表达调控元件的有前景的候选motif。
主要目标:
  • I.
    我们开发了Yeast-Gene,这是一个依赖于菌株的机器学习模型,它可以使用染色质可及序列预测基因表达在环境压力下的变化。
  • II.
    我们通过可解释性分析确定了与高基因表达相关的关键序列motif(例如,AAGAA / CAAGA),为合成生物学中调控元件的设计提供了新的见解。
  • 数据来源

    我们使用的高通量测序数据(Hi-C、ATAC-seq和RNA-seq)来自我们的实验室,并已存放在美国国家生物技术信息中心(NCBI)的序列读取档案(SRA)中,访问号为PRJNA1073072。所包含的六种菌株分别为yKJP020(H1)、yKJP058(H2)、J005(H3)、JCR27(H4)、BY4741(H5)和yKJP048(H6)。BY4741菌株为野生型。yKJP020、yKJP048和yKJP058是经过人工改造的菌株,具有随机基因组

    Yeast-Gene概述

    为了探索染色质可及区域内序列与基因表达之间的关联,我们基于六种不同菌株的FPKM(Folded Protein-Kernel Matrix)基因表达水平设计了一种方法(图1和图S1)。我们根据FPKM值将基因分为五个表达水平类别(CUI等人,2022;WU等人,2022):未检测到(FPKM < 0.1)1.08%;非常低(0.1 ≤ FPKM < 1)1.86%;低(1 ≤ FPKM < 10)13.92%;中等(10 ≤ FPKM < 100)59.12%;高(FPKM ≥ 100)24.02%。FPKM = 100

    AAGAA和CAAGA motif在基因表达中起重要作用

    特征重要性分析确定了哪些染色质可及区域对基因表达水平的预测有显著贡献(图5A)。这些区域的可及性有助于预测基因表达水平,也可能有助于推断顺式调控元件并识别关键转录因子。LIME(Local Interpretable Model-agnostic Explanations)在解释异常值或单个样本预测方面表现出色(图5B)。

    Yeast-Gene的下游应用

    为了评估我们模型的广泛适用性,我们收集了对应于不同酵母细胞周期阶段和营养条件的ATAC-seq和RNA-seq数据集。通过对这些数据集的整合分析,我们识别出与基因表达相关的染色质可及区域,并对其在基因组特征(如启动子和基因体)中的分布进行了功能注释(图S5)。然后,我们应用了之前使用的相同预处理流程

    讨论

    随着生物信息学的快速发展,出现了许多创新的研究方法和计算技术(MBOCK等人,2025;ULLAH等人,2023;OLUWAFEMI等人,2024),这些方法现在被广泛应用于各个领域。为了探索染色质可及区域序列与基因表达之间的关联,本研究提出了一个名为Yeast-Gene的模型,用于基于染色质可及区域中的k-mer特征预测基因表达。与以往的方法不同

    CRediT作者贡献声明

    Biyu Dong:撰写——原始草稿,可视化,方法论,研究,数据管理。Yating Liang:撰写——审稿与编辑,监督,项目管理,概念构思。Yiming Lu:监督,项目管理。Hebing Chen:监督,项目管理,资金获取,概念构思。Song He:验证,正式分析。Guohang He:验证,正式分析。Pengzhen Hu:验证,正式分析。Chao Ren:验证,正式分析。

    资助

    本工作得到了国家自然科学基金(编号62203463(资助C.R.)和62422318(资助H.C.)以及国家重点研发计划(编号2023YFF0725500(资助H.C.)的支持,同时还得到了国家医学蛋白质组学重点实验室(编号SKLP-K202407(资助H.C.)的支持。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号