《Nature Cell Biology》:Time-resolved functional genomics using deep learning reveals global hierarchical control of autophagy
编辑推荐:
本期推荐一篇融合遗传网络图谱、时间分辨成像与深度学习的前沿研究。作者构建了名为AutoDRY的数据集,系统揭示了自噬在氮源变化下的多层调控网络,并首次发现逆行(RTG)通路是动态调控自噬基因表达、尤其是自噬失活的关键时变调节器。这项工作为自噬相关疾病的机制研究与药物开发提供了全新的系统级资源。
基因组范围内对自噬动力学的影响
为了绘制自噬的全基因组调控图谱,研究团队使用了一个阵列化的酵母基因缺失(4,760个)和DAmP(减少信使RNA丰度扰动,1,159个)突变体库,这些突变体表达自噬体标记单体NeonGreen(mNG)-Atg8和液泡驻留蛋白酶Pep4-mCherry。将突变体在含氮培养基中培养至对数期,随后在氮饥饿(-N)12小时和氮补充(+N)7小时期间,每小时使用高内涵荧光显微镜进行成像。每个阵列包含三重复的野生型(WT)细胞和自噬诱导缺陷的atg1Δ突变体作为对照,还包含了在Gtr1依赖性TORC1激活和同型融合方面存在缺陷、导致未清除自噬体累积的vam6Δ突变体。
为了在最小化技术混杂因素和观察偏差的情况下稳健量化全基因组库的自噬响应,团队首先构建了一个包含1.34 × 106个来自70个独立实验的自动注释WT和atg1Δ细胞的大型训练数据集,提取了图像特征。这些特征包括总结两个主要标记物分布和强度以及第三个代表它们像素级共现通道的31个单细胞参数。训练数据的输出标签由实验对照条件决定,其中自噬在细胞群体中完全激活(WT细胞在-N中7小时)或完全不活跃(atg1Δ在所有时间点或WT细胞在+N中4小时),从而避免了人工注释的局限性。随后,训练全连接深度神经网络(DNN)基于图像特征预测每个细胞的激活状态。
通过对3,096种模型架构进行超参数网格搜索,证明多个DNN可以高准确度(>98%)和跨实验可重复性地预测自噬激活率。此外,DNN中潜在自噬特征的均匀流形近似与投影(UMAP)嵌入揭示了WT细胞的连续变化和中间表型(vam6Δ),其中细胞在具有低水平非自噬噪声的不同自噬状态之间转换。在排名前30的模型架构中,选择在多个评估指标上表现最一致的DNN(模型30)来预测全基因组筛选中的自噬。为了确保潜在空间特征的稳健分析并避免激活函数差异导致的系统性测量偏差,比较了两个不同DNN的嵌入:模型22和模型30。这使得能够跨板可靠地分析营养响应,在去除低置信度预测和低细胞计数的突变体后,最终得到5,678个独特的饥饿响应和5,442个补充响应。
对于大多数表型,响应营养变化的激活和失活阶段都表现出S型动力学,失活阶段下降更陡峭。使用双S型模型提取了15个参数,捕捉了响应动力学的不同方面。这些参数包括每个处理阶段的激活和失活速率、对营养变化的敏感性(由滞后时间、转变中点、最终时间衡量)以及时间过程起始点、最大点和最终点的自噬激活潜力。随后通过计算每个参数与相应阵列中位数的差异来评估突变体扰动,并计算每个阶段(-N和+N)或整个时间过程的平均自噬扰动百分比。
为了评估个体参数扰动的统计学显著性,使用源自每块板中重复WT和阴性对照测量的预期误差模型进行多重假设检验。通过使用谐波平均P值(HMP)结合每个突变体的检验结果,并对每个参数在5% Benjamini-Hochberg(BH)拒绝阈值下的基因组零假设拒绝率进行加权,对每个突变体的全局统计学显著性进行评分。采用1%的HMP截断值,识别出1,613个在多个参数上具有显著扰动的突变体,且必需基因(DAmP突变体)相对过度表达。将参数谱分为五个不同的类别显示,与补充响应相比,饥饿响应发生变化的突变体数量更多、变化更大,表明自噬激活阶段的调控复杂性更高。
对显著突变体的响应进行聚类,揭示了六个不同的自噬扰动谱,并根据表征每个簇的动力学变化类型进行分类。例如,三个主要组(“超敏”、“低敏”和“过度活跃”)表现出时间敏感性和激活速率的变化。低敏突变体对营养变化的响应延迟,而超敏和过度活跃突变体则表现出增加的激活和失活速率,其中过度活跃突变体还具有升高的基础自噬和对-N更高的敏感性。三个次要组(“激活不足”、“响应失败”和“无响应”)表现出不同程度严重性的受损响应潜力。无响应在整个时间过程中表现出最小的自噬激活,而响应失败表现出严重的激活缺陷。激活不足的突变体对营养变化的响应更接近正常,但无法在-N中完全激活自噬,也表现出轻微升高的基础活性。对每个簇组成的分析显示,必需基因倾向于不成比例地出现在过度活跃和激活不足谱中,反映了DAmP和敲除库之间的动态差异,或暗示了基础自噬、饥饿响应潜力和生长控制之间的潜在关系。
为了检查特征明确的自噬基因的谱分布,通过文献整理和图像手动检查定义了两组“金标准”自噬相关基因参考集。一组对自噬诱导至关重要的ATG基因显著过度出现在无响应中,另一组涉及自噬体成熟或清除的基因则显著过度出现在响应失败中。这些分布表明不同的响应谱有意义地反映了已知自噬缺陷的严重程度。
自噬扰动谱分析的准确性与稳健性
为了评估扰动统计量识别真正自噬相关基因的能力,分析了两组自噬参考集的精确召回曲线,并与一个阴性对照集(由不重叠于已验证基因的可疑开放阅读框缺失组成)或来自全基因组分布的随机样本进行比较。对于ATG和融合参考集的组合,HMP平均产生了最佳的精确召回,曲线下面积(PRC-AUC)> 0.97。与全基因组随机样本相比,单个动力学参数的P值产生的PRC-AUC在0.70-0.95范围内;与阴性对照集相比,则在0.8-1.0范围内。尽管ATG和融合突变体在饥饿中表现出严重的自噬缺陷,但许多在自噬体清除方面存在延迟的融合突变体在响应氮补充时表现出缓慢的失活。
还评估了测量的扰动表型的可重复性。对顶部突变体(基于HMP选择)重复饥饿方案显示,较强的自噬扰动表型的动力学更可能在不同实验间重复。此外,通过评估基于物理和遗传相互作用的多种酵母网络数据库中相互作用基因间自噬表型的代表性,观察到基因的自噬扰动统计量与其最近邻表型富集之间存在全基因组一致性。该数据中的不一致异常值以及产生弱扰动的“自噬”基因本体注释的突变体被用于预测潜在的假阳性和假阴性,随后进行了重新测试。该分析仅识别出56个潜在假阳性和109个潜在假阴性。超过一半的预测假阳性产生了可重复的自噬表型,代表了潜在的新型自噬相关基因,而只有27个突变体代表了扰动幅度回归的异常值,导致实验间弱相关或无相关性。在预测的假阴性中,有42个突变体在更宽松的阈值下显著,并显示出离散但可重复的自噬扰动表型。这些突变体也得到了更强的网络证据支持。进一步的检查揭示,许多这些不显著的突变体代表了具有特殊作用的基因,例如那些对饥饿诱导自噬非必需的基因,包括参与过氧化物酶体自噬、Cvt途径或线粒体自噬的基因,以及具有弱外显但可重复表型的基因。
最后,为了测试全基因组分析的可靠性,重建了33个代表不同动态谱和生物学功能的强显著缺失突变体的三重复,并进行了一套生长方案有变化的验证实验。独立克隆和不同方案间表型的可重复性与所有实验中相同克隆的可重复性相似,存在轻微的菌株背景效应以及将培养物生长至稳定期导致的自噬响应噪声升高。此外,点对点自噬扰动和响应动力学参数在筛选间显示出突变体之间的强相关性,-N中的激活水平、响应时间和斜率的度量最为稳健。这些观察表明,突变体响应动力学的全基因组变异是高度可重复的。
影响自噬动力学的细胞过程
为了识别影响自噬动力学的通路,首先对由基因本体生物学过程定义的集合上的每个个体响应统计量(参数符号化的-log10转换P值)进行了基因集富集分析。显著富集的术语(至少一个富集P < 0.005)通过在主成分分析上对富集统计量矩阵进行分析,以识别哪些动力学参数捕获了最多的功能变异。这种方法允许通过沿主要主成分总结功能变异,以非冗余方式检查GO术语富集。调查每个PCA载荷(代表一个动力学参数)的贡献揭示,响应潜力和对饥饿的敏感性与富集GO-BP的主导方向一致,与自噬和液泡活性相关的术语产生最强的关联。相反,对氮补充的敏感性与第二主成分更一致,并且与膜运输和融合相关的过程富集。有趣的是,这些GO术语与捕获控制响应潜力的机制方向高度去相关。最后,初始和最终自噬水平的扰动(与其他参数相关性最低)在氨基酸和核苷酸代谢、氮利用和线粒体活性相关的术语中富集。
然后使用组合的HMP统计量通过GSEA识别富集的GO术语。富集图提供了影响自噬的主要功能类别的综合概述,其中三个大型互连簇代表自噬和膜运输、RNA代谢和翻译以及基因表达调控。该图突出了扰动谱的分级分布,在接近自噬必需GO簇的地方同质富集严重的自噬缺陷,在邻近簇中富集较不严重的缺陷。不同谱之间富集相似性的量化揭示了导致部分功能丧失表型的突变体(如响应失败、低敏和激活不足)之间存在逐渐的功能重叠。有趣的是,功能获得谱(超敏和过度活跃)更频繁地彼此共现,并且分别与低敏和激活不足谱共现,表明在敏感性和响应潜力维度上调控表型配对的连续性。
自噬调节因子的因果结构与网络架构
对遗传干预的表型变化并不一定意味着基因是所测量表型的直接调节因子。因此,更仔细地检查了自噬影响基因的组织及其与自噬核心机制在功能网络中的关系。先前在酵母中的工作表明,当使用遗传相互作用的相似性(通过合成遗传阵列数据的皮尔逊相关系数计算)构建,或使用蛋白质-蛋白质相互作用构建时,全基因组网络可以准确捕捉细胞的功能组织。通过空间功能富集分析发现,除超敏外,所有扰动谱在遗传相似性和STRING PPI网络中均存在不同的全基因组富集模式。值得注意的是,ATG组在遗传相似性网络中未形成明显的簇,但在PPI网络中形成了簇,其空间富集与无响应重叠,并与膜融合相关过程共定位。
有趣的是,更严重的自噬表型在更接近ATG核心子图(包括ATG1和ATG8)的地方富集。当分析最短路径长度时,通过两种方式证实了自噬影响基因与ATG核心在这些网络中的接近性。首先,与距离较远的基因相比,更接近ATG核心的基因的HMP更显著。其次,除超敏外,每个自噬扰动谱的平均最短路径长度显著比不在任何扰动谱中的基因的平均最短路径长度更接近ATG核心,表明这些表型平均代表对自噬更直接的影响。当使用最短因果路径(要求所有中间节点在基因缺失时对自噬有显著影响)计算路径长度时,这种关系变得更强。相比之下,仅影响响应敏感性的超敏谱中11%的突变可能涉及更远距离的营养响应微调,通过几个中间节点,如观察到的路径长度所示。
与自噬影响基因在这些网络中的聚类一致,具有报告功能关系(SGA-PCC、BioGrid PPI和STRING)或复合体组关联的基因对表现出相关的自噬扰动,表明动态谱在全基因组尺度上与功能基因关系一致。SGA-PCC分数的符号可以区分抑制性和激活性基因关系。通过评估不同SGA-PCC截断值的基因集是否在扰动动态相关性中使用费希尔精确检验富集,检查了这些关系是否也与自噬相关性的符号一致。强显著基因之间的相关性差异确实导致了正负SGA-PCC代表性的转变。此外,当通过GSEA测试核心自噬基因的SGA-PCC上突变体谱的方向性参数富集时,过度活跃表型(与功能丧失表型相反)优先与ATG和融合核心基因的负SGA-PCC相关,表明存在抑制关系。使用这种方法,推断出自噬执行各子系统的差异调控,这无法从其单独的缺失或缺陷表型中测量。在这里,超敏响应与自噬体形成早期阶段涉及的基因(特别是ATG1)负相关,表明这可能是饥饿响应速率的主要限制因素。有趣的是,与融合核心基因正相关的响应失败,与一些参与自噬诱导的基因负相关。这可能表明存在来自涉及自噬体清除阶段的负反馈回路,或参与氨基酸释放和TORC1再激活的基因产物的多效性功能。
为了探索特定自噬影响基因之间的调控关系,在代表三个主要调控细胞层(基因表达调控、RNA代谢和翻译、以及膜动态和运输)的整理复合体组网络中绘制了自噬扰动表型,这些层对自噬动力学具有系统范围的影响。这允许观察表型在特征明确的功能模块中的外显率和分布。例如,观察到多个显著表型的聚类,如在染色质重塑子模块中,以及调控子图中自噬扰动方向的一致性。特别是对于RNA代谢和翻译,检测到沿与mRNA加工和翻译解码相关的模块中更强表型的系统富集,其中mRNA成熟和结合的扰动导致自噬响应降低,而mRNA衰变的扰动导致相反的表型。
自噬体形成与清除的动态潜在空间分析
DNN生成的潜在自噬特征可能提供了关于细胞状态的更多信息,这些信息可以通过用于确定自噬响应的二元分类器捕获。因此,使用UMAP将这些潜在自噬特征投影到两个维度,其中自噬信息与细胞间变异和来自DNN潜在空间的动态数据一起被保留。WT细胞从以无自噬体为特征的UMAP区域(-N,0小时),进展到以游离自噬体为特征的区域(-N,早期时间点,3-5小时),最终到达以清除的自噬体为特征的区域,其中自噬体与液泡融合(-N,晚期时间点,5-11小时)。氮补充后,WT细胞轨迹逆转。正如预期,atg1Δ突变体细胞的轨迹从未进展出“无自噬体”UMAP区域。相比之下,vam6Δ突变体细胞的轨迹与早期WT细胞轨迹重叠,但从未进展到“清除的自噬体”UMAP区域。相反,它表现出一种独特的UMAP流,其特征在于游离自噬体的逐渐累积,这在UMAP内与WT细胞在类似的低置信度DNN预测区间内在统计学上是可分离的。
鉴于全基因组UMAP动力学的显著变异和许多突变体表现出升高的分类不确定性,测试了使用vam6Δ潜在空间作为自噬执行两步模型框架中的“分布外”中间参考状态。这里使用贝叶斯因子(BF)根据细胞相对于为WT、atg1Δ和vam6Δ细胞计算的参考核密度分布的位置,对突变体细胞执行自噬体形成或清除的潜在空间证据进行评分。采用时间独立的BF,使用时变核密度计算,对突变体在三个参考表型之间的总体行为进行分类。此程序通过对每个突变体平均BF分数有效地整合了时间变量,增强了表型检测的分类准确性和敏感性。此外,在整个时间过程中,随着突变体在固定参考核密度之间移动,对突变体状态的逐点证据进行评分,指示自噬执行活动的变化。
BF准确评定了自噬执行的选择性缺陷,同时也量化了突变体表型严重程度的逐渐增加。例如,参与液泡拴系和HOPS复合体的蛋白质表现出强烈的清除缺陷和高自噬体负荷,而逆转录体亚基和其他几种膜运输蛋白质显示出更中等的缺陷,自噬体缓慢对接并逐渐分解。对全基因组BFt分布在时间点之间相关性的分析揭示了自噬体形成的强烈氮依赖性调控,时间滞后之间的相关性迅速下降。这表明对自噬体形成的遗传贡献在不同的时间间隔和处理阶段存在差异。相反,清除活性的遗传扰动随时间保持相对恒定,-N中的清除与+N中的自噬体负荷负相关。这些差异强调了自噬体形成对氮可用性的动态敏感性,同时揭示了通过不同机制对清除活性的稳定和稳健调控。
参数GSEA揭示,氨基酸合成和TORC1介导的营养感知的扰动与自噬体形成升高相关,而蛋白酶体活性和葡萄糖摄取的破坏增加了自噬体清除。通过在每个处理阶段分组时间独立BF,揭示了其中一些基因集的营养感知功能,以及以氮依赖性方式调节自噬执行的额外因子。值得注意的是,核小体拆卸和线粒体-细胞核信号(也称为逆行或RTG通路)与营养丰富条件下自噬体形成的相对增加相关,而代谢相关过程,包括葡萄糖-6-磷酸酶活性和脂质稳态,在饥饿条件下对自噬体形成的贡献更显著。有趣的是,对RTG缺失突变体的UMAP分布和荧光显微图像的检查证实了在+N中具有升高自噬体形成的过度活跃表型,以及在补充后强烈延迟的清除表型。尽管已知TORC1信号在营养依赖性诱导调控中起核心作用,但这些发现表明需要额外的组件在整个过程的不同阶段调节自噬动力学。
为了评估动态潜在空间分析如何可靠地捕捉自噬活性的真实变异,将不同的BF与在选定突变体(包括已知的自噬调节因子如TORC1信号组件和亚精胺生物合成通路中的酶)集中测量的自噬流独立读数GFP-Atg8切割进行了比较。与所有不同的筛选测量(包括动力学参数)相比,时间平均BFtWT:ATG1与平均切割百分比产生了最佳相关性(95%),为其作为自噬活性替代指标提供了支持。鉴于该度量是以VAM6为中间步骤的BFt指标的总和,接下来使用双变量回归模型量化了形成和清除活性随时间对自噬流的渐进贡献。该分析强调了清除调控的重要性,它成为预测深度饥饿条件和补充后立即Atg8流变异的主要因素。
RTG通路独立于TORC1抑制自噬体形成
由于RTG基因的缺失导致在富氮条件下自噬体形成过度和清除延迟,类似于一些TORC1通路突变体的表型,推测这两条通路功能上趋同。在比较RTG缺失突变体与已建立的自噬调节因子(包括SPE通路缺失突变体、AMPK和WHI2、PSR1、PSR2、PIB2