确定汇集式CRISPR筛选的最佳sgRNA覆盖度与筛选时长:一个定量框架

《Methods》:Determining optimal sgRNA coverage and screening duration for pooled CRISPR screens: A quantitative framework

【字体: 时间:2026年05月11日 来源:Methods 4.3

编辑推荐:

  基于CRISPR的功能缺失筛选已成为系统表征基因功能的强大工具。然而,决定全基因组筛选可靠性及资源效率的关键参数——sgRNA(单引导RNA)覆盖度的标准化量化指标,目前仍未得到界定。在本研究中,研究人员首先在HeLa细胞中进行了系统的sgRNA覆盖度测试,以

  
基于CRISPR的功能缺失筛选已成为系统表征基因功能的强大工具。然而,决定全基因组筛选可靠性及资源效率的关键参数——sgRNA(单引导RNA)覆盖度的标准化量化指标,目前仍未得到界定。在本研究中,研究人员首先在HeLa细胞中进行了系统的sgRNA覆盖度测试,以确定CRISPRiBAR敲除文库的最佳覆盖度。此外,研究还纳入多个时间点以监测sgRNA介导的基因敲除动态。通过平衡数据质量、时间效率和成本,本研究确定15天和800×覆盖度为标准iBAR?CRISPR筛选的最佳参数。不同覆盖度水平的数据也可为不同实验条件下的筛选提供重要参考。纵向分析显示,将筛选周期延长至15天以上,细胞群体内的sgRNA分布模式仍保持稳定。该研究确立了确保CRISPR敲除筛选有效性和可重复性的关键参数基准,为下游药物筛选和靶点鉴定奠定了坚实基础。
1. 研究背景、问题与目的
汇集式CRISPR全基因组筛选已成为功能基因组学领域的变革性方法,能够大规模、系统地研究基因功能。在基于CRISPR的敲除筛选流程中,sgRNA文库的覆盖度(即每个sgRNA的平均细胞数)和筛选时长是两个核心参数,共同决定了筛选的可靠性、灵敏度与资源效率。然而,目前这两个参数缺乏标准化的量化指标。sgRNA覆盖度不足会增加假阴性风险,尤其是在研究表型微弱或具有背景依赖性的必需基因时;而过高的覆盖度则可能导致资源浪费。同时,筛选时长过短可能错过延迟出现的复杂表型,过长则可能引入细胞克隆扩张等混杂因素。为了解决上述问题,为功能性筛选提供明确、可重复的实验参数指导,研究人员以整合了内部条形码技术的CRISPRiBAR系统为平台,在HeLa细胞中开展了系统研究,旨在建立确定汇集式CRISPR筛选最佳sgRNA覆盖度与筛选时长的定量框架。本研究成果发表在《Methods》期刊。
2. 主要技术方法概述
本研究利用了一个靶向19,114个蛋白编码基因的全基因组CRISPRiBAR敲除文库,每个基因设计三个sgRNA,每个sgRNA连接四个不同的内部条形码序列,总计包含233,164个sgRNA构建体。首先,扩增并测序验证了质粒文库的质量。随后,在HeLa-Cas9细胞中进行了慢病毒包装、滴度测定,并以高感染复数(MOI ~ 3)构建了不同覆盖度水平的细胞文库。研究人员设计了系统性的实验方案,在800×覆盖度下于不同时间点(第3、9、15、21、27天)取样,以分析时间动态;同时在第15天对不同覆盖度(100×、200×、400×、800×)的样本进行取样,以分析覆盖度效应。对所有样本提取基因组DNA,进行下一代测序,并使用ZFCiBAR算法(整合了标准化的对数倍数变化和跨内部条形码的一致性)进行数据分析,计算sgRNA的筛选评分。
3. 研究结果
3.1. 细胞文库平台的建立
研究人员成功构建了高质量的质粒文库,并在不同覆盖度水平下成功构建了细胞文库。所有细胞文库在筛选起始时(第0天)均实现了100%的sgRNA代表性和0%丢失率,为后续分析提供了稳健的基线。实验流程示意图明确了文库构建、覆盖度与时间点设计,为系统性参数测试奠定了基础。
3.2. 筛选评分分析与覆盖度依赖性表型检测
通过分析第15天不同覆盖度下的数据,研究人员发现:
  • 核心必需基因区分度:随着覆盖度增加,金标准“必需基因”的zLFC(标准化的对数倍数变化)分布与“非必需基因”的分布分离更为清晰,表明更高sgRNA覆盖度可减少实验变异,增强筛选的分辨能力。800×覆盖度显示出最清晰的区分。
  • 基因检测数量:检测到的功能位点数量与覆盖度呈强正相关。在筛选评分阈值(SS)为3.5时,检测到的显著耗竭基因数量从100×的242个增至800×的747个。
  • 必需基因识别:高覆盖度能识别出更多必需基因。800×覆盖度识别了141个必需基因,而400×覆盖度识别了80个,表明更高覆盖度可补偿表型异质性并检测到弱效应表型。
  • 阴性对照与特异性:非靶向对照sgRNA在所有显著阈值下仅产生极少的富集信号,无耗竭信号,验证了筛选的特异性。
3.3. 差异覆盖度分析
通过ROC(受试者工作特征)曲线和Precision-Recall(精确率-召回率)曲线评估了不同覆盖度的筛选性能:
  • 区分能力:所有覆盖度的AUC(曲线下面积)值均超过0.7,表明筛选系统具有良好的区分能力。其中,800×覆盖度的AUC最高(0.82)。200×覆盖度出现了性能下降,分析表明这可能是由于处于“随机区”,中间深度的采样导致了跨内部条形码的随机方差最大化。
  • 精确度与召回率:800×覆盖度在固定精确度下实现了比400×覆盖度高出约15%的召回率,表明高覆盖度对于捕获更广泛的必需基因谱系至关重要。
  • 基因本体富集分析:高覆盖度(800×)下的基因集在功能富集分析中显示出更全面、更显著的基因本体条目,而低覆盖度(100×)则可能遗漏关键调控组分,如“snoRNA结合”等功能。
3.4. 功能位点识别的时间动态
在800×覆盖度下,研究人员分析了从第3天到第27天多个时间点的筛选数据,发现:
  • 表型演化:早期(第3、9天)必需基因与非必需基因的zLFC分布重叠明显。从中期(第15天)开始,两者分离变得显著,到后期(第27天)分离最明显,表明更长的筛选时长有助于累积微弱的表型信号至统计学可检测水平。
  • 基因检测数量:检测到的显著基因数量随时间显著增加。在SS=3.5时,从第3天的242个增至第27天的1,285个,其中耗竭的必需基因数量在D27达到1,173个。
  • 时间特异性识别:与第27天的结果比较发现,早期时间点会错过大量必需基因,特别是那些具有微弱或缓慢表现表型的基因,强调了延长筛选时长对最大化敏感性的重要性。
  • 富集基因动力学:富集信号显示出随时间演化的功能级联,包括即刻响应基因、中期驱动基因和晚期调节基因,其中一些重要调控因子在筛选的前两周几乎无法被检测。
3.5. 差异时间动态分析
对800×覆盖度下不同时间点的性能评估显示:
  • 性能演化:AUC值在第15天(0.82)后趋于稳定,并在第27天略有提升(0.87)。第9天出现性能低谷,可能反映了基因敲除后的早期适应性阶段。从第9天到第15天,精确率显著提升,表明两周后真实必需基因能被更可靠地与噪音区分。
  • 功能特征:基因本体富集分析揭示了随时间推移的细胞应答阶段。早期(D9)功能特征狭窄,高度富集于“核糖体结构成分”。从第15天起,功能谱显著拓宽,稳定地涵盖了转录、DNA复制修复、蛋白质折叠等多种核心细胞过程。这表明延长筛选时长对于捕获生物后果的全谱至关重要。
4. 讨论与结论
本研究的讨论部分对核心发现进行了综合阐述,并得出了明确的结论:
  • 覆盖度的核心结论:研究表明,800× sgRNA覆盖度为汇集式CRISPRiBAR敲除筛选提供了优化的精度,能可靠识别具有微弱但重要功能的基因。虽然400×覆盖度可作为资源有限研究的一个合理选择,但其检测能力存在局限,会遗漏约20%的微弱表型(少识别46个必需基因)。进一步降低至200×或100×则会引入显著的位置假象和不可接受的数据变异,损害筛选的完整性。维持高文库代表性是可靠功能发现的基础要求。
  • 时长的核心结论:筛选时长对于捕获基因功能的全谱同样关键。研究识别出细胞对CRISPR敲除应答的三个阶段:早期适应期、稳定期和成熟期。其中,第15天(稳定期)的筛选达到了稳健的性能,能够有效识别大部分必需基因。而延长至第27天(成熟期)对于捕获晚期出现的表型至关重要,这些表型富含染色质调节因子和代谢因子等临床相关基因类别。研究者指出,最佳的筛选时长本质上取决于细胞群体的倍增次数,需根据目标细胞系的内在生长动力学进行校准。
  • 综合建议与意义:基于以上发现,研究提出了清晰的实践建议。对于确定性研究(如药物靶点发现),建议采用800×覆盖度并持续27天的方案以实现最大灵敏度。对于先导项目或资源有限的筛选,可采用分级策略,即在400×覆盖度下进行为期15天的初筛。本研究建立了一个多维度框架,重新定义了CRISPR筛选的标准,为研究人员提供了直接的实验设计指导,并深化了对遗传扰动下细胞动态响应的理解。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号