优化GRIDSS用于临床检测:一种针对生殖系结构变异识别的靶向NGS过滤策略

《European Journal of Human Genetics》:Optimizing GRIDSS for clinical use: A targeted NGS filtering strategy for germline structural variant detection

【字体: 时间:2026年03月18日 来源:European Journal of Human Genetics 4.6

编辑推荐:

  为解决靶向测序在诊断中难以有效检测中尺度结构变异(SV)的问题,本研究优化了GRIDSS工具并将其应用于临床诊断流程。研究人员开发了一套针对生殖系SV的过滤策略,在9726名疑似遗传性癌症患者中成功筛选出13个经实验验证的SV,其中8个为(可能)致病变异,将诊断率相对提高了0.61%。该研究证明了GRIDSS结合定制化过滤策略,可有效提升遗传诊断产出,为临床应用提供了可行方案。

  
在人类复杂的基因组中,除了我们熟知的单核苷酸变异(SNV)和短小的插入/缺失(indel),还潜藏着一类规模更大、更难捉摸的“破坏者”——结构变异(SVs)。这些从20个碱基对(bp)到上千碱基对的“中间尺度”变异,如同基因组中的“大地形”改变,是许多遗传病,特别是遗传性癌症易感性的重要推手。然而,在当前的临床诊断实践中,尤其是依靠靶向二代测序(NGS)面板的检测中,识别这些变异却是一个棘手的难题。常规的工具大多依赖测序深度(read depth)分析,擅长发现拷贝数变异(CNV),但对于那些不改变拷贝数的平衡性变异,或者像“移动元件”这样偷偷插入的“外来者”,就显得力不从心。这导致了部分致病性的结构变异被“漏诊”,构成了“缺失的遗传力”的一部分。
有没有一种方法,能将那些隐藏在“水面之下”的、用常规工具难以捕获的结构变异“打捞”上来,从而提高遗传诊断的准确率和产出呢?这正是发表在《European Journal of Human Genetics》上的一项研究试图回答的核心问题。来自西班牙加泰罗尼亚肿瘤研究所等机构的研究团队,将目光投向了一款强大的生物信息学工具——GRIDSS (Genome Rearrangement IDentification Software Suite)。这款工具原本是为全基因组测序(WGS)设计的,它整合了末端配对(paired-end mapping)、分裂读段(split-read)分析和从头组装(de novo assembly)三种策略,理论上能更全面地捕捉结构变异。但将其“移植”到靶向测序面板数据上,并用于临床诊断流程,面临着“水土不服”的挑战:它会输出海量的候选变异,其中混杂着大量假阳性和临床意义不明的信号,犹如大海捞针,让临床医生和遗传分析师望而却步。
为了破解这个难题,研究团队进行了一场精密的“淘金”行动。他们招募了9726名疑似遗传性癌症的患者,利用定制的ICO-IMPPC遗传性癌症面板进行了靶向测序。研究的核心,并非简单地运行GRIDSS,而是为其量身定制一套能从“噪声”中精准筛选出“真金”(即临床相关的生殖系结构变异)的过滤策略。为此,研究人员开发了一套名为“filter_gridss”的R语言流程,对GRIDSS输出的超过130万个初始变异进行层层筛选。
这项研究采用了几个关键的技术方法:首先,利用GRIDSS对测序数据进行结构变异检测,并辅以RepeatMasker对可移动元件进行注释。其次,针对来自9726名疑似遗传性癌症患者的靶向测序数据,研究人员开发并优化了一套基于R语言的变异过滤流程,该系统能对变异进行自动筛选和分类。最后,通过桑格测序和纳米孔长读长测序对候选变异进行实验验证,并通过RNA分析(RT-PCR及测序)评估了影响剪接的变异。
研究结果
优化过滤参数
为了在灵敏度和特异性之间取得最佳平衡,研究人员系统评估了三个关键过滤参数的阈值:最小变异等位基因频率(VAF)、以及在样本中出现的相同或高度相似变异的频率。他们测试了多种阈值组合,以确保不遗漏任何一个最终被确认为阳性的候选变异。最终确定的优化参数组合是:最小VAF ≥ 10%,相同变异出现于<10个样本,高度相似变异出现于<15个样本。这一组合在保留所有阳性变异的同时,将需要人工复核的变异数量控制在可接受的范围内。
变异过滤策略
应用优化后的过滤流程后,效果显著。初始的双断点数据集包含798,536个变异,单断点数据集包含509,056个变异。经过一系列过滤步骤,包括排除在多个样本中高频出现的变异、排除位于深内含子区或与表型无关基因的变异、排除VAF过低的变异、以及排除简单重复序列等,最终分别只剩下79个双断点变异和10个单断点变异,总计89个。其中,有24个已被常规诊断流程(VarScan和DECoN)检出,故不予进一步分析。剩下的65个变异进入下一轮人工复核。
候选变异的可视化检查
研究人员使用整合基因组学浏览器(IGV)对这65个候选变异进行了仔细的可视化检查,通过观察覆盖度模式、读段对方向和软剪切(soft-clipped)碱基等特征,来判别其真伪。经过这一轮“火眼金睛”的筛选,52个变异因缺乏结构变异的证据而被排除,最终剩下13个变异进入实验验证阶段。
临床背景下的已验证变异
这13个候选变异全部通过了桑格测序或纳米孔长读长测序的实验验证,证明了过滤策略的高准确性。其中,8个被分类为(可能)致病性变异,临床意义重大,包括:
  • MSH6基因中发现了两个可导致林奇综合征的移码重复。
  • BARD1基因中发现了一个影响剪接的缺失,RNA分析证实其产生了异常的转录本,被归类为可能致病。
  • APCBRCA2PALB2基因中发现了五个移动元件插入(MEI),包括一个长达6 kb的长散布核元件(LINE1)插入和四个Alu插入。其中一个BRCA2Alu插入正是已知的葡萄牙创始人突变。
另外5个变异被归类为临床意义不明确(VUS)或可能良性。总体而言,在这9726个样本中,本研究新发现的8个(可能)致病变异,使诊断出的致病变异总数相对增加了0.61%。
研究结论与讨论
这项研究成功地将GRIDSS工具适配到靶向NGS数据的生殖系结构变异检测中,并通过开发一套定制化的过滤策略,解决了其在临床应用中输出复杂、假阳性高的问题。该策略显著降低了需要人工复核的变异负担(双断点数据集减少91.5%,单断点数据集减少96.2%),最终成功鉴定出多个之前被常规方法遗漏的、具有重要临床价值的致病变异,特别是在MSH6BARD1APCBRCA2PALB2等关键癌症易感基因中发现的移动元件插入和罕见重排。
研究的意义是多方面的。首先,它直接提高了遗传性癌症的诊断率,为患者及其家族成员提供了明确的遗传学诊断,从而能够进行个性化的风险管理、监测和预防。其次,它强调了移动元件插入在遗传病,特别是癌症易感性中的重要作用,论证了将其纳入常规诊断流程的必要性。最后,研究提出的过滤策略具有模块化和可调性,不同的实验室可以根据自身数据特点和资源情况,调整参数以平衡检测灵敏度与人工复核的工作量,这使得该方法具有良好的临床适用性和推广潜力。
当然,该策略也存在一定的局限性。例如,较为严格的VAF阈值(≥10%)可能漏检一些嵌合体变异或在复杂基因组区域支持读段较少的变异;基于变异出现频率的过滤虽然高效,但也可能排除掉一些真实的、但在特定人群中频率较高的致病变异。此外,GRIDSS本身在靶向测序数据上的表现也受到测序读长、覆盖深度以及捕获区域边界的制约。
尽管如此,这项研究清晰地证明了,将GRIDSS这类整合多证据的检测工具与精心设计的、面向临床的过滤流程相结合,是弥补当前靶向测序在结构变异检测方面不足的有效途径。它为实现更全面、更精准的遗传诊断提供了切实可行的方案,推动了个体化医疗向前发展。未来,随着更多样本的积累和实验室内部数据库的建立,过滤策略可以进一步优化,从而在临床常规诊断中更高效地“大海捞针”,让更多隐藏的遗传真相水落石出。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号