将水稻泛基因组研究应用于育种的挑战：以水稻为例

《Plant Biotechnology Journal》：Challenges in Bringing Pangenome Research Into Breeding: A Case Study in Rice

【字体：大中小】 时间：2026年02月19日 来源：Plant Biotechnology Journal 10.5

编辑推荐：

　　本综述聚焦水稻泛基因组研究在育种应用中的前沿进展与瓶颈。文章系统梳理了从单一参考基因组向泛基因组（pangenome）范式转变所带来的突破，尤其是结构变异（SV）、存在/缺失变异（PAV）等新型遗传标记在解析产量、抗病及抗逆性状“缺失遗传力”中的关键作用。同时，作者深入剖析了将海量、复杂的泛基因组数据转化为育种者（breeder）可操作工具的现存障碍，包括图结构（graph-based）数据分析的计算挑战、AI/ML模型整合的鸿沟以及基因分型平台的局限，并提出了面向未来的整合多组学（multi-omics）与构建“育种友好型”决策系统的解决方案，为作物育种进入泛基因组时代描绘了路线图。

引言

作物育种已迈入基因组学时代，但长期以来依赖单一参考基因组（single reference genome）的策略，极大地限制了对物种内广泛遗传多样性的认知。随着测序技术的进步和大量基因组组装的完成，研究者发现，单一参考基因组遗漏了大量存在于不同栽培品种和野生近缘种之间的结构变异（SV）、存在/缺失变异（PAV）以及新基因。在此背景下，泛基因组（pangenome）应运而生，它整合了多个种质（accession）的全部遗传多样性，包含了存在于所有个体中的核心基因（core genes）以及在一个或多个个体中缺失的非必需基因（dispensable genes），为我们提供了远超单一基因组的、关于作物遗传的全面蓝图。

然而，尽管泛基因组在揭示隐藏的遗传变异方面潜力巨大，但在将其大规模数据集应用于实际育种项目之间，仍存在显著鸿沟。这源于缺乏面向育种者的SV/PAV基因分型平台、连接泛基因组与表型数据的集成分析流程，以及处理图结构泛基因组所需的充足计算资源和专业知识。本文将以作为全球半数以上人口主粮和禾本科基因组学模式物种的水稻为例，探讨泛基因组在作物改良中的前景，回顾其促成的最新突破，并审视在泛基因组辅助育种成为常规手段之前必须解决的技术与实操挑战。

水稻泛基因组连接基因组学与育种的承诺

近年来，水稻泛基因组研究进展显著，已发表超过10项相关研究。早期研究主要聚焦亚洲栽培稻，且仅限于少数代表性品种。随着测序技术和计算方法的进步，研究范围已扩展至野生稻和非洲栽培稻。一个里程碑式的研究是利用3010份亚洲栽培稻种质构建了线性泛基因组，清晰划分出九个亚群，为探索等位基因变异和指导未来育种策略提供了前所未有的分辨率框架。另一项标志性研究则基于145个野生和栽培稻基因组构建了图结构泛基因组，发现了3.87 Gb参考基因组中缺失的新序列，并鉴定了69,531个泛基因，其中19.74%是野生稻特有的、与抗病和环境适应相关的基因。这些发展标志着水稻泛基因组研究已从线性参考基因组演变为动态的图结构框架，能够捕获数千份种质中的SV和PAV。

将泛基因组数据整合到育种策略中，代表了水稻改良的范式转变。传统依赖单一参考基因组的育种和关联分析，常常会遗漏关键基因，尤其是参考基因组中不存在的基因，以及控制重要性状的SV。相比之下，泛基因组方法囊括了核心基因和非必需基因，从而利用了更广泛的遗传变异谱。例如，对3010份亚洲稻种质的泛基因组分析，发现了约268 Mb日本晴（Nipponbare）参考基因组中不存在的序列，揭示了12,465个新基因和19,721个非必需基因。后续研究进一步将已知泛基因组扩展，当纳入野生稻近缘种时，共发现了879 Mb新序列和约19,000个新基因。因此，水稻泛基因组揭示了一个与抗病、抗逆、产量和品质相关的、先前隐藏的巨大等位基因库，为育种者提供了宝贵的新靶点。

更重要的是，泛基因组参考可以与现代分子育种策略（如全基因组关联研究^GWAS和基因组选择^GS）相结合，使得PAV和SV能够与SNP一起作为信息标记，用于连接基因型与表型。因此，由SV控制的性状可以被更有效地定位，并且候选基因可以在泛基因组中被识别。总体而言，水稻泛基因组提供了遗传多样性的整体视图，能够通过标记辅助选择和基于SV的基因组选择实现更精确、高效的育种。

水稻泛基因组学在性状发现上的突破

泛基因组学对作物改良的潜在影响是巨大的，这一点已被水稻育种中众多的最新案例研究和应用所证明。整合的泛基因组分析解锁了许多重要的农艺性状，而这些性状是传统的单参考方法所无法检测到的。

一个主要突破涉及产量和植株结构新位点的发现。例如，利用12个基因组的水稻泛基因组参考，Wang等人对413份不同水稻种质进行了基于PAV的全基因组关联分析，成功鉴定出了影响粒重和株高的因果结构变异，而这些是单参考SNP全基因组关联分析未能检测到的。值得注意的是，一个位于第8号染色体上的株高新数量性状基因座^QTL，仅在泛基因组学分析中被发现，凸显了其揭示影响关键产量成分的隐藏遗传因素的能力。

同样，泛基因组方法显著增强了对水稻抗病基因的发掘。抗性位点通常成簇存在并表现出PAV多态性，这使得用单参考方法检测它们变得困难。通过利用基于泛基因组的全基因组关联分析，一项近期研究发现了74个与稻瘟病抗性相关的QTL，其中包括新的同时赋予穗瘟和叶瘟抗性的qPBR1和与已知广谱抗性基因ptr共定位的qPBR12。在qPBR1内，定位了六个候选基因，其中一个显示出与增强稻瘟病抗性的强关联。这种泛基因组驱动的方法不仅揭示了新的抗性位点，也重新确认了已克隆的抗性基因（如Pi9、Pi5、Pid1和Pita），证明了基于泛基因组的方法在捕获已知和新型抗病基因方面的能力。

此外，泛基因组学方法还揭示了水稻耐热性的遗传基础。一项研究构建了来自60个水稻品种的泛基因组，以鉴定与耐高温相关的基因。该分析揭示了1141个仅存在于耐热品种且参考基因组中没有的基因；其中许多基因在热胁迫下差异表达。通过将这些发现与已知的耐热QTL相结合，研究人员从非参考区域定位了两个强候选基因，为培育耐热水稻品种提出了有前景的靶标。

将泛基因组学洞见转化为实用育种的关键障碍与潜在解决方案

然而，将这些概念验证的成功转化为常规育种策略，仍需进一步努力以解决剩余的技术和后勤挑战。主要障碍及一些可行的解决方案概述如下。

数据结构的复杂性限制了功能变异的发现

一个主要障碍是生成数据的巨大体量和结构复杂性。例如，一个全面的水稻泛基因组可能包含数万个可变基因和数百万个SV，这使得提取基因组信息的洞见变得困难。大多数研究仍专注于双等位基因变异，这很大程度上是由于短读长测序技术的局限以及缺乏能够处理复杂多等位基因变异的稳健分析框架。串联重复和其他复杂SV经常代表性不足，因为它们的准确检测和解释需要高质量的基因组组装、图结构参考和多组学整合。

优先考虑功能等位基因需要的不仅仅是DNA序列，因为转录组指示基因活性，表观基因组标记提供染色质背景和等位基因使用信息，而表型则将功能变异与性状联系起来。通过高通量分析流程系统地整合多组学数据与泛基因组，研究者可以从数十万个多态性中筛选出直接构成重要生物学功能或农艺性状的子集。例如，将发育阶段转录组与水稻泛基因组变异整合，对于揭示多等位基因变异的调控作用至关重要。在另一项研究中，基因组范围的DNA甲基化组和转录组数据在水稻杂种及其亲本中结合，鉴定出了与等位基因特异性表达以及分蘖数和生物量等表型性状相关的差异甲基化区域，证明了表观突变可以驱动与农艺性能相关的可遗传表达变化。

计算挑战、新兴资源及泛基因组表示标准化

水稻泛基因组分析面临着巨大的计算和生物信息学复杂性。传统的线性表示通常拼接新序列或将它们表示为独立的叠连群，但常常缺乏位置背景。由于早期组装和比对工具的限制，非参考序列在没有锚定到统一基因组框架的情况下被添加，使得相对于已知基因和结构特征的定位变得复杂。图结构的泛基因组表示通过更高保真度地解析结构变异和复杂重排来缓解这些问题。然而，在图结构框架中用于读段比对和变异识别的工具仍然不成熟。许多泛基因组计算工具最初是针对人类基因组数据集开发和基准测试的，它们在植物基因组（通常更大、重复性更高、杂合度更大）上的性能仍然没有得到很好的表征。

此外，许多育种项目缺乏管理此类复杂泛基因组数据结构所需的高性能计算基础设施和专业的生物信息学专业知识。虽然变异图可以提高基因分型准确性，但它们通常比线性参考方法需要多得多的计算资源，限制了其在大型、复杂植物基因组中的可扩展性。因此，迫切需要开发针对图结构泛基因组的可扩展、高效的软件解决方案。新兴工具如VRPG提供了有前景的解决方案，它将基于线性参考的坐标投影与集成注释相结合，并采用了专门为图结构泛基因组分析优化的高级数据结构。

推进基因分型平台以捕获复杂的泛基因组变异

另一个重大挑战在于开发能够适应多样变异类型和复杂基因组背景的基因分型解决方案。传统的育种项目主要依赖基于单一参考基因组设计的SNP芯片或靶向标记，但这些方法难以捕获非参考的PAV和SV。在水稻中，RPGA检测了从3K泛基因组中选出的超过8万个SNP和PAV探针，使得全基因组关联研究能够发现对单参考分析不可见的位点。更近期，RSPVM在图结构泛基因组框架上编目了超过5400万SNP、1100万插入缺失和约18.5万个PAV，极大地提高了在群体规模上对稀有和结构变异进行基因分型的能力。

因此，向先进的基因分型范式过渡，需要具有成本效益的高通量平台，能够准确捕获泛基因组范围的多等位基因和结构变异，同时与现有的育种数据库和决策支持系统保持兼容。

泛基因组解读中新兴的AI方法：育种应用的差距

尽管人工智能和机器学习为解读复杂的泛基因组数据提供了变革性的潜力，但将这些方法整合到实际育种流程中仍然是一个重大缺口。最近的进展表明，人工智能可以增强泛基因组中SV和PAV的检测和基因分型，这些对于传统的生物信息学方法通常具有挑战性。例如，卷积神经网络和其他深度学习模型已被整合到SV检测流程中，提高了大型群体数据集中的敏感性和准确性，使得构建高分辨率泛SV图谱成为可能。在基于标记的基因组选择方面，一项近期水稻研究表明，将SV与SNP结合，在87%的比较中提高了预测能力。

然而，将人工智能应用于泛基因组辅助育种仍面临几个关键障碍。一个主要问题是对于育种者的可用性和可及性：大多数用于泛基因组分析的人工智能工具是为遗传学家和生物信息学家设计的，而不是为育种者设计的。育种项目难以采用基于泛基因组的方法，因为缺乏直观的、对育种者友好的界面和可视化平台，以将复杂的图结构转化为可操作的性状和变异信息。同时，育种数据集（如田间试验记录、遥感图像和谱系数据）存在于不同的孤岛中，无法与基因组变异数据顺畅整合。在模型可解释性和信任度方面也存在担忧。育种者需要透明和可解释的模型来做出自信的选择决策。然而，许多最先进的人工智能模型，特别是深度学习架构，是“黑箱”，很难理解预测是如何做出的，也很难在育种背景下验证结果。

应用泛基因组学发现的转化与组织挑战

即使在鉴定出新的性状相关基因之后，将这些发现应用到田间仍然存在重大的转化和组织挑战。将来自野生稻或未利用地方品种的有价值等位基因导入到优良栽培品种中，通常需要多个世代，并且可能因连锁累赘或育性降低等问题而复杂化。虽然传统方法如标记辅助回交被广泛用于将性状从野生背景转移到栽培背景中，但基因组编辑技术提供了一个有前景的替代方案。

水稻泛基因组研究发现了有益的基因，特别是在驯化过程中丢失但仍保留在野生稻中的抗性位点。通过“超泛基因组指导”的基因组编辑策略利用这些发现，可以快速地将抗旱或抗病等理想性状重新引入现代品种，有可能规避漫长的回交过程。然而，无论是传统方法还是基因组编辑方法的实施都面临障碍，包括对转基因作物的监管限制，以及育种者和公众对新技术接受度的需要。这些问题是作物改良计划中普遍存在的。

结论、展望及对水稻和其他作物的启示

将水稻泛基因组转化为常规分子育种应用正在稳步推进，尽管仍有若干挑战有待克服。近期的概念验证研究已经证明了泛基因组学方法在鉴定传统方法未能检测到的性状相关基因方面的能力。创新工具的发展，进一步强化了这种方法对于功能基因组学和实际育种的变革潜力。总的来说，这些进展表明，水稻泛基因组正在成为作物改良的有力工具。

展望未来，预计水稻育种者将常规使用泛基因组图谱来选择具有互补新基因内容的亲本系。他们将利用基于泛基因组的全基因组关联分析，鉴定从外缘供体导入的关键基因组区域，并咨询广泛的泛基因组数据库以指导精确的基因编辑策略。最终，水稻泛基因组已从一个学术概念演变为一个有望增强分子育种的实用资产。这种转变为广泛的应用提供了宝贵的经验和最佳实践，表明泛基因组信息策略可以使水稻以外的多种作物受益。

热点排行

新闻专题