综述：真菌生物技术中的图数据科学：机遇与应用

【字体：大中小】 时间：2026年03月09日 来源：Biotechnology Advances 12.5

编辑推荐：

　　这篇综述深入探讨了图数据科学在应对真菌生物技术核心挑战（如基因组复杂性、静默次级代谢、表型变异、不准确注释及数据孤岛）中的关键作用，系统评估了现有工具，并阐明了基于图的方法（如泛基因组图、蛋白质相互作用网络）如何整合多组学数据，以加速从基础研究到工业应用的转化。

1. 背景

真菌生物技术在生成高价值酶和发酵产品方面至关重要。真菌酶广泛应用于食品、制药和可再生能源等工业生物技术过程，其市场价值预计到2033年将达到41亿美元。此外，真菌发酵仍然是许多产品制造的核心，例如由产黄青霉生产的青霉素，其全球市场价值预计到2025年将达到110亿美元。食用担子菌提供必需的无毒营养素和理想风味，子囊菌分泌多种碳水化合物加工酶和氧化还原酶，可用于污染物降解和工业合成。真菌还产生作为天然防御机制的次级代谢物，如具有抗氧化特性的倍半萜。真菌菌丝体形成致密坚固的结构，可用于开发建筑、包装和纺织品领域的生物基材料。真菌在自然界的生态功能对农业有益，例如丛枝菌根真菌可以通过改善养分吸收来增强植物恢复力。其他真菌，特别是木霉属物种，被用于植物病原体的生物防治以保护作物。在生物技术应用中推动创新的真菌门包括子囊菌门、担子菌门和毛霉门。尽管其具有工业重要性，但在理解真菌基因组变异、表型多样性和蛋白质功能预测方面存在的主要知识差距制约了生物创新。测序技术的进步已使数据科学成为推动工业真菌生物技术发展的关键组成部分，但真菌基因组固有的复杂性和不兼容的存储库继续限制了对生物关系的全面表征及其在工业应用中的转化。

2. 真菌生物技术挑战：从生物学和数据科学视角

开发用于分析和预测真菌功能的有效方法面临五个主要的生物学和技术挑战。

2.1. 从生物学视角

•
挑战1：基因组复杂性：相对于原核生物，真菌拥有庞大而复杂的基因组，其特点是存在丰富的转座元件、结构变异和内含子。转座元件和结构变异有助于毒性、致病性和抗真菌耐药性等性状的适应性变异。真菌基因组还编码多种非编码RNA，其在应对环境胁迫的细胞反应中起关键作用。此外，水平基因转移是获得新基因或功能的独立机制，水平转移获得的富含内含子区域比缺乏内含子的区域表达水平更高，表明内含子可能影响水平转移基因的功能整合。
•
挑战2：静默次级代谢：许多次级代谢途径由生物合成基因簇编码，这些基因簇包含核心生物合成基因，在简单生长条件下可能保持沉默或低水平表达。此外，由于实验困难，对真菌次级代谢的研究仍不完整，这限制了对其他功能、相互作用和调控的理解。从实验角度来看，分析技术（如质谱）由于分辨率不足而在识别小代谢物方面受到限制。从数据角度来看，基因组学只能揭示基因表达和蛋白质合成的潜力，而量化实际基因和蛋白质表达的转录组学和蛋白质组学，常常受到可能影响数据可重复性的变异的影响。这些概念、技术和分析限制阻碍了在理解真菌基因组、蛋白质组和代谢组特征之间相互依赖关系方面的进展。
•
挑战3：变化环境下的表型变异：真菌可能根据其培养方法和环境条件表现出不同的表型特征。例如，由于真菌生物材料具有区域特异性性状并与不同表面相互作用，扩大其应用规模具有挑战性。因此，开发能够厘清真菌功能与非基因组特征之间关系的定量方法，对于推进生物技术应用和实现初步筛选以减少资源密集型实验的需求至关重要。

2.2. 从数据视角

•
挑战4：不准确的基因注释：重复区域增加了真菌生物学的遗传复杂性，这放大了基因组比对中的模糊性和错误，并阻碍了后续分析。在缺乏标准化参考基因组的情况下，非模式真菌中的基因组注释通常不准确。循环错误通过连续分析传播和累积，导致校正和解释的重大困难。此外，真菌分类单元间的高遗传多样性使比较分析复杂化，阻碍了真菌益生菌和粮食安全研究的进展。
•
挑战5：不兼容的数据存储库和覆盖不平衡：在数十年的真菌遗传研究中，越来越多的实验和测序数据存储在不同的存储库中，通常缺乏标准化格式或互操作性。这种数据碎片化使得整合不同的数据集具有挑战性。这些源自多个存储库的数据集包括基因组序列、转录组谱、蛋白质组数据和功能元数据。如果没有合适的方法来整合这些数据源，关键的挑战将持续存在，包括不一致的基因组注释、模糊的分类学分类以及跨平台的基因标识符不匹配。真菌多组学存储库中属的分布存在不一致，分类学和生态学覆盖常常由于局部和项目特定的测序计划而存在偏差。此外，对现有真菌基因组测序数据的比较表明，植物病原真菌的数据比例过高，而其他生态角色的代表性不足，无法研究新的应用。

3. 数据资源概览

3.1. 知识库

在应用数据科学推进真菌生物技术之前，调查基因组数据库并评估其完整性是必要的步骤。需要考虑的关键特征包括基因组序列、基因簇和多组学数据集的质量评估，以及生态性状的评估。真菌基因组可在各种数据库中获得。JGI基因组门户主要包含支架水平的基因组组装。其他数据库专门针对真菌基因组。尽管FungiDB仅包含303个真菌基因组，但它整合了多组学数据以支持初步注释。全面的基因簇、转录组、蛋白质组和代谢组数据收集对于多组学分析至关重要。基因簇数据库管理具有验证功能的基因集。RNA聚焦的数据库通过平台提供不同的表达数据。蛋白质数据通过存储库和数据库分布。真菌特异性数据库专门针对特定蛋白质。对于代谢物，专门的资源编目了真菌物种的代谢物。除了单个代谢物，以通路为中心的数据库通过将基因和代谢物与生物特性联系起来，支持基因组注释和功能解释。真菌的生态角色反映了它们的环境偏好和与其他生物的相互作用。包含此类生态数据的相关数据库包括编录宿主-真菌相互作用的PHI-base，以及对真菌物种生态角色进行分类的FungalTraits。大多数真菌数据库和存储库提供图形用户界面和应用程序编程接口，支持高效的数据访问和分析。

3.2. 实验数据

知识库为各种应用提供了精心策划的数据集，包括比较和预测。几个存储库包含用于推进流程开发和扩展应用的实验数据。例如，基因组存储库涉及NCBI基因组和DDBJ。NCBI基因组提供了58%的支架水平和9%的染色体水平基因组。它们托管来自许多生物的数据。同样，在NCBI GEO中，表达序列标签可在转录组数据库中获得。对于蛋白质组存储库，PRIDE托管基于质谱的蛋白质组数据集，GNPS适用于真菌领域的代谢组学研究。通过调查15个真菌公共数据资源，我们确定了每个多组学数据库中20个最丰富的属，通过热图和箱线图进行可视化。在基因组资源中，八个属在至少一个数据库中表现出>5%的代表性，表明它们适合构建泛基因组图和其他基于图的应用。在转录组资源中，只有曲霉属和酵母属贡献了>10%的RNA-seq数据集，提供了基因表达模式。在蛋白质组资源中，曲霉属、酵母属、镰刀菌属、青霉属和炭疽菌属占>2.5%，支持功能推断分析。代谢通路主要由经过充分研究的模式生物代表，可作为密切相关物种的参考。相互作用数据库在炭疽菌属中最高，其他属也贡献了大量的相互作用数据，为基于网络的分析提供了机会。总之，子囊菌门中常见代表的微真菌，如曲霉属、酵母属和镰刀菌属，显示出广泛的多组学覆盖。相比之下，青霉属和炭疽菌属等属在基因组数据库中的代表性相对不足，但在其他多组学和宿主-病原体相互作用数据库中表现出较高的比例。相反，假丝酵母属、隐球菌属、脉孢菌属、克鲁维酵母属和柄锈菌属在基因组数据中代表性较好，但通常缺乏转录组、蛋白质组和HPI数据，而这些数据是获得更深层次生物学洞察所必需的。

3.3. 真菌基因组数据库中的生态角色

我们使用物种名称和“FungalTraits”数据库，为来自NCBI、JGI、Ensembl和DDBJ的真菌基因组分配生态角色，以表征可用真菌基因组的功能组成。我们的分析表明，许多真菌物种共享生态角色，使下游基因组分析复杂化。最普遍的生态角色，按边际总数降序排列，是植物病原体、未定义的腐生菌、内生菌、动物病原体、木材腐生菌等。在考虑独家类别时，动物病原体的数量超过了内生菌，表明内生菌物种通常是多功能的。此外，前五个交互规模包括植物病原体和未定义的腐生菌，表明当前基因组存储库中存在研究偏见和不成比例的代表性。相反，有益的内生菌、动物病原体和外生菌根真菌在生物防治、植物生长促进和疾病研究中发挥作用，但代表性仍然不足，仅构成可用基因组数据的一小部分。

4. 理解基因组特征

在真菌中，由于固有的基因组复杂性和水平基因转移的普遍存在，准确确定基因组特征仍然具有挑战性。结构注释、机器学习预测和基于图的基因组分析等方法为提高基因组特征识别提供了有效策略。

4.1. 真菌基因组结构注释

当代真菌基因组注释技术采用整合流程，在预处理、基因组推断和结果评估阶段结合多种计算方法。以下部分回顾了五个代表性工具：MAKER、Funannotate、FunGAP、GenSAS和Companion。在这五个工具中，MAKER是用于真核生物基因组注释最广泛使用的流程。GenSAS和Companion设计用于真核生物基因组，而FunGAP和Funannotate等特定流程则专门用于注释真菌基因组。这五个工具有不同的输入要求和预处理步骤。例如，MAKER、FunGAP和GenSAS要求用户提供查询序列、参考基因组、RNA和蛋白质证据，而Funannotate使用预训练的基因模型来注释查询序列，Companion整合了来自FungiDB的多组学数据集。作为初始步骤，MAKER、GenSAS、Funannotate和FunGAP使用RepeatMasker来屏蔽重复区域，这可能会引入注释偏差并降低注释准确性。相比之下，Companion省略了屏蔽步骤，因为测试显示该步骤增加了计算成本而未在注释准确性方面带来显著改善。下一步涉及将查询与参考序列比对，Companion独特地使用ABACAS2来排序和定向查询组装。为了将查询基因组与转录本和蛋白质证据比对，MAKER、GenSAS、Funannotate和Companion使用Minimap2和BLAST进行转录本比对，使用DIAMOND进行蛋白质比对，而FunGAP不包含比对过程。这五个工具使用从参考、转录本和蛋白质证据导出的基因模型来训练从头预测模型。Companion额外整合了基于同源性的工具，以实现查询基因组和参考基因组之间的单核苷酸多态性水平重新校准，并使用ARAGORN进行启发式搜索，使用INFERNAL进行基于协方差模型的同源性搜索，以识别转移RNA和核糖体RNA，从而细化注释结果。这五个广泛使用的从头预测器采用广义隐马尔可夫模型框架，具有状态定义和特定方法的参数，用于结构注释。通过基因和蛋白质预测程序基准对五个预测器进行了性能评估。该研究分析了147个系统发育多样性的真核生物物种，包括来自UniProt的25个真菌代表。结果表明，AUGUSTUS在核苷酸和蛋白质水平上均实现了最高的准确性，尽管运行时间最长，而集成到Funannotate流程中的GlimmerHMM在预测真菌蛋白质编码基因方面优于其他工具。与预测方法相比，整合到五个流程中的参考序列在很大程度上决定了注释的广度。使用来自同一物种粗球孢子菌的基因组，对三个注释平台进行了基准测试。比较显示，即使AUGUSTUS是Funannotate工作流程的一部分，每个平台也识别了不同的基因集，这突显了需要从数据集到方法论全面评估注释平台，以确保准确可靠的基因预测。在推断基因组结构之后，这些流程通常生成多个基因模型，然后在质量评估指标的指导下将这些结果整合到一个注释集中。这些指标各不相同，例如，MAKER应用mRNA质量指数和注释编辑距离。AED是敏感性和特异性的平均值，反映了参考注释和预测注释在每个方向上的重叠比例。Funannotate使用BUSCO程序进行评估。BUSCO识别并编译一组保守的单拷贝直系同源基因，新的注释与其进行比较以评估其完整性和准确性。FunGAP假设表现出与已知基因更大序列相似性的基因模型更可能是编码区域。因此，结合了来自Pfam、BUSCO和BLAST的评估指标，分数越高反映注释越可靠。Funannotate和FunGAP将在每次运行时提供置信度分数。Companion使用GffCompare评估核苷酸和外显子准确性，这指的是两个注释结果之间重叠单位的比例。最终输出通常包括标准FASTA和GFF3格式的注释序列，以及基因模型和摘要报告。

4.2. 机器学习驱动的基因组预测进展

机器学习技术通过基因组特征提取、模型训练和计算验证，改善了基因预测。随机森林和深度学习方法已被应用于注释真菌基因组、分析基因相互作用和改进分类学分类。因此，随机森林分类器通过使用两种白色念珠菌单倍型，将三个先前未表征的基因与动粒功能、线粒体完整性和翻译过程联系起来。同样，随机森林模型分析了小麦壳针孢的19个染色体组装，表明其杀虫剂抗性主要由结构变异驱动，特别是靠近编码外源物质转运蛋白基因的重排。卷积神经网络是在宏基因组序列上训练的深度学习架构，用于分类学分类，其性能优于BLAST等传统方法。然而，不同模型在属水平上的不一致，例如假丝酵母属、酵母属和镰刀菌属，突显了需要手动重新分类和完善策划的数据库，以提高机器学习驱动的分类学分类器的准确性和可靠性。

4.3. 使用图深入探索结构变异

泛基因组图包含跨分类群的多基因组。整合基因组特征和图拓扑结构有助于探索遗传变异，并通过序列到图比对为基因组注释提供有效的参考框架。在泛基因组图中，节点可以表示不同水平的基因组序列片段，从基本水平的单元到基因或基因簇等功能元件。边可以在基本水平捕获序列邻接，并在功能水平反映基因同线性或共现。Minigraph-Cactus和PanGenome Graph Builder是用于构建泛基因组图的两种计算工具，分别采用基于参考和无参考的方法。MC首先从输入基因组组装建立变异图，然后依次将这些组装映射回现有的VG，以用变异特征丰富它。相比之下，PGGB使用WFMASH执行全基因组比对，然后基于这些比对构建VG。两种流程都将SV表示为超级气泡和缠结，可以使用vg snarls识别，随后使用vg deconstruct进行分析。因此，MC生成包括图形片段组装、变异调用格式和分层比对格式的结果。GFA文件可以使用gfatools进行分析，长读长序列可以使用GraphAligner直接比对到VG。PGGB通过额外的下游分析扩展其流程，包括汇总统计和可视化。从应用角度来看，通过两种计算工具构建的泛基因组图已被用于研究尖孢镰刀菌的致病性。尖孢镰刀菌泛基因组数据库是使用MC流程从35个基因组构建的，以番茄病原体Fol4287为参考。在没有参考的情况下，使用PGGB流程分析了73个尖孢镰刀菌基因组。基于图的方法将染色体序列划分为不同的群落，揭示了辅助染色体水平转移的证据，并为群体水平的进化动态提供了见解。使用精确率-召回率指标、图拓扑结构和比对质量评估了泛基因组构建工具。F₁分数显示，MC在结构变异检测方面优于PGGB，而PGGB在图紧凑性方面略好。MC和PGGB都显著优于Minigraph，后者显示出较低比例的被包含组装和较高的序列和基因缺失频率。此外，从基本水平变异转向基因水平，泛基因组图将功能基因编码为节点，丰富了捕获的生物学信息。Pangene等通用工具整合蛋白质序列以识别基因方向和拷贝数变异。专门的微生物流程，如Panaroo和ggCaller，是基于图的，旨在减轻注释错误。Panaroo整合基因组注释工具进行基因组发现，而ggCaller直接在群体范围的de Bruijn图上运行。两种流程都利用基因邻接图来折叠冗余簇，提供基因组多样性的功能概述。基因水平泛基因组流程的基准测试研究采用定性基准和统计指标。在细菌基因组上比较基于图和非图的流程时，ggCaller表现出更高的预测COG，同时保持比非图流程更低的假阳性/假阴性。当比较ggCaller与Prokka和Panaroo时，观察到类似的趋势，表明使用de Bruijn图进行初始基因发现比依赖独立的基因组注释产生更高的准确性。真菌泛基因组需要一个可比较的框架来解决其基因组更大的结构复杂性。例如，烟曲霉泛基因组可作为验证基因变异和多样性的稳健经验基准。

4.4. 泛基因组图的优势、局限性和机遇

泛基因组图是一个物种或一组相似生物体集体基因组的基于图的表示，它们能够跨不同分类群进行全基因组分析，通过捕获复杂的基因组结构和进化关系来推进比较基因组学。与传统的以基因组为中心的框架不同，后者常常对缺乏参考基因组中明确直系同源物的不同或非模式生物产生不准确的注释，基于图的方法将多个基因组整合到一个统一的结构中，以提高注释一致性。通过全基因组比对构建的这些无参考泛基因组图揭示了跨分类群的基因组变异，并帮助克服了单一参考方法的局限性。与传统的线性参考方法相比，泛基因组图仍然计算密集。PGGB和Cactus等工具比参考锚定方法Minigraph需要更多的CPU时间和内存。此外，基准测试研究表明，ggCaller需要Prokka与Panaroo运行时间和峰值内存的10倍；然而，当样本量增加时，运行时间可能变得相当。图索引在图构建过程中特别耗费资源，索引策略的进步对于提高泛基因组图分析的可扩展性

热点排行