过度依赖完整性(Completeness)指标使超保守元件(UCE)数据集暴露于非随机缺失数据的风险

《Systematic Entomology》:Over-reliance on Completeness exposes ultraconserved elements datasets to non-randomly distributed missing data

【字体: 时间:2026年02月19日 来源:Systematic Entomology 4.9

编辑推荐:

  这篇综述通过分析九个节肢动物UCE数据集,揭示仅依赖完整性(Completeness)指标(即每个基因位点的分类单元采样比例)会严重低估非随机缺失数据(MD)的实际量,并无法阻止其引入的偏差。文章指出,完整性指标忽略序列截短或间隙中的缺失数据,导致“完整”矩阵中仍存在大量集中于某些终端的缺失数据,进而影响分支长度估计和节点支持度等关键系统发育参数。作者提出六条实用建议,呼吁研究者结合更全面的数据质量评估方法,以提升系统发育基因组学研究的可靠性。

  
引言:UCE技术与完整性(Completeness)指标的普及与潜在陷阱
随着高通量测序与靶向富集技术的发展,超保守元件(UCE)已成为非模式生物系统发育研究的重要工具。UCE探针能够从博物馆标本等老旧样本中获取数据,但样本质量异质性可能导致序列恢复不完整,引入缺失数据(MD)。在数据处理流程(如PHYLUCE)中,完整性(Completeness)指标被广泛用于过滤基因位点——该指标计算每个UCE位点被采样的分类单元(OTU)比例,仅保留达到用户设定阈值(如50%、75%、100%)的位点。然而,完整性指标仅关注“是否有数据”,而忽略序列中的实际缺失量(例如截短或含间隙的序列),因此可能高估数据矩阵的完整性。许多研究误将“100%完整”等同于“无缺失数据”,但即使每个位点都有部分数据,终端仍可能包含大量缺失核苷酸。这种对完整性指标的过度依赖,可能掩盖非随机缺失数据的分布,进而影响系统发育推断的准确性。
材料与方法:数据集与缺失数据度量指标
研究收集了九项已发表的节肢动物UCE数据集,涵盖双翅目、膜翅目、蜘蛛等多个类群。这些数据集均基于PHYLUCE流程处理,并使用了不同完整性阈值(10%–95%)。为全面评估缺失数据,研究采用TNT脚本GeneOccupancy.run计算了三类指标:(1)终端总缺失数据比例:即每个终端在整个矩阵中的缺失条目百分比;(2)终端每位点平均缺失数据:反映单个终端在各基因位点中缺失数据的平均水平;(3)位点每终端平均缺失数据:反映单个基因位点在所有终端中缺失数据的平均水平。所有计算中,缺口(“-”)、问号(“?”)和模糊碱基(如“N”)均计为缺失数据。分析使用R语言进行可视化与统计检验。
结果:完整性指标与缺失数据的真实关系
分析显示,完整性阈值与终端总缺失数据比例呈负相关,即提高完整性值可降低平均缺失数据量。然而,即使在高完整性阈值下,所有数据集中仍存在终端缺失数据比例超过75%的情况,部分终端甚至缺失90%以上数据。这表明完整性指标虽能排除完全无数据的位点,但无法阻止含有大量缺失数据的终端进入最终矩阵。
进一步观察终端每位点平均缺失数据与位点每终端平均缺失数据的分布发现,缺失数据在终端和位点间均呈非随机聚集。某些终端在多数位点中缺失数据比例较高,可能与样本DNA降解或测序质量有关;同样,某些位点在多数终端中缺失严重,可能因序列捕获效率低或比对困难所致。值得注意的是,对于部分数据集(如Santos & Brady, 2024; Galleti-Lima et al., 2023),完整性阈值仅在极高值(如95%–100%)时才对排除高缺失位点有效,凸显了完整性指标在衡量实际数据质量上的局限性。
缺失数据对系统发育参数的影响
为评估缺失数据的生物学影响,研究检验了分支长度、节点支持度与缺失数据比例的关系。在八个可获取分支长度的数据集中,五个显示出终端缺失数据比例与分支长度呈显著正相关。即缺失数据越多的终端,其分支长度往往越长。例如,在Santos & Brady (2024)的Cryptini蜂类数据中,缺失数据超过95%的物种Tanepomidos assamensisDagathia philippina拥有整个内群中最长的分支。这提示缺失数据可能人为拉长分支,误导进化速率或分歧时间的解读。
节点支持度方面,缺失数据高的终端也倾向于关联支持度较低的节点。在多个数据集中,缺失数据超过60%–85%的终端所在的节点,其Bootstrap值普遍偏低。虽然系统发育基因组数据集因数据量巨大可能整体支持度偏高,但缺失数据的非随机分布仍可能削弱局部节点的稳健性。
讨论:完整性指标的误导性与案例剖析
研究表明,完整性指标不能充分反映缺失数据的实际量与分布,且其使用可能使研究者忽视数据质量问题。以Liu et al. (2024)对半翅目Sternorrhyncha的研究为例,其50%完整性矩阵包含缺失数据超过90%的终端,且仅含少数位点。作者基于此数据集得出“最大似然法与贝叶斯推断结果一致,而最大简约法‘失败’”的结论。但重新使用隐含加权(implied weighting)的简约法分析同一数据,却得到了与作者“偏好”拓扑一致的结果。这表明,在缺失数据严重的数据集中,不同方法的表现差异可能源于数据缺陷而非方法优劣,简单断言某方法“失败”容易产生误导。
建议与未来方向
基于研究发现,文章提出六条建议以提升UCE数据质量评估:(1)评估使用完整性指标的必要性,对于缺失数据随机分布的数据集,或可放宽过滤;(2)结合多种指标评估数据质量,如使用GeneOccupancy.run、genesortR.R等工具可视化基因与分类单元占用率;(3)使用稳健的支持度测量方法(如调整重抽样删除概率)并识别潜在野生分类单元;(4)进行敏感性分析,包括基因与分类单元子抽样、长枝提取等;(5)尝试不同推断方法(如连贯法与溯祖法),比较其对缺失数据的稳健性;(6)探究拓扑中长枝的成因,区分源于缺失数据、DNA降解还是污染,并利用如Spruceup等工具过滤异常位点。
未来研究可进一步探讨缺失数据在连贯法与基因树-物种树溯祖法(如ASTRAL)中的差异影响。连贯法可能因聚合大量位点而缓冲缺失数据的效应,而溯祖法依赖单个基因树,在缺失数据高时基因树估计误差可能被放大。通过控制基因与分类单元占用率进行系统性比较,将有助于理解缺失数据在不同分析框架下的具体影响。
结论
本研究通过实证分析揭示,完整性指标虽与缺失数据量负相关,但无法有效排除非随机分布的缺失数据,且可能使研究者误判数据质量。缺失数据的聚集会导致分支长度估计偏长、节点支持度降低,进而影响系统发育推断的可靠性。研究者应避免过度依赖单一指标,转而采用多维度评估与敏感性分析,以确保系统发育基因组学结论的稳健性与可重复性。
(注:以上内容严格基于文档原文缩编,未添加外部信息,专业术语与符号均按原文格式保留。)
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号