通过稀疏学习高效识别具有系统发育信息价值的比对位点

《Molecular Phylogenetics and Evolution》:Efficient identification of phylogenetically informative alignment sites via sparse learning

【字体: 时间:2026年02月23日 来源:Molecular Phylogenetics and Evolution 3.6

编辑推荐:

  Lasso回归方法用于无需预设树状拓扑结构的进化信息位点筛选,通过稀疏学习确定最小关键位点集,在模拟和真实数据中验证其有效性与熵近似方法的快速性。

  
卡洛斯·G·施拉戈(Carlos G. Schrago)
巴西里约热内卢联邦大学遗传学系

摘要

在多序列比对中识别具有系统发育信息价值的位点对于构建准确的系统发育树和高效处理系统基因组数据至关重要。现有的测量系统发育信息的方法通常依赖于预定义的拓扑结构或启发式标准,这限制了它们的通用性和可解释性。在这里,我们采用了一种与拓扑结构无关的框架,通过Lasso(最小绝对值收缩和选择算子)回归来量化每个位点的系统发育信息。通过将位点的对数似然值作为预测因子,模型能够处理大量随机拓扑结构下的树状结构,从而识别出对系统发育信号有显著贡献的最小位点子集。我们使用模拟数据和真实的哺乳动物数据集验证了该方法,结果表明Lasso选出的位点所构建的拓扑结构与基于完整比对得到的拓扑结构几乎相同。为了提高计算效率,我们发现基于熵的简单代理方法能够高保真地近似Lasso的结果,从而实现快速的位点级评估。我们对系统发育信息位点的定义提供了一个客观的度量标准,可用于系统发育学中的实际问题。这些发现表明,稀疏学习是一种原理明确、可扩展且实用的方法,可用于评估和优化系统发育数据。

引言

系统发育树对于解决大多数进化问题至关重要,系统发育方法的发展正逐渐建立在坚实的统计基础上(Felsenstein, 2004; Yang, 2014)。在这一框架中,一个核心挑战是量化多序列比对(MSA)中的系统发育信息内容——即其以统计置信度解析进化参数(如树拓扑结构或分支长度)的能力。继Felsenstein(Felsenstein, 1981)的基础工作之后,系统发育推断主要依赖于最大似然框架,其中信息通常以费希尔信息(Fisher information)的形式来概念化(Edwards, 1972)。这一视角推动了从模型选择(Felsenstein, 1988; Goldman, 1993)到使用似然比和拓扑比较测试进行假设检验(Kishino and Hasegawa, 1989; Shimoidara, 2002)等一系列发展。
然而,尽管取得了这些进展,在大规模系统基因组研究中,一个常见的实际挑战是识别哪些MSA位点或哪些基因位点对系统发育解析有显著贡献。这个问题与传统的模型选择有本质不同,后者通常是在单个完整比对的基础上评估模型拟合度(Goldman, 1993)。为了解决位点选择问题,人们提出了多种方法。例如,有人提出了一种测量基因位点系统发育信息量的方法,以评估MSA在多个进化时间尺度上解析树分支的能力(Townsend, 2007)。最近,还有方法通过比较基因或位点的对数似然值来评估某个基因位点在两种不同拓扑结构下的拟合优度,这些比较通常基于预先指定的树拓扑结构(Shen et al., 2017; Walker et al., 2018)。这些方法需要预先定义竞争性的拓扑结构,因此不能作为通用工具来量化基因位点或比对位点的固有系统发育信息。很少有方法能够在不依赖有限预定义拓扑结构或假设的情况下提供客观的度量标准(Criscuolo and Gribaldo, 2010; Dress et al., 2008)。
最近,Haag等人(Haag et al., 2022)训练了一个与拓扑结构无关的机器学习模型,该模型能够根据完整的MSA评估构建最大似然树拓扑的难度。然而,在位点层面,对单个位点系统发育信息内容的评估往往依赖于需要更严格统计检验的假设。因此,对于依赖位点级指标的方法(如包含插入/缺失的位点的系统发育信息度量或比对位点的熵)的性能进行明确评估是复杂的。这些指标通常用于系统基因组学流程中过滤比对数据,以通过识别对齐不良或信息量较低的区域来加快计算速度(Steenwyk et al., 2020; Talavera and Castresana, 2007)。
为了解决这一限制,我们采用了Lasso(最小绝对值收缩和选择算子)回归(Tibshirani, 1996)来进行位点级的系统发育信息评估。稀疏学习方法通过对回归系数进行惩罚来促进稀疏性,从而选择出一组最小的预测因子来解释因变量的变化(Hastie et al., 2016)。Lasso最近已被用于解决系统发育学中的多个问题(Ecker et al., 2022; Kumar and Sharma, 2021; Sharma and Kumar, 2024),其模型通常比参数丰富的深度学习模型更具可解释性。特别是Ecker等人(Ecker et al., 2022)使用Lasso通过近似比对位点集来加速基于似然的启发式树搜索。他们的主要目标是在保持竞争性拓扑结构排序的同时降低计算成本。
在这里,我们采用这一策略来解决系统发育学中的一个持久且概念上独特的问题:在不预先指定树拓扑结构的情况下识别和量化位点的系统发育信息量。我们认为,能够解释不同树之间似然变化的比对位点提供了系统发育有效比对长度的度量标准。这种方法为系统发育学中的多种实际应用提供了参考标准,从大规模系统基因组数据集中的标记选择到比对修剪标准的探讨。最后,我们展示了在分析的数据集中,基于Lasso的位点分类可以通过易于计算的位点熵来近似实现。

材料与方法

我们的主要目标是将Lasso回归作为一种概念上与拓扑结构无关的方法论框架,用于量化位点的系统发育信息。我们证明了这一框架作为实证基准,可用于评估系统发育学中的现有方法论问题,如标记选择(系统基因组学子采样)、比对过滤方法的分析以及包含插入/缺失的位点的系统发育内容。

结果

在模拟数据集中,Lasso分类为具有信息量的位点的平均比例为20个分类单元的数据集为15.1%(95%分位数:6.4%–29.2%),100个分类单元的数据集为24.6%(9.4%–39.8%),表明分类单元数量的增加提高了信息量位点的频率。在真实数据集中,信息量位点的平均比例为22.5%(9.4%–41.0%)。在所有数据集中,信息量位点的数量与总比对长度呈正相关。

讨论

在这项研究中,我们引入了一个使用Lasso回归器的稀疏学习框架来评估单个比对位点的系统发育信息内容。我们的方法明确识别了对解析树拓扑结构贡献最大的位点子集。尽管经过过滤后只保留了Lasso选出的位点,但这些比对的系统发育解析能力仍接近于整个序列。我们的模拟还表明,树

CRediT作者贡献声明

卡洛斯·G·施拉戈(Carlos G. Schrago):撰写——审稿与编辑、撰写——初稿、软件开发、资源管理、项目协调、方法论设计、研究实施、资金获取、数据分析、数据管理、概念构建。

利益冲突声明

作者声明他们没有已知的财务利益冲突或个人关系可能会影响本文所报告的工作。

致谢

CGS得到了巴西国家科学技术发展委员会(Conselho Nacional de Desenvolvimento Científico e Tecnológico, CNPq)的资助,资助项目编号分别为309165/2019-9、409963/2023-2和302910/2025-5。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号