系统发育树对于解决大多数进化问题至关重要,系统发育方法的发展正逐渐建立在坚实的统计基础上(Felsenstein, 2004; Yang, 2014)。在这一框架中,一个核心挑战是量化多序列比对(MSA)中的系统发育信息内容——即其以统计置信度解析进化参数(如树拓扑结构或分支长度)的能力。继Felsenstein(Felsenstein, 1981)的基础工作之后,系统发育推断主要依赖于最大似然框架,其中信息通常以费希尔信息(Fisher information)的形式来概念化(Edwards, 1972)。这一视角推动了从模型选择(Felsenstein, 1988; Goldman, 1993)到使用似然比和拓扑比较测试进行假设检验(Kishino and Hasegawa, 1989; Shimoidara, 2002)等一系列发展。
然而,尽管取得了这些进展,在大规模系统基因组研究中,一个常见的实际挑战是识别哪些MSA位点或哪些基因位点对系统发育解析有显著贡献。这个问题与传统的模型选择有本质不同,后者通常是在单个完整比对的基础上评估模型拟合度(Goldman, 1993)。为了解决位点选择问题,人们提出了多种方法。例如,有人提出了一种测量基因位点系统发育信息量的方法,以评估MSA在多个进化时间尺度上解析树分支的能力(Townsend, 2007)。最近,还有方法通过比较基因或位点的对数似然值来评估某个基因位点在两种不同拓扑结构下的拟合优度,这些比较通常基于预先指定的树拓扑结构(Shen et al., 2017; Walker et al., 2018)。这些方法需要预先定义竞争性的拓扑结构,因此不能作为通用工具来量化基因位点或比对位点的固有系统发育信息。很少有方法能够在不依赖有限预定义拓扑结构或假设的情况下提供客观的度量标准(Criscuolo and Gribaldo, 2010; Dress et al., 2008)。
最近,Haag等人(Haag et al., 2022)训练了一个与拓扑结构无关的机器学习模型,该模型能够根据完整的MSA评估构建最大似然树拓扑的难度。然而,在位点层面,对单个位点系统发育信息内容的评估往往依赖于需要更严格统计检验的假设。因此,对于依赖位点级指标的方法(如包含插入/缺失的位点的系统发育信息度量或比对位点的熵)的性能进行明确评估是复杂的。这些指标通常用于系统基因组学流程中过滤比对数据,以通过识别对齐不良或信息量较低的区域来加快计算速度(Steenwyk et al., 2020; Talavera and Castresana, 2007)。
为了解决这一限制,我们采用了Lasso(最小绝对值收缩和选择算子)回归(Tibshirani, 1996)来进行位点级的系统发育信息评估。稀疏学习方法通过对回归系数进行惩罚来促进稀疏性,从而选择出一组最小的预测因子来解释因变量的变化(Hastie et al., 2016)。Lasso最近已被用于解决系统发育学中的多个问题(Ecker et al., 2022; Kumar and Sharma, 2021; Sharma and Kumar, 2024),其模型通常比参数丰富的深度学习模型更具可解释性。特别是Ecker等人(Ecker et al., 2022)使用Lasso通过近似比对位点集来加速基于似然的启发式树搜索。他们的主要目标是在保持竞争性拓扑结构排序的同时降低计算成本。
在这里,我们采用这一策略来解决系统发育学中的一个持久且概念上独特的问题:在不预先指定树拓扑结构的情况下识别和量化位点的系统发育信息量。我们认为,能够解释不同树之间似然变化的比对位点提供了系统发育有效比对长度的度量标准。这种方法为系统发育学中的多种实际应用提供了参考标准,从大规模系统基因组数据集中的标记选择到比对修剪标准的探讨。最后,我们展示了在分析的数据集中,基于Lasso的位点分类可以通过易于计算的位点熵来近似实现。