串联、冲突与复杂性:谱系异质性在核苷酸模型选择中模拟了替代异质性的作用

《Journal of Molecular Evolution》:Concatenation, Conflict, and Complexity: Genealogical Heterogeneity Mimics Substitutional Heterogeneity for Nucleotide Model Selection

【字体: 时间:2026年05月10日 来源:Journal of Molecular Evolution 1.8

编辑推荐:

  摘要:系统发育冲突——特别是由不完整谱系排序(ILS)引起的隐含基因树不一致性——在多基因位点和系统基因组数据集中普遍存在,但其对核苷酸替换模型选择的影响仍知之甚少。现代分子研究越来越多地收集并连接了来自基因组遥远且通常特征不明显的区域的大量独立基因位点,这在组合分析时可能会导致

  摘要:系统发育冲突——特别是由不完整谱系排序(ILS)引起的隐含基因树不一致性——在多基因位点和系统基因组数据集中普遍存在,但其对核苷酸替换模型选择的影响仍知之甚少。现代分子研究越来越多地收集并连接了来自基因组遥远且通常特征不明显的区域的大量独立基因位点,这在组合分析时可能会导致显著的异质性。在这里,我们探讨了即使序列在简单的替换过程下进化,基因组内部的谱系冲突是否会影响标准模型选择程序,从而偏好参数丰富的替换模型。通过一系列计算机模拟案例研究,我们在最简单的速率均匀Jukes-Cantor(JC69)模型下模拟了序列进化,并生成了由多个基因位点组成的拼接对齐序列,每个基因位点都在多物种共祖模型的基础上独立进化。通过操纵预期会增强ILS和基因树异质性的条件,并在保持总对齐长度不变的情况下逐渐增加隐含谱系的数量,来增加冲突。尽管所有数据都是在JC69模型下生成的,但模型选择仍经常偏好更复杂的模型,其敏感性取决于分类群的数量、预期的冲突程度以及所应用的具体选择标准。一个主要模式是频繁包含位点间速率变异参数(+G4和/或+I),在极端冲突情况下,模型选择越来越倾向于选择更丰富的替换模型(例如SYM、GTR)。总体而言,我们的结果表明,在高冲突下,隐含冲突可以表现为替换和速率的异质性,驱动选择程序通过在拼接分析中添加额外的参数来 compensate。总体而言,我们的研究有助于更好地理解和认识多基因位点系统学时代分子进化建模的挑战。

引言:在现代进化研究中,很少有话题像系统发育冲突那样引起如此多的关注。多项研究记录、测试、改进并讨论了在各种情境、应用、数据类型和科学问题中冲突的原因和后果,涵盖了广泛的分类群(Smith等人2020;Morales-Briones等人2021;Parins-Fukuchi等人2021;Hughes等人2023;Myers等人2024;Joyce等人2025)。这些工作共同表明,系统发育冲突是真实存在的,并且在分子和形态数据中普遍存在(Philippe等人2011;Smith等人2015;Keating等人2023),如果忽视它可能会产生毁灭性的影响(Zhang等人2015;Parins-Fukuchi等人2021)。虽然许多研究已经考察了未缓解的冲突对拓扑结构和分支长度估计的影响(例如Wen和Nakhleh 2018;Blair和Ané 2020;Zhao等人2022),但进化分析的其他方面也可能受到影响,如物种界定(Yang和Rannala 2010;Noguerales等人2018;Chan等人2023)、选择分析(Venkat等人2018)、性状共同进化测试(Cope等人2020;Parins-Fukuchi等人2021)以及分化时间估计(Carruthers等人2022;H?hna等人2025)。因此,人们普遍认为系统发育冲突严重妨碍了我们对分子生物学和进化的理解(Jeffroy等人2006;Steenwyk等人2023;Adams等人2025)。系统发育树之间的不一致性可以以多种方式表现出来,并源于生物学和方法学因素(Dávalos等人2012;Smith等人2020, 2025)。冲突通常自然发生在物种形成和多样化过程中,包括不完整谱系排序(ILS)、水平基因转移、自然选择、杂交、渐渗和重组(Adams等人2018;Hibbins和Hahn 2022;Sanderson等人2023;Zhang等人2024a;Shi和He 2025)。ILS可以说是被广泛记录的最受研究的冲突来源(Tan等人2023;Xie等人2024;Zhang等人2024b, 2025)。ILS经常发生在快速物种形成事件中,新谱系在短时间内从祖先那里分化出来,从而使祖先的多态性在后代谱系分化后仍然存在(Maddison和Knowles 2006;Avise和Robinson 2008)。基因树不一致性可以产生一种称为半同源性的现象(Avise和Robinson 2008),这可能会对进化推断造成困扰(Copetti等人2017;Yan等人2022;Greenwood等人2025)。最近的研究表明,忽略半同源性会制造出同源性的假象,导致在分析包含不一致树的基因位点时产生多重替换的误导性证据(Robinson和Ropiquet 2011;Chira和Thomas 2016;Wu等人2018;Azevedo等人2022)。半同源性可以在分子数据中产生速率和替换模式的虚假异质性信号(Hahn和Nakhleh 2016;Mendes和Hahn 2016;Guerrero和Hahn 2018)。从方法论的角度来看,系统发育数据集的类型以及用于创建和分析它们的方法也可能导致冲突(Nater等人2015;Reddy等人2017;Simmons等人2022;Steenwyk等人2023)。多物种共祖(MSC)模型通过将谱系分布建模为物种树的函数来对抗ILS的负面影响(Liu和Pearl 2007;Degnan和Rosenberg 2009;Heled和Drummond 2010)。MSC已被广泛采用为进化研究的框架,从群体遗传学的角度观察物种树,同时考虑了最终影响基因组内谱系变异的过程(Maddison 1997;Flouri等人2018;Liu等人2019;Jiao等人2021;Kornai等人2024)。基于MSC的框架已被证明是物种树重建、多样化分析、性状建模以及多基因位点系统学许多其他维度的稳健基础(Rannala和Yang 2003;Zhong等人2013;Edwards等人2016;Yan等人2023)。

核苷酸替换概率模型的选择通常被认为是进行准确系统发育推断的第一步(Posada和Crandall 2001;Hoff等人2016),尽管最近也有不同的观点(Abadi等人2019;Tao等人2020;Fabreti和H?hna 2023)。流行的核苷酸替换模型从简单的Jukes-Cantor(JC69)模型(Jukes和Cantor 1969)到更复杂的通用时间可逆(GTR)模型(Tavaré 1986)不等,还包括许多复杂程度的模型(Posada和Buckley 2004;Yang 2014;Arenas 2015)。这些模型在参数数量和考虑的替换模式及过程类型上有所不同,包括相对转换/颠换率、平衡碱基频率,以及是否包含位点间的速率变异(Yang 1994;Sullivan和Swofford 2001;Arenas 2015)。给定特定的对齐序列,选择模型的过程通常涉及比较候选模型的相对拟合度和复杂性,以确定最有效地描述影响序列进化过程的“最佳”模型(Posada和Buckley 2004)。过于复杂的模型包含太多不必要的参数,而过于简单的模型则无法捕捉进化的实际特征;这两种情况都可能带来问题(Sullivan和Swofford 2001)。因此,模型选择旨在平衡拟合度和复杂性。在实际操作中,通常使用信息标准技术,包括赤池信息量准则(AIC)(Akaike 1974)、校正后的赤池信息量准则(AICc)(Hurvich和Tsai 1989)和贝叶斯信息量准则(BIC)(Schwarz 1978)。先前的研究表明系统发育冲突可能对进化模型选择有潜在风险(Kubatko和Degnan 2007;Mendes和Hahn 2016;Springer和Gatesy 2016)。核苷酸替换模型是研究分子进化和系统发育关系的事实标准,因为它们提供了在给定树拓扑、分支长度和进化参数的情况下观察核苷酸位点模式的似然函数(Yang 2014)。因此,模型选择程序会影响树拓扑和其他系统发育组分的估计(Sullivan和Swofford 2001;Hoff等人2016)、分支长度(Buckley 2002)以及其他参数(Lemmon和Moriarty 2004)。重要的是,传统的模型选择方法通常假设对齐序列中的所有位点都根据规范的系统发育似然函数属于同一棵树。然而,当外显子、内含子或其他基因位点被连接并作为一个组合对齐序列一起分析时,这一关键假设很少成立(Yang 1996;Gadagkar等人2005)。在这里,我们提出问题:拼接对齐序列中的隐含基因树冲突是否会影响核苷酸替换模型选择程序?我们进行了一系列模拟实验,逐步增加冲突程度,以在一系列实验和进化条件下回答这个问题。鉴于先前的研究发现冲突会夸大替换率和模式的估计(Mendes和Hahn 2016;Springer和Gatesy 2016;Guerrero和Hahn 2018),我们假设基因组内的冲突可能导致模型选择偏好由简单过程生成的序列数据的过于复杂模型。也就是说,我们的具体假设是高水平的冲突会影响模型选择程序,从而偏好参数丰富的模型。为了验证这一假设,我们根据最简单的速率均匀JC69模型模拟了由多个基因位点组成的拼接对齐序列的进化,每个基因位点都有自己的相关基因树。在保持总对齐长度不变的情况下,我们改变了对齐序列内的冲突和不一致性程度,并使用三种流行的信息标准进行了模型选择:BIC、AIC和AICc。我们的目标不一定是确定这些方法是否“失败”,而是更深入地了解它们在应用到具有隐含谱系异质性的拼接对齐序列时“如何表现和适应”。在这种情况下,选择额外的参数(例如+G4或+I)应该放在具体背景下理解:这些参数表明模型可能只是对位点间的谱系和分支长度变化进行了现象学上的拟合,而不是指示共享谱系上的真实位点间速率变异(见讨论部分)。虽然我们的研究并不全面,但它旨在为在连接不同的多基因位点数据集时可能遇到的隐含冲突条件下的模型选择提供新的视角。我们使用了多物种聚合(MSC)方法作为生成冲突的框架,我们的模拟条件旨在模仿实证研究中的常见做法,即研究人员经常将具有不同遗传历史的位点连接起来(Warnow 2015;Edwards等人2016),例如将基因、外显子、内含子或其他位点合并成一个整体对齐序列(图1)。图1中的替代文本可能是使用AI生成的。全尺寸图像示意图展示了具有不同物种形成率的模拟条件下的实验设计(左侧),以及不同物种数量的模拟物种树(中间)和基因树(右侧)。我们的整体模拟协议与类似的研究(Fabreti和H?hna 2023;Adams等人2025)相类似,包括以下步骤:(1)根据出生-死亡多样化过程模拟一个物种树,物种形成率为λ,死亡率为μ=λ/2(Yule 1925);(2)基于第一步得到的物种树,使用MSC模型模拟一组G个基因树;(3)对于每个G个基因树,根据JC69模型模拟长度为L的对齐序列;(4)将这些G个单独的对齐序列合并成一个总长度为L×G的连续对齐序列;(5)通过比较属于七个模型家族的28个典型替换模型的拟合度来进行核苷酸模型选择(表1)。由于我们在第二步中使用了MSC方法,因此我们的研究重点关注了由不相容性(ILS)驱动的冲突;其他冲突源(例如,渐渗、重组)以及基因树估计误差本身也可能产生不同的模式(见讨论部分)。表1列出了属于七个模型家族的28个核苷酸替换模型及其相应的自由度(df)和描述。在全面的模拟过程中,我们根据隐藏的基因树数量、物种数量以及预期的内部分支长度变化了物种数量和对齐序列内的冲突量。具体来说,我们评估了三种不同的树大小,代表物种数量n∈{10, 100, 1000}。此外,我们使用上述第一步中描述的出生-死亡模型,通过七种不同的物种形成率λ∈{10^-4, 10^-3, 10^-2, 10^-1, 10^0, 10^1, 10^2}变化了预期的ILS量。物种形成率λ与物种形成事件之间的预期分化时间成反比(Yule 1925;Stadler等人2016),因此决定了预测的基因树冲突量。较低的λ意味着较长的内部分支和较低的冲突(较少的ILS),而较高的λ则由于内部分支较短而产生了更多的冲突和ILS机会(Rivas-González等人2023)(也见图1)。物种树是使用TreeSim版本2.4中提供的sim.bd.taxa.age函数模拟的,总根年龄为十个聚合时间单位。对于每个模拟的物种树,使用Phybase版本1.4中的sim.coal.phylo函数和两个聚同类群的规模,根据MSC模型生成了一组G个基因树(Liu和Yu 2010)。为了首先为我们的模拟条件提供背景,我们计算了每个模拟的基因树与其对应物种树之间的Robinson-Foulds距离(Robinson和Foulds 1981),以及系统发生信息位点的比例,以可视化我们模拟中的进化变异冲突,表明了中等到高度冲突的情景(图S1和S2)。对于给定的模拟设置组合,使用Seq-Gen程序(Rambaut和Grassly 1997)为每个G个基因树生成序列对齐序列,根据标准的速率均匀JC69模型,并应用了分子钟和每个位点的群体缩放突变率θ=4Neμ=0.01。通过增加基因树的数量G和每个基因树上模拟的每个位点对齐长度L(以碱基对为单位),同时保持总对齐长度为10kb,我们改变了连续对齐序列内的冲突量。具体来说,我们使用了四种不同的对齐序列内的系统发生冲突情景:(1)来自所有位点共享的单个共享基因树的10kb对齐序列(“无冲突”);(2)连接了G=10个基因树、每个基因树长度为L=1000 bp的10kb对齐序列(“低冲突”);(3)连接了G=100个基因树、每个基因树长度为L=100 bp的10kb对齐序列(“中等冲突”);(4)连接了G=1000个基因树、每个基因树长度为L=10 bp的10kb对齐序列(“高冲突”)(图1)。通过将所有模拟标准化为10kb对齐序列,我们提供了一个使用相同总输入数据的模型选择程序,同时确保我们的分析能够处理大量的模拟重复。对于每一组模拟条件,我们生成了100个重复样本,并使用IQ-TREE2中的ModelFinder选项(Kalyaanamoorthy等人2017;Minh等人2020)对每个重复样本进行了模型选择。对于每个模拟重复样本,我们评估了JC69模型是否被正确选择,或者相反,模型选择是否倾向于选择具有额外参数的更复杂模型。例如,当选择K2P模型(Kimura 1980)或GTR模型(Tavaré 1986)时,可以发现偏向于过于复杂模型的证据,因为所有对齐序列都是在JC69模型下生成的。如果选择了JC69+G4(JC69加上伽马分布的速率)模型,也可以识别出模型选择效应的证据,因为推断出了一个额外的参数(+G4),但在真实的生成过程中并未使用该参数(尽管请参见关于这种解释的讨论部分)。我们考虑了来自七个模型家族的28个可能模型,这些模型在流行的程序中经常被使用,如MrBayes(Huelsenbeck和Ronquist 2001;Ronquist等人2012)、RAxML(Stamatakis 2014)和IQ-TREE(Minh等人2020)。这七个模型家族包括JC69(Jukes和Cantor 1969)、F81(Felsenstein 1981)、K2P(Kimura 1980)、HKY(Felsenstein 1981;Hasegawa等人1985)、TIM(Tamura和Nei 1993)、SYM(Zharkikh 1994)和GTR(Tavaré 1986),同时还考虑了不变位点的比例(“I”选项)、具有伽马模型的位点间变异(“G”选项)以及不变位点和位点间变异的组合(“I+G”选项)(表1)。ModelFinder比较候选的核苷酸替换模型,并使用最广泛使用的信息论标准来确定最佳拟合模型。我们使用AIC评估了模型拟合度,AIC倾向于选择在拟合优度和参数数量之间取得平衡的模型(Akaike 1974);AICc(Hurvich和Tsai 1989)增加了对有限样本大小的校正;BIC对模型复杂性和小样本大小施加了更严厉的惩罚(Schwarz 1978)。我们通过计算每组模拟条件下选定模型及其相关自由度的频率来总结了这些模型选择标准的结果。隐藏的遗传冲突可以在不同程度上影响连接对齐序列的模型选择过程(图2、3、4;S3-S6)。尽管所有序列数据都是根据简单的JC69模型演化的,但根据条件,选择过程有时会倾向于选择过于复杂的替换模型。在我们的模拟中,隐藏冲突的影响明显地随着物种数量n、预期的ILS量(与λ成正比)、嵌入对齐序列中的隐藏基因树总数G以及应用的具体标准(BIC、AIC或AICc)而变化。因为单个替换模型被拟合到马赛克对齐序列上,倾向于选择+G4/+I和参数丰富的替换家族,这表明模型试图在错误指定下适应遗传异质性,而不是作为潜在替换模式或过程本身复杂的直接证据。图2中的替代文本可能是使用AI生成的。全尺寸图像雷达图显示了在不同冲突水平(列)、物种形成率(颜色)和三种模型选择标准(行:BIC、AICc和AIC)下,对于n=1000个物种的大数据集分析的选定模型选择频率(0-100%)。图3中的替代文本可能是使用AI生成的。全尺寸图像核苷酸模型选择的结果显示了在四个系统发生冲突水平和增加的物种形成率下,对于n=1000个物种的分析。左列的面板显示了每个标准下从模型选择中推断出的自由参数(自由度)的平均数量(行)。右列的堆叠条形图显示了随着冲突和物种形成率增加而选择的28个替换模型的频率比例(从左到右)。图4中的替代文本可能是使用AI生成的。全尺寸图像冲积图分析了冲突对BIC、AICc和AIC的位点间变异估计的影响。这些图表追踪了与给定实验配置匹配的重复样本的比例,包括物种数量(左)、冲突水平(中)以及结果推断(右),对于异质性(+G4,+I,+I+G4)与均匀性(相同速率)的位点间速率模型。当我们在分析大型系统发生树时检查七个替换模型家族的选定频率时,隐藏冲突的影响最为明显(图2)。在“无冲突”的条件下,我们发现无论物种形成率如何,BIC都能以100%的准确率正确选择JC69模型。AIC和AICc也在相对较高的物种形成率下(约75-80%)正确选择了JC69模型,但随着物种形成率的增加,这两种标准的准确性都降低了(15-100%)。随着对齐序列中冲突的增加(即从左到右),三种标准越来越倾向于选择复杂的模型,特别是在高物种形成率下(图2)。例如,当log(λ)>0时,BIC选择SYM模型的频率为72-80%,而AIC和AICc在选择SYM模型的频率也>50%。此外,AIC和AICc也在中等频率(约24-51%)下选择了GTR模型。对于较小的树的分析,所有三种选择标准受冲突的影响要小得多(图S3和S4)。例如,当n=100时,K2P、SYM和GTR的频率降低(图S3),而当n=10时,JC69模型被正确选择的频率很高(约65-100%,特别是对于BIC(图S4)。当我们分析不同模拟条件下的个别28个模型的选定频率时,这些效应变得更为明显(图3、S5和S6)。再次,在n=1000个物种的大型树分析中,选择过于复杂模型的现象最为明显(图3)。随着物种形成率和预测冲突水平的增加,BIC、AIC和AICc推断出的自由度显著增加(左;图3)。反映这一模式,我们发现所有三种标准越来越多地选择包含额外位点间变异参数的模型,无论是不变位点的比例(+I)、伽马速率模型(+G4),还是两者都有(右;图3)。例如,当预期冲突较高时,JC+I、JC+G4和JC+I+G4模型被更多地选择。AIC和AICc即使在相对较低的物种形成率下也选择了包含位点间变异参数的K2P、SYM和GTR模型,而BIC在log10(λ)>0时也选择了异质性的SYM和GTR模型。然而,与AIC和AICc相比,BIC在物种形成率较低时对冲突的敏感性较低(从上到下;图3)。虽然对于较小树的分析也观察到了类似的模式(图S5和S6),但我们发现当JC69的频率较高时,模型选择标准往往更为稳健(特别是当n=10时)。然而,当物种形成率较高且n=100时,仍然存在偏向于越来越复杂模型的证据。最后,我们生成了涵盖我们所有模拟情景的冲积图,根据包含或不包括位点间变异参数(“异质性”with +I,+G4,或两者都有)的选定模型的相对频率来解析我们的结果(图4)。在比较三种选择标准时,BIC在所有条件下恢复了最多的速率均匀模型。具体来说,BIC在所有模拟重复样本中恢复了57.10%的均匀过程(即没有位点间变异)(顶部;图4)。相比之下,AIC和AICc在所有条件下都更倾向于选择具有速率异质性的模型(中心和底部;图4)。在没有冲突的情况下,所有三种信息标准都倾向于恢复具有速率均匀性的进化模型(“无冲突”),然而更高冲突的情景导致了包含位点间变异参数的模型比例更高(例如,“高冲突”;图4)。与我们的其他结果一样,我们发现对较小树(即\(n=10\))的分析倾向于恢复更高的速率均匀模型的频率,而较大规模的分析则总体上更容易受到影响。讨论:系统发育冲突预计会在全基因组时代加剧(Smith等人2015年;Zhao等人2022年;Steenwyk等人2023年),我们仍在学习它对进化推断带来的挑战。以往的研究主要集中在系统发育重建过程中冲突的原因、后果和背景上(Kubatko和Degnan 2007年;Philippe等人2011年;Springer和Gatesy 2016年)。因此,我们的研究为隐藏冲突对从多基因座序列数据推断分子进化模式和过程的影响提供了新的见解。我们发现,冲突的影响因具体的实验和进化设置而异。最明显的影响出现在对大树的分析中,因为物种形成率和嵌入对齐中的基因树数量都增加了。这些结果或许是意料之中的,因为之前的工作已经表明,对大规模系统发育进行分析时更高的物种采样率会增加咝咝误差(ILS)和基因树不一致性的概率(Rokas等人2003年;Maddison和Knowles 2006年;Corl和Ellegren 2013年)。同样,较高的物种形成率预计会缩短物种树的内部分支,从而增加嵌入连接对齐中的不一致谱系的可能性(Yule 1925年;Stadler 2011年;Rivas-González等人2023年)。咝咝误差通常被认为是谱系冲突的最主要来源(Tan等人2023年;Xie等人2024年;Zhang等人2024b, 2025年),我们发现这种冲突在某些条件下会影响模型选择。然而,我们也发现了一些有希望的证据,表明模型选择在低冲突条件下相对稳健,特别是对于较小数据集的分析。连接是一种流行的技术,它通过将不同的基因座组合成一个对齐来增加总的系统发育信息量(Som 2015年)。然而,当连接不同的基因时,这种策略可能会出现问题(Kubatko和Degnan 2007年;Heled和Drummond 2010年),这正是在我们的模拟研究中模拟的情况。因此,我们的发现表明,这些模型选择标准通过选择更复杂的模型和额外的参数来解释对齐中的隐藏谱系异质性,这一模式在类似的背景下之前也有观察到(Luo等人2010年;Susko和Roger 2020年;Liu等人2023年)。我们的发现表明,模型复杂性和错误是由隐藏冲突驱动的。当冲突较低时,模型选择倾向于选择更接近真实数据生成过程的模型(即速率均匀的JC69)。然而,随着冲突的增加,更多不同的、参数更丰富的模型(例如SYM、GTR+G4+I)会被更频繁地选择。在我们的模拟中,出现了一个一致的模式:偏好假设碱基频率相等的模型,如K2P和SYM。也就是说,信息标准有时会偏好具有相似组件的更复杂模型,尽管在极端情况下并非总是如此。我们基于HKY+G4模型的补充分析显示了类似的逐步模式:随着冲突的增加,选择了比HKY更复杂的模型,而简单的模型从未被偏好(见补充材料;图S7-S9)。由于许多下游分析依赖于特定的建模假设(例如,不平等的碱基频率或转换/颠换率比率),它们可能会受到这些效应的不同影响。例如,一些系统发育树重建方法对碱基频率假设的违反特别敏感(Fleming和Struck 2023年;Zou等人2024年),而祖先序列重建等方法则依赖于假设的替换模型的适用性(Del Amparo和Arenas 2023年)。因此,未来研究隐藏冲突的下游后果对于澄清其在更广泛的进化和实验条件下的方法论影响至关重要。也许隐藏冲突最明显的症状是标准倾向于选择包含额外参数的模型来捕捉位点间速率异质性,例如伽马率模型和不变位点的比例(或两者)。尽管所有序列数据都是在最简单的JC69模型下生成的,该模型在位点间具有均匀的速率,但对齐内的冲突似乎表现为位点间变异的证据。这种观察是有道理的,因为嵌入连接对齐中的谱系不仅在拓扑上有所不同,而且在分支长度上也有所不同,这可能会产生位点间变异的信号。因此,JC+G4经常比简单的JC更受青睐,可以解释为模型适应对齐中冲突信号的能力。从这个角度来看,通过添加位点间变异参数来补偿冲突的能力可以被认为是模型选择程序的一个优势。毕竟,伽马分布的速率模型(+G4)本身只是一个近似值,不可能完美反映从自然样本中观察到的真实生物过程和速率变异的原因。然而,在非常高冲突的条件下,我们仍然发现信息标准越来越倾向于选择具有复杂替换动态的参数丰富模型(例如SYM、GTR),可能是因为不一致信号的 averaging(Philippe等人2011年;Mendes和Hahn 2016年;Parins-Fukuchi等人2021年)。值得注意的是,我们的结果揭示了在比较BIC、AIC和AICc时三个最常用的模型选择标准之间的一致和可解释的差异。其中,我们发现BIC往往是最保守的,可能也较不敏感。例如,在低到中等冲突水平和物种形成率的情景下,BIC经常偏好更接近用于生成对齐的真实JC69模型的简单模型。对于高冲突率和低物种形成率的情景,BIC通常选择JC69+G4,仅表示一个额外的位点间速率变异参数。然而,对于高冲突和较大树以及较高物种形成率的情景,BIC也开始偏好更复杂的模型,如K2P+G4、SYM和SYM+I+G4。这一趋势表明,尽管BIC可能对隐藏冲突更有弹性,但随着冲突的加剧和更多分类单元的包含,它仍可能转向参数丰富的模型(Luo等人2010年;Susko和Roger 2020年;Liu等人2023年)。先前的研究也注意到BIC在其他系统发育背景下的更为保守的行为(Abdo等人2005年;Ripplinger和Sullivan 2008年;Luo等人2010年)。相比之下,AIC始终显示出更强的过度拟合倾向,即使在相对中等的冲突水平下也偏好复杂模型。这体现在至少对较大树的高冲突情景中选择了K2P、HKY+F+I+G4、TIM+F+I+G4和GTR+F+I+G4等模型。AICc旨在调整小样本量(Hurvich和Tsai 1989年),表现出比AIC稍保守的倾向。然而,随着冲突的增加,AICc仍然经常选择参数较多的模型,特别是K2P+G4、SYM+G4和SYM+I+G4。先前的研究也发现AIC在系统发育分析中选择更复杂的模型(Abdo等人2005年;Ripplinger和Sullivan 2008年)。我们的发现与先前的论点一致,即选择适当的模型选择标准与选择特定的系统发育程序或软件一样重要(Li等人2025年)。我们的模拟案例研究提出了一个问题:隐藏系统发育冲突的实证危险是什么?先前的研究表明,这种冲突显著影响了系统发育和其他分子进化方面的估计(Jeffroy等人2006年;Steenwyk等人2023年;Adams等人2025年)。如果预计冲突较低,我们的结果表明模型选择程序(特别是BIC)可能相对稳健。此外,模型包含位点间变异参数的倾向实际上可能突出了这些方法适应真实冲突信号的灵活性。在自然界中,系统发育冲突被认为是由于多种生物学和技术原因而普遍存在的(Steenwyk等人2023年)。预测特定数据集中的冲突量及其根本原因仍然是一个主要挑战,很难确定对齐中的变异有多少是由于不完全的谱系分选、模型错误指定或其他原因造成的。可以说,需要更多的工作来在不同进化和实验背景下自信地回答这个问题。最近的研究提倡在系统发育推断中默认假设参数丰富的GTR+I+G模型,完全跳过模型选择步骤(Abadi等人2019年;Fabreti和H?hna 2023年)。确实,研究表明,在某些类型的树重建中,过度参数化可能不如参数化模型那么成问题(Lemmon和Moriarty 2004年)。然而,其他人强调,模型选择程序可以用来确定最佳拟合的核苷酸替换模型,而不是强制使用GTR模型来改善拓扑和分支长度估计(Hoff等人2016年)。不管怎样,核苷酸替换模型仍然是现代系统发育学的基石,不仅用于准确的树推断,也有助于更深入地理解分子进化的模式和过程(Posada和Buckley 2004年;Yang 2014年;Arenas 2015年;Fabreti和H?hna 2023年)。因此,我们将研究重点放在模型选择过程本身上,以提供关于冲突对我们区分核苷酸替换模型能力的潜在影响的见解。虽然我们的研究为这些挑战提供了新的见解,但也存在一些限制和未来工作的新方向。首先,通过在最简单的JC69模型下进行模拟,我们故意关注了冲突将促进参数丰富模型选择的假设(尽管也可以参见基于HKY的案例研究)。将这种方法扩展到其他数据生成过程可能会帮助提供模型选择和冲突的更全面视图。其次,我们专注于咝咝误差作为冲突的唯一来源,而实际上还有许多其他潜在的冲突驱动因素,如水平基因转移、自然选择和杂交(Hibbins和Hahn 2022年;Keuler等人2022年;Sanderson等人2023年;Shi和He 2025年)。重组会破坏连接的谱系,如果忽略这一点,可能会偏差系统发育推断和序列重建(Schierup和Hein 2000年;Arenas和Posada 2010年)。对齐质量本身也可能作为误差源影响模型选择(Spielman和Miraglia 2021年)。第三,除了这里研究的基于信息标准的方法之外,还有许多其他的模型选择框架,包括贝叶斯因子(Lartillot和Philippe 2004年)、决策理论(Minin等人2003年)和分层似然比测试(Frati等人1997年),这些可能是选择进化模型的互补程序。然而,许多当前方法共享相同的系统发育似然函数及其假设,这表明提高鲁棒性可能需要新的策略。机器学习的最新进展也有望提高核苷酸模型选择的鲁棒性和准确性(Kulikov等人2024年;Buch和Gambhava 2026年),混合建模方法也是如此(Pagel和Meade 2004年;Bujaki等人2023年;Gill等人2025年)。了解这些方法在冲突条件下的表现将是有帮助的,因为每种方法都有自己的优势和局限性。此外,现在有大量的模型被提出用于研究不同的进化现象(参见Arenas 2015年;Ferreiro等人2026年),这些是未来研究的对象,以扩展我们在这里考察的28个模型之外。探索超出我们研究范围的新进化和实验条件也将有助于更广泛地了解冲突和模型选择。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号