《Ecology and Evolution》:Orangutan: An R Package for Analyzing and Visualizing Phenotypic Data in the Context of Species Descriptions and Population Comparisons
编辑推荐:
本文介绍了一款名为Orangutan的R软件包,它为解决表型(phenotypic)数据在物种描述与种群比较中的分析挑战提供了一个可重复、易于实现的标准化框架。该工具集成了统计分析(包括异速生长校正、异常值去除、非重叠变量识别、单变量假设检验、多变量分析如PERMANOVA、PCA、DAPC等)与可视化功能,可自动生成出版级图表。其核心目标是提升分类学、生态学和进化生物学研究中表型数据分析的再现性、透明度与效率,通过自动化流程降低用户门槛,并推动形态数据分析中良好实践方法的应用。通过多个实证数据集(包括蜥蜴和植物)的验证,证实了其稳健识别诊断性状、揭示群体差异以及实现高分类准确率的能力。
引言
表型特征长期以来一直是物种诊断和分类实践的基石,即使在基因组学时代,它们仍然不可或缺。然而,表型数据集通常很复杂,涉及数十个类型和单位各异的性状,变量之间常存在相关性,且采样可能不平衡,这给稳健、可重复的分析带来了挑战。现有的软件解决方案较为分散,通常需要跨多个工具和手工步骤的费时工作流,这损害了可重复性并阻碍了跨研究的比较。为了应对这些方法学和实践上的挑战,研究者开发了Orangutan这一R软件包。它旨在为使用测量性状(mensural)和计数性状(meristic)数据进行群体比较提供一个可重复、易于实现的框架。Orangutan将物种诊断和种群比较的统计分析与可视化整合到单一工作流中。
方法
Orangutan是一个用R语言编写的软件包,旨在促进物种描述或一般种群比较背景下的表型数据统计分析与可视化。它简化了表型数据处理,允许用户加载结构化数据集、进行统计比较,并以最少的编码工作(例如,通过单个函数run_orangutan)生成信息丰富的可视化图表。
输入数据与可选转换
包期望输入数据为逗号分隔值(CSV)文件,其中第一列为物种或种群标识,其余列为性状变量。包提供了可选的数据转换和过滤步骤:
- 1.
异速生长校正:为区分形状差异与体型效应,用户可指定一个与体型相关的变量作为缩放代理(例如,爬行动物的吻肛长)。通过将性状变量和缩放变量进行对数转换后计算回归残差,获得独立于体型的性状变异。
- 2.
异常值去除:基于Tukey方法,在物种内对每个数值性状独立检测并去除异常值(定义为低于Q1–1.5×IQR或高于Q3+1.5×IQR的值),以避免极端值对统计分析产生不当影响。
描述性统计与非重叠变量识别
包自动计算每个物种各数值性状的描述性统计(均值±标准差,及范围),并以表格形式输出。一个关键功能是识别物种对之间具有非重叠值范围的性状。这些性状对物种诊断非常有用,它们会被可视化(测量性状用嵌有箱线图的小提琴图,计数性状用箱线图),并生成总结表格。
多变量分析
Orangutan集成了多种多变量分析方法,从不同维度评估群体间的表型差异:
- 1.
PERMDISP与PERMANOVA:首先使用PERMDISP(通过betadisper)评估各组间多变量离散度(方差)的均匀性。然后使用基于欧氏距离的置换多元方差分析(PERMANOVA)检验不同物种的多变量形心是否存在显著差异。PERMDISP结果用于判断PERMANOVA结果是否有效(即差异源于形心分离而非离散度不同)。
- 2.
主成分分析(PCA):作为一种探索性排序方法,用于可视化多变量结构并总结表型变异的主要轴。数据经过中心化和缩放后执行PCA,并提取前两个主成分(PC1和PC2)进行绘图。对于解释累积方差达到90%之前的主成分,会进行后续的单变量统计检验(ANOVA或Kruskal-Wallis)以评估物种间差异。
- 3.
判别分析主成分(DAPC):这是一种有监督的多变量方法,结合了PCA与线性判别分析,旨在最大化组间变异同时最小化组内变异。它用于评估基于多变量性状组合对个体进行预定义组别分类的可靠性。通过留一法(jackknife)交叉验证生成混淆矩阵,并计算分类准确率以及物种层面的诊断性能指标,如灵敏度、特异性和真实技能统计量(TSS)。
单变量分析
对于每个性状变量,Orangutan会自动进行假设检验以评估物种间差异:
- 1.
检验选择:首先检验数据的正态性(Shapiro-Wilk检验)和方差齐性(Bartlett检验)。若两项假设均满足(p>0.05),则使用单因素方差分析(ANOVA);否则,使用非参数Kruskal-Wallis检验。
- 2.
事后比较与可视化:对于检验结果显著(p<0.05)的变量,进行事后成对比较(ANOVA后用Tukey HSD检验,Kruskal-Wallis后用Dunn检验并做Bonferroni校正)。结果以带有显著性分组字母注释的小提琴图/箱线图形式可视化,并生成总结表格。
结果
通过应用于多个实证数据集(包括四种安乐蜥物种及一个推定杂交类群的数据集、九种安乐蜥数据集以及R内置的鸢尾花数据集),展示了Orangutan的功能:
- 1.
描述性统计与非重叠变量:成功计算了各物种的性状摘要统计表,并识别出特定物种对之间具有非重叠值范围的诊断性状,并生成了相应的可视化图表。
- 2.
多变量分析:对安乐蜥数据集的分析显示,物种间存在显著的多变量分化(PERMANOVA: F4,29=12.62, R2=0.64, p=0.001),且多变量离散度同质(PERMDISP: p=0.185)。PCA和DAPC图显示了清晰的物种聚类。DAPC交叉分类表显示,仅凭表型数据即可实现较高的分类准确率(在九种安乐蜥数据集中达到71.3%)。
- 3.
单变量分析:在分析的31个变量中,14个符合参数检验假设,其中13个通过ANOVA发现显著差异;其余17个使用Kruskal-Wallis检验,其中16个发现显著差异。事后比较揭示了具体的物种间差异分组,并通过注释图表清晰呈现。
讨论
Orangutan为在比较框架下进行表型分析提供了一个全面、用户友好的框架,将多种统计方法集成到单一流程中。通过自动化数据清洗、异常值处理、异速生长校正、单变量与多变量分析以及出版级图表的生成,该包显著减少了物种描述工作流中常见的劳动量和错误可能。
与现有的专用工具(如GroupStruct2)相比,Orangutan设计为一个完全脚本化、确定性的可重复诊断系统,强调基于假设检验和明确的统计假设评估(如正态性、方差齐性、多变量离散度)。它优先考虑预定义组别的表型可诊断性,整合了假设感知的单变量/多变量检验,并明确评估效应大小、非重叠性状范围和分类性能。其基于规则的异常值检测和异速生长校正程序具有相关诊断功能,允许用户评估不同分析选择如何影响方差结构和组间分离。
虽然植根于系统分类学,但Orangutan同样可用于解决生态学和进化生物学中的需求。在种群层面,它可用于检测表型可塑性和局部适应;在群落层面,精确的体型-形状分离有助于量化功能性状,其集成的多变量工作流可用于绘制形态空间占据图,从而定量测试生态特征替换、生态位分配和趋同进化等现象。
总之,Orangutan作为原始测量数据与高级生态推断之间的关键桥梁,确保了比较研究基于可重复的定量证据。它通过自动化关键分析步骤和生成高质量可视化输出,增强了分类学研究的普及性、可重复性和效率,最终有助于实现更易获取和更稳健的物种诊断与描述。该软件包作为开源软件免费提供,并附有详细文档以促进广泛采用。