规避可变环境中非随机取样导致的个体间方差估计偏差

《Methods in Ecology and Evolution》:Avoiding misleading estimates of among-individual variance caused by non-random sampling of individuals in a changeable environment

【字体: 时间:2026年03月08日 来源:Methods in Ecology and Evolution 6.2

编辑推荐:

  这篇研究性综述通过模拟分析,揭示了在生态学研究中,当存在未被测量的、随时间或空间变化的环境因素时,对研究对象(如个体)的非随机取样(表现为采样时间的可重复性Rtiming),会导致线性混合效应模型对个体间方差VI和个体内方差VW的估计,混淆了研究前和研究期间的不同生物学过程。文章评估了不同环境效应模式(随机、线性、周期性、共享或非共享)和多种模型校正策略的有效性,最终为准确估计和解释方差组分,特别是与个体差异、可重复性和遗传力相关的关键参数,提供了重要的方法论指导与实践建议。

  
1 引言
线性混合效应模型已成为生态学与进化生物学中分解复杂性状方差组分、研究个体差异(如动物个性)和表型可塑性等问题的核心工具。然而,在现实研究中,我们无法测量所有影响目标性状的环境因子。当这些未被测量的环境效应在空间或时间上发生变化,并且对研究单元(如个体)的采样在时间上存在非随机性,即具有“采样时间的可重复性”(Rtiming)时,就会产生一个关键问题。这种由采样设计(研究内效应)与个体固有的、研究前的差异(研究前效应)的混淆,会扭曲对个体间方差VI和个体内方差VW的估计,进而影响对可重复性、遗传力等关键生物学指标的解释。本研究旨在探讨导致这种混淆的条件,并在缺乏相关信息时评估潜在的解决方案。
环境变化模式多样,可能呈现随机、线性趋势、周期性或它们的组合,并常伴有时间自相关。这些变化可能被所有研究个体共享,也可能是个体间非共享的。
2 方法
本研究利用R包squidR进行模拟,以探讨在省略关键环境变量x的混合模型中,采样时间的可重复性Rtiming如何影响对研究前个体间方差VI和个体内方差VW的估计。模拟的性状表型值遵循公式:yijk= β0+ Ik+ β1xjk+ eijk,其中Ik是服从N(0, VI)分布的个体效应,xjk是环境变量,eijk是服从N(0, VW)分布的残差。
研究模拟了共享与非共享的环境效应,以及随机、线性和周期性等不同变化模式,并系统改变了环境的时间自相关强度(ρ)和采样时间的可重复性Rtiming。Rtiming量化了个体采样时间区间在总研究时长内的一致性,其值越高意味着不同个体的采样时间区间越不重叠。
随后,使用五种不同的线性混合效应模型来分析模拟数据集,以评估它们校正估计偏差的能力:
  • 空模型:忽略环境效应x,仅包含个体随机效应。
  • 时间固定效应模型:将时间(周期)作为固定效应协变量纳入。
  • 时间随机效应模型:将周期作为随机效应纳入。
  • 个体-时间随机效应模型:在包含个体和周期随机效应的基础上,增加“个体-周期组合”作为随机效应。
  • 自相关模型:将时间作为固定效应,并在残差中纳入一阶自回归结构。
3 结果
3.1 空模型中的估计偏差程度
在空模型中,无论Rtiming为何值,个体间方差VI总是被高估,而个体内方差VW总是被低估。随着Rtiming和环境时间自相关ρ的增加,对VI的偏差程度加剧。本质上,未被测量的环境效应所产生的方差,本应全部进入残差方差,但由于非随机取样,其中一部分被转移并混淆进了VI的估计中。
当环境为随机变化或具有周期性趋势时,VI的估计值变化独立于Rtiming。而当环境在个体间非共享时,这种VI的额外变化消失。在环境为随机变化时,对VI的偏差程度随Rtiming和ρ的增加而增加。在线性趋势环境中,偏差程度主要随Rtiming增加。在周期性趋势环境中,偏差程度相对稳定。
3.2 不同模型性能比较
  • 共享环境:当环境效应被所有个体共享时,时间随机效应模型、个体-时间随机效应模型和自相关模型都能有效校正对VI和VW的估计偏差。而时间固定效应模型仅在线性趋势环境中有效,在随机或周期性变化环境中无效。
  • 非共享环境:当每个个体经历独特的环境效应时,没有模型能在所有模拟场景中完全校正偏差。在随机非共享环境中,个体-时间随机效应模型和针对个体的自相关模型能减少偏差,但后者在Rtiming较高时仍会低估VI。在线性趋势非共享环境中,所有模型都只能减少而不能完全校正偏差,其中时间固定效应模型和个体-时间随机效应模型表现相对较好。在周期性非共享环境中,时间随机效应模型和个体-时间随机效应模型在减少偏差方面表现最佳。
4 讨论
4.1 不同模型在纠正由采样时间可重复性引起问题方面的效率
模拟表明,在存在未被测量的环境效应时,Rtiming会导致个体间方差VI的估计偏离仅由研究前过程产生的预期值,这个问题在环境共享或非共享时均会出现。对于共享环境,在模型中纳入周期作为随机效应是一个有效的解决方案。然而,当环境在个体间非共享时,问题变得难以处理,本研究所考虑的方案无一能完全解决。
将时间作为固定效应仅在环境效应表现出线性或周期性趋势时有效。在环境中加入自相关结构的方法,其有效性取决于数据生成过程与模型假设是否匹配。如果自相关源于生物体内部状态变化,此方法可能合适;但如果自相关源于环境的自相关,则模型可能误判。将周期作为随机效应(如年份效应)是传统上用于校正此类混淆效应的方法,但在个体经历非共享环境效应且Rtiming较高时,仅此并不足够。
包含“个体-周期组合”作为随机效应的模型,是处理潜在时间取样问题最合适的方案之一。这要求数据具有时间层次结构,例如个体在每个周期内被多次测量。在无法优化取样设计的情况下,在分析阶段对数据集进行重采样以降低Rtiming,或采用时间区组设计,是可考虑的折中策略。
4.2 空间异质环境引起的效应混淆
由空间异质性导致的生物学过程混淆同样可能影响随机截距方差的估计。如果多个个体在同一地点被测量,将地点作为随机效应可能纠正此问题。如果个体因其表型差异而选择不同生境,则校正地点效应可能会不适当地移除个体间方差的一部分。在这种情况下,可能需要实验手段来厘清。
4.3 实践指南
研究者首先应通过优化时域取样设计来尽可能降低Rtiming,例如尝试在由较长间隔分隔的连续时间区组内对尽可能多的个体进行取样。我们建议研究者估计并在论文中报告其研究的Rtiming。模拟结果表明,当Rtiming<0.6时,未测量环境效应对方差组分估计的强影响风险较低,但此阈值并非普适。任何不可忽略的Rtiming值都应引起研究者的警惕。对于无法通过规划降低Rtiming的情况,可以在分析阶段通过移除研究早期或晚期采集的极端数据来进行重采样以降低Rtiming。对于长期数据集,分时段运行模型可能有助于降低Rtiming
在涉及非重叠世代物种或跨越数十年的种群研究中,不同个体的观测值会自然地聚类于不同时期,导致高Rtiming。此时,在动物模型等定量遗传分析中,仅将年份作为随机效应可能不足以避免对加性遗传方差VA的高估。分时段估计可重复性或遗传力,是尽可能降低Rtiming的一种方法。
5 结论
当对研究单元(如个体)进行非随机时间取样时,模型设定错误会导致方差组分估计混淆多种过程,影响正确解读。我们建议研究者明确模型目标,精心设计取样以尽可能降低Rtiming。在许多情况下,纳入周期或使用层次化时间结构作为随机效应,常可校正效应混淆。研究者也可对数据集进行重采样以降低Rtiming,尽管这需要以损失数据为代价。
环境x的自相关加剧了非随机取样的影响。目前缺乏关于温度、降水等环境变量自相关系数分布的信息,因此研究者需意识到此潜在问题,并评估其性状的自相关性是否反映了环境影响。鼓励研究者调查可能影响其研究对象的环境变量,分析其时空相关结构。在存在强环境冗余性的情况下,使用少数代表性变量可能有助于限制方差组分估计中的取样偏差。
本研究限于正态分布性状,提醒读者外推结果至其他分布类型时需谨慎。非随机取样对性状间协方差估计的影响尚未评估,其可能被高估或低估,取决于所分析的两个性状反应规范的方向。为避免这些问题,最根本的建议仍是在研究中尽可能降低Rtiming
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号