如何使用残差动态结构方程模型来研究实验因子设计中的个体差异及个体内部变异：教程

《Multivariate Behavioral Research》：How to Use Residual Dynamic Structural Equation Modeling to Study Individual Differences and Intraindividual Variability in Experimental Factorial Designs: A Tutorial

【字体：大中小】 时间：2026年05月10日 来源：Multivariate Behavioral Research 3.5

编辑推荐：

　　摘要本文展示了残差动态结构方程建模（RDSEM）在分析实验性因子设计中的自定义对比时的应用。以往的RDSEM应用通常集中在生态瞬时评估和每日日记数据上。然而，RDSEM最初是为密集型纵向数据开发的，更广泛地适用于观测间隔非常短的情况。除了这些类型的研究，RDSEM也非常适合

　　摘要
本文展示了残差动态结构方程建模（RDSEM）在分析实验性因子设计中的自定义对比时的应用。以往的RDSEM应用通常集中在生态瞬时评估和每日日记数据上。然而，RDSEM最初是为密集型纵向数据开发的，更广泛地适用于观测间隔非常短的情况。除了这些类型的研究，RDSEM也非常适合分析来自实验室研究的数据，例如眼动追踪或反应时间实验。我们比较了三种分析方法：方差分析、线性混合模型和RDSEM，并强调了RDSEM的独特优势。尽管RDSEM常用于瞬时评估数据，但它在实验分析中也表现出高效性，能够整合时变和时不变协变量、建模自回归效应，并捕捉残差方差/个体内变异性的个体间差异。这些优势源于RDSEM对时间序列、多层次和潜在变量建模的整合，所有这些都通过贝叶斯估计来实现。

关键词：
残差动态结构方程建模；实验设计；个体间差异；个体内变异性

技术进步使研究人员在社会科学和行为科学中进行因子设计实验时能够收集大量密集数据。这些进步为研究者选择合适的数据分析方法带来了新的挑战。动态结构方程建模（DSEM；Asparouhov等人，2018年引用）是一种灵活的工具，近年来被提出用于分析密集型纵向数据。DSEM可以应用于评估间隔为小时或天的数据（例如生态瞬时评估数据，Smyth & Stone，2003年引用；日常日记研究，Bolger等人，2003年引用）。DSEM也非常适合分析包含时间序列成分的因子设计实验（例如，在实验室环境中收集的纵向数据，连续评估之间可能有几秒钟的时间间隔）。DSEM为实验分析带来了几个优势：（1）时间序列成分允许自回归效应，（2）多层次建模，（3）潜在变量框架，（4）通过贝叶斯估计实现计算可行性，（5）估计残差方差的个体间差异，（6）潜在组均值中心化。本文旨在通过一个阅读研究实验来说明这些优势（尽管这些优势可以推广到任何收集密集数据的实验环境）。我们将使用密集的眼动追踪数据来研究从一年级到四年级儿童阅读技能的发展。此外，还将把DSEM的结果与方差分析（ANOVA）和线性混合模型（LMM）的结果进行比较，以展示DSEM如何改进这些传统方法。

为了将DSEM与ANOVA和LMM进行比较，本文基于最近发表的潜在重复测量方差分析（L-RM-ANOVA）方法（Langenberg等人，2024年、2022年引用），该方法将传统的ANOVA转化为结构方程建模（SEM）框架。当使用贝叶斯方法估计时，L-RM-ANOVA等同于贝叶斯多变量ANOVA。L-RM-ANOVA为实验数据分析引入了许多SEM的优势，包括但不限于更全面地考察个体间差异、指定自定义对比的便捷方式，以及提供测量模型（即潜在变量）。然而，L-RM-ANOVA仅适用于单层数据，不允许建模动态时间序列过程。在分析包含随时间密集重复测量的数据时，这些特性至关重要。例如，在眼动追踪实验中，句子的阅读时间可能受到先前单词难度的影响。此外，因为观测值嵌套在参与者内部，因此检查主效应和交互效应在不同个体之间的差异程度很重要。本文将L-RM-ANOVA的优势整合到DSEM中，从而使研究人员能够探索因子设计中的自定义对比的个体间差异，以及动态过程中的个体内变异性。具体来说，本文采用了残差动态结构方程建模（RDSEM，Asparouhov等人，2018年引用），这是一种对残差之间的自回归效应进行建模的DSEM变体。在讨论单层因子设计中的效应检验时，我们将L-RM-ANOVA简称为ANOVA。需要指出的是，从技术上讲，ANOVA不是一种模型，而是一种用于检验至少包含两个参数的假设的方法（即F检验的分子自由度）。该方法基于一般线性模型，通常使用最小二乘法进行估计。

本文的结构如下：首先，本文介绍了一个包括2×3因子被试内设计的眼动追踪实验的激励示例。其次，本文展示了如何指定一组自定义对比，这些对比直接检验了实际感兴趣的假设，同时考虑了固定效应（即个体间常见的平均效应）以及随机效应（即围绕固定效应变化的个体间差异）。第三，本文估计并比较了ANOVA、线性混合模型（LMM）和RDSEM的结果。尽管ANOVA处理的是汇总数据且不允许使用时变协变量，但其他模型使用了完整的数据集。RDSEM进一步包括了一组时不变和时变协变量、自回归效应以及残差方差的个体间差异（这些无法纳入ANOVA；时变协变量在LMM中很常见，但建模误差结构相当复杂且很少进行）。最后，本文得出了总体结论，为应用研究者提供了进一步建议，并指出了未来的研究方向。

**激励示例**
本节介绍了本文的激励示例，并简要阐述了将在本文其余部分分析和回答的几个示例研究问题。示例数据来自一项针对N=267名一年级、二年级和四年级儿童阅读效率的眼动追踪实验。主要研究问题是儿童在小学各个年级的阅读效率如何提高。这个问题还将指导后续章节中的对比编码和模型规范。“Landolt”范式（例如，Heim等人，2018年引用；Hillen等人，2013年引用）被用来测量阅读效率。Landolt范式涉及阅读两种类型的句子：普通句子和Landolt句子，在Landolt句子中，单词的某些字符被圆圈替换。参与者被要求阅读这些单词并发现其中的“C”字符。

这个范式的思想是，Landolt句子仅涉及眼动技能，而普通句子则涉及眼动技能和语言处理（包括语义、音调和形态句法处理）。例如，阅读时间的差异可以被视为阅读效率的一个衡量指标。

两个实验性的被试内因素是句子类型（普通句子与Landolt句子）和年级（一年级与二年级与四年级）。每个年级的儿童最多阅读41个句子（一些儿童阅读的句子较少；中位数=36，IQR=(36, 41)），每个句子最多有10个单词（句子长度不同；中位数=7，IQR=(5, 9)），从而导致每个儿童最多有1,575次测量（中位数=1,341，IQR=(1,239, 1,424)）。样本中的儿童来自不同的学校，因此可能存在学校层面的额外聚类效应。由于学校成员资格不是当前分析的重点，且每所学校的学生数量有限，这些潜在的依赖性无法被明确建模。在解释结果时应记住这一限制。收集了多种测量数据，如总观看时间（TVT）。图1显示了2×3=6种实验条件下每个单词的平均观看时间。观看时间除以单词的字符数，然后进行对数转换，因为数据有严重的偏斜。

图1显示了RDSEM（见“模型3：RDSEM”部分）对于六种实验条件的模型推断出的固定效应。误差条表示可信区间。实线垂直条表示每个年级Landolt句子与普通句子之间的差异（即阅读效率）。虚线垂直条表示从一年级到二年级以及从二年级到四年级的阅读效率变化。

**阅读效率的发展**
在本文中，我们将研究几个示例研究问题。首先，我们将研究阅读效率在不同年级的变化。图1中的黑色条形表示三个年级中普通句子与Landolt句子之间的平均观看时间差异（即阅读效率）。垂直虚线红色条形表示从一年级到二年级以及从二年级到四年级的阅读效率平均变化。我们将在模型规范部分使用相同的对比，因为它们与实际研究问题相匹配。变化越大，表明读者从一个年级到下一个年级的阅读效率提高得越多。我们将研究年级间的平均变化（即固定效应）以及这些变化在参与者间的变异性（即随机效应）。数据还包括几个时不变协变量：（1）儿童的智商，（2）通过儿童行为检查表（CBCL；Achenbach & Rescorla，2001年引用）评估的注意力问题，（3）阅读难度（RD），即阅读速度低于第25百分位的平均百分比（Salzburger阅读和拼写测试（Salzburg Reading and Spelling Test），SLRT-II；Moll & Landerl，2010年），以及（4）阅读理解（Ein Lese-Verst?ndnistest für Erst- bis Sechstkl?ssler（适用于一至六年级学生的阅读理解测试），ELFE 1–6；Lenhard & Schneider，2006年）。所有时不变协变量都在一年级之前或一年级开始时测量。我们将在本文中使用这些协变量来解释和预测阅读效率的变化。

**时变协变量**
第二个研究问题涉及时变协变量的使用。具体来说，我们旨在研究单词内的初始着陆位置（LP）如何影响观看时间。先前的研究表明，有经验的读者倾向于在阅读时靠近单词的中心着陆（Radach & McConkie，1998年），并且预计更接近单词中心的着陆会导致更短的观看时间。为了量化这一点，着陆位置被测量为第一次注视点与单词中心之间的绝对距离（以字符计）。然后通过将其除以单词的总长度来标准化这个距离，得到一个介于0（表示正好落在单词中心）到1（表示落在第一个或最后一个字符上）之间的变量。

**残差方差的异质性**
第三个问题关注个体内变异性的个体间差异。个体残差方差是衡量个体内部变异性的指标：它描述了个体观看时间围绕其平均值的变化情况。然而，这种变异性可能会受到不同个体特征（即时间不变的协变量，如智商、CBCL、RD）的影响。也就是说，有阅读困难的参与者可能会表现出更高的个体内部变异性。我们将研究智商、CBCL和RD如何影响这种变异性。

最后，我们将探讨当前单词的观看时间在多大程度上受到前一个单词观看时间的影响。例如，如果前一个单词更难（由于认知疲劳等原因），观看时间可能会更长。此外，这些自回归效应可能因个体而异，并且可以由时间不变的变量来预测（例如，智商较高的儿童如果能够在不产生认知疲劳的情况下处理更难的单词，他们可能具有较弱的自回归效应）。

### 传统ANOVA模型
传统ANOVA能够估计不同年级之间阅读效率的平均变化（即当前设计中的个体间效应；见“阅读效率的发展”部分），并通过时间不变的变量来预测这些变化（Langenberg等人，2022年引用）。然而，传统ANOVA无法对个体内的过程（例如自回归效应）进行建模，从而无法研究个体内过程的差异。

### 线性混合模型（LMM）
LMM（有关线性混合模型的介绍，请参见Fitzmaurice等人，2011年引用；Laird与Ware，1982年引用）是ANOVA的扩展，它允许估计个体内效应，因为它区分了个体内部和个体之间的变异性。LMM还可以在个体内部层面纳入时间变化的协变量，如着陆位置或自回归（见下文“时间变化协变量”和“自回归效应”部分）。然而，在多层模型中包含时间变化的协变量和自回归效应需要仔细考虑不同的中心化方法（例如，总平均值中心化或簇平均值中心化；Hamaker与Grasman，2014年引用）。中心化的选择会显著改变模型参数的解释。特别是对于因子设计来说，截距的解释（因此自回归效应的解释）进一步取决于因子编码的选择。此外，研究表明，在某些情况下，自回归效应应该是在残差之间进行建模的；否则，可能会导致偏差的方差估计（例如，Sivo等人，2005年引用；Kwok等人，2007年引用）。本文将展示如何使用潜在的簇平均值中心化在带有自定义对比的实验中估计和解释残差之间的自回归效应。

### 高强度纵向数据的先前模型
#### 传统ANOVA
传统ANOVA能够估计不同年级之间阅读效率的平均变化（即当前设计中的个体间效应；见“阅读效率的发展”部分），并通过时间不变的变量来预测这些变化（Langenberg等人，2022年引用）。然而，传统ANOVA无法对个体内的过程（例如自回归效应）进行建模，从而无法研究个体内过程的差异。

#### 线性混合模型（LMM）
LMM（有关线性混合模型的介绍，请参见Fitzmaurice等人，2011年引用；Laird与Ware，1982年引用）是ANOVA的扩展，它允许估计个体内效应，因为它区分了个体内部和个体之间的变异性。LMM还可以在个体内部层面纳入时间变化的协变量，如着陆位置或自回归（见下文“时间变化协变量”和“自回归效应”部分）。然而，在多层模型中包含时间变化的协变量和自回归效应需要仔细考虑不同的中心化方法（例如，总平均值中心化或簇平均值中心化；Hamaker与Grasman，2014年引用）。中心化的选择会显著改变模型参数的解释。这对于因子设计尤其如此，其中截距的解释（因此自回归效应的解释）进一步取决于因子编码的选择。此外，研究表明，在某些情况下，自回归效应应该是在残差之间进行建模的；否则，可能会导致偏差的方差估计（例如，Sivo等人，2005年引用；Kwok等人，2007年引用）。本文将展示如何使用潜在的簇平均值中心化在带有自定义对比的实验中估计和解释残差之间的自回归效应。

### DSEM和RSEM模型
在DSEM模型中，自回归关系是针对结果本身（个体内部层面）指定的，而在RDSEM模型中，自回归关系是在考虑了模型的结构部分后针对残差指定的（Asparouhov等人，2018年引用；Asparouhov与Muthén，2020a，2020b年引用）。这种基于残差的指定将结构关系与时间序列成分分开，只关注变量之间的同时性关系，而DSEM模型则建模了跨越时间点的结构关系（Asparouhov与Muthén，2020年）。从应用角度来看，选择应基于实质性的问题：当关注结果随时间的变化动态时，DSEM是合适的；当关注在控制了预测变量后的残差动态时，RDSEM是合适的（Asparouhov与Muthén，2020年）。在我们的实验设置中，关注的是阅读相关变量之间的同时性效应，因此RDSEM是一个自然的选择。人们也可以考虑包括句子之间的时间趋势（例如，随着实验的进行，孩子们阅读速度变得更快），尽管仅凭这种趋势的存在不应决定模型选择。如果两种指定都是合理的，可以使用贝叶斯信息标准（如偏差信息准则（DIC）在相同的时间尺度设置下检查DSEM和RSEM模型的适当性，并进行后验预测检验。模拟研究表明，DIC可以在比较设置中识别正确的建模框架（Asparouhov与Muthén，2020年）。对于我们的示例，我们还将简要比较DSEM和RDSEM的DIC。此外，还有文献研究了个体内部变异性的个体间差异（例如，Hoffman，2007年引用）。LMM的一个变体称为位置尺度模型（LCM），它是这方面的一个例子，它允许将个体内部变异性建模为时间或其他簇层面协变量的函数（例如，Hedeker等人，2008年引用；Williams等人，2019年，2020年引用）。这种类型的模型通常应用于纵向数据，如瞬时评估数据（例如，Hedeker等人，2008年，2012年引用；关于实现方法，见Hedeker，2013年引用）。LCM也可以包括自回归效应。然而，据我们所知，现有的文献中没有包括在残差之间建模自回归效应的LCM；相反，它使用之前的测量来预测当前的测量或当前测量的残差方差。

### 注释
4DSEM和RSEM模型
在DSEM模型中，自回归关系是针对结果本身（个体内部层面）指定的，而在RDSEM模型中，自回归关系是在考虑了模型的结构部分后针对残差指定的（Asparouhov等人，2018年引用；Asparouhov与Muthén，2020a，2020b年引用）。这种基于残差的指定将结构关系与时间序列成分分开，只关注变量之间的同时性关系，而DSEM模型则建模了跨越时间点的结构关系（Asparouhov与Muthén，2020年）。在应用方面，选择应基于实质性问题：当关注结果随时间的变化动态时，DSEM是合适的；当关注在控制了预测变量后的残差动态时，RDSEM是合适的（Asparouhov与Muthén，2020年）。在我们的实验设置中，关注的是阅读相关变量之间的同时性效应，因此RDSEM是一个自然的选择。人们也可以考虑包括句子之间的时间趋势（例如，随着实验的进行，孩子们阅读速度变得更快），尽管仅凭这种趋势的存在不应决定模型选择。如果两种指定都是合理的，可以使用贝叶斯信息标准（如DIC）在相同的时间尺度设置下检查DSEM和RSEM模型的适当性，并进行后验预测检验。模拟研究表明，DIC可以在比较设置中识别正确的建模框架（Asparouhov与Muthén，2020年）。对于我们的示例，我们还将简要比较DSEM和RDSEM的DIC。此外，还表明RDSEM对观察值分布不均匀的某些错误指定更为稳健。这种稳健性本身不应成为决定模型选择的依据；相反，时间应尽可能准确地建模，模型选择应结合实质性论证和比较拟合度（Asparouhov与Muthén，2020a）。

RDSEM还提供了相对于现有方法的额外优势。RDSEM将斜率建模为具有均值和方差的潜变量（即固定效应和随机效应），允许斜率之间的回归，这与LMM不同，LMM不支持斜率之间的结构模型。将随机效应建模为潜变量进一步允许估计协变量解释的方差比例。尽管通过更复杂的参数化也可以在LMM中实现这一点，但RDSEM自然提供了这一功能。最后，RDSEM还能够估计随机效应之间的相关性，例如自回归效应（捕捉残差之间的关系）和实验因素的效果。在这篇教程文章中，我们专注于RDSEM，因为它清晰地展示了如何使用时间变化的协变量和自回归过程对实验设计进行建模。

在本文的剩余部分，将估计三种提出的模型，以研究阅读效率的发展和变化。这些模型逐步建立和扩展，以便解决上一节中的研究问题。

### 指定自定义对比
本节简要介绍了如何在SEM中指定线性假设。这种方法将假设表述为实验条件下各组间因素的对比（或差异），这种方法源自潜在增长组分方法（Mayer等人，2012年，2013年引用）。这一想法可以被视为潜在增长曲线的推广，因为增长曲线实际上是变量之间的差异。实验条件下的因变量用y表示，这些对比用π标记。在我们的示例中，实验条件是句子类型和变量观看时间的六个组合。通过使用对比矩阵C将对比表示为因变量的函数来指定假设：(1) π=Cy。(1) 对比矩阵可以包含任何一组对比，只要它是可逆的。实际上，这意味着矩阵必须包含与实验条件数量相同的对比，并且这些对比必须是线性独立的（即，它们中的任何一个都不能表示为其他对比的组合）。研究人员通常更喜欢正交对比矩阵，因为正交对比彼此不相关，这使得它们的解释更加直接。正交性简单来说意味着对比矩阵的行在几何意义上是独立的，并且它们所代表的信息不会重叠。

对于我们的示例，我们使用了一组具体的对比。回想一下，我们关注阅读效率及其随时间的变化。因此，我们为（1）截距（即总平均值），（2）所有年级的平均阅读效率；（3）从一年级到二年级的平均观看时间的变化，（4）从二年级到四年级的平均观看时间的变化，（5）从一年级到二年级的阅读效率的变化，（6）从二年级到四年级的阅读效率的变化创建了对比。后两个对比代表了主要的研究焦点。一些文献（例如，Rosenthal与Rosnow，1985年引用；Abelson与Prentice，1997年引用）建议对对比进行缩放（即，使系数的平方和等于一），因为这可能有助于比较对比。然而，我们决定不对系数进行缩放，因为它们的解释非常重要。

这些对比的对比矩阵如下：(2)
| 因子 | 句子类型 | 年级 |
|------------|-----------------|-------------|
| | SLSL | G1 |
| | LSL | G2 |
| | G4 | G4 |
| | Intercept | DT1 |
| | | T1 |
| | | D:T1 |
| | | T2 |
| | | 0.167 |
| | 0.167 | 0.167 |
| | 0.167 | 0.333 |
| | 0.333 | 0.333 |
| | 0.333 | 0.333 |
| | 0.5 | 0.5 |
| | 0.5 | 0.5 |
| | 0.5 | 0.5 |
| | 0.5 | 0.5 |
| | 0.5 | 0.5 |
| | 0.5 | 0.5 |
| | 0.5 | 0.5 |
| | 1 | 1 |
| | 0 | 0 |
| | 1 | 0 |
| | 1 | 0 |

(2) 我们可以看到，第一行代表六个条件下的总平均值。选择总平均值作为第一个对比简化了本手稿后面对模型参数的解释（见“模型3：RDSEM”部分）。第二行代表所有Landolt条件下的平均值与所有常规句子条件下的平均值之间的差异。第三行和第四行分别代表一年级到二年级以及二年级到四年级之间Landolt句子和常规句子的平均值差异。最后两行代表我们主要的研究焦点。第五行比较了一年级到二年级之间Landolt句子和常规句子之间的差异，第六行比较了二年级到四年级之间的这种差异。这两行是图1中两个红色条形的数学表示。

假设通常关于对比π的均值和方差做出陈述。为了估计这些均值和方差，我们需要将因变量y表示为对比π的函数。这可以通过解方程并求逆对比矩阵C来实现：(3)
| | 因子 | 年级 | Intercept |
|------------|-----------------|-------------| |
| | Sentence type | Grade | DT1 |
| | | | |
| | | D:T1 | |
| | | | |
| | | D:T2 | |
| | | | |
| | | B? | |
(3) 求逆后的对比矩阵通常称为B?（Langenberg等人，2022年引用），得到的方程如下：(4)
| | yi | = B?πi(TVTL,G1) | TVTS,G1) |
| | | | |
| | | TVTL,G2) | |
| | | | |
| | | TVTL,G4) | |
(4) 我们可以看到，这个方程与带有分类预测因子的常规回归非常相似。然而，这种方法的优点在于它是一种非常灵活且方便的方式，可以将对比指定为因变量实验条件之间的差异。在我们推导出对比之后，现在需要将它们保存在数据文件中。儿童2的结果长格式文件如下：

我们看到了来自同一受试者（“id”等于2）的六行，代表六个实验条件中第一个句子的第一个单词（“word”；单词索引；“trial”）。在三年中，每个孩子都必须阅读41个Landolt句子和常规句子。“sentence”（句子类型：常规 vs. Landolt）和“grade”（年级：1、2或4）代表六个实验条件，它们通过以“c_”开头的六个变量进行编码。这些对比变量是从上述对比矩阵中得出的。“tvt_w”（每个字符的总观看时间对数）代表因变量。“iq”（智商）、“cbcl”（儿童行为检查表，注意力问题得分）和“rd”（阅读难度）是上述的时间不变协变量，“lp”（单词内的着陆位置）是时间变化协变量。现在的数据集已准备好用于后续部分的建模。

### 模型3：ANOVA
以下部分包含了三种能够回答引言中提出的问题的模型。这些模型逐步建立和扩展，以便解决上一节中的研究问题。贝叶斯可信区间以95%的水平报告，反映了后验分布的中心范围。表1列出了三种模型（ANOVA、线性混合模型和RDSEM）的固定效应参数估计值。表2列出了这些模型的随机效应参数估计值。我们首先考虑的是基于L-RM-ANOVA的“简单”ANOVA模型。该模型的动机示例包含一个层次结构，观测值（即单词）嵌套在参与者中。通过在各实验条件下平均观看时间，这一结构将被忽略。这样，每个N=267的参与者将产生六个观察时间值。以下方程表示因变量观看时间作为我们在前一节中创建的六个对比变量和时不变协变量的函数：(5) yi=ν+Λπi+εi(TVTL,G1TVTS,G1TVTL,G2TVTS,G2TVTL,G4TVTS,G4)=(000000)+(1?0.50.6670.333?0.333?0.16710.50.6670.3330.3330.1671?0.5?0.3330.3330.1671?0.5?0.3330.167?0.1670.1671?0.5?0.333?0.6670.1670.33310.5?0.333?0.667?0.167?0.333)(β0,iβD,iβT1,iβT2,iβD:T1,iβD:T2,i)+(000000)(5) (6) πi=α+Γxi+ζi(β0,iβD,iβT1,iβT2,iβD:T1,iβD:T2,i)=(γ00γ10γ20γ30γ40γ50)+(γ01γ02γ03γ11γ12γ13γ21γ22γ23γ31γ32γ33γ41γ42γ43γ51γ52γ53)(IQicCBCLicRDic)+(ζ0,iζ1,iζ2,iζ3,iζ4,iζ5,i)(6) 中的β代表前一节中定义的对比变量。γ是对比变量的均值（即固定效应）。尽管这不是一个多层次方法，我们仍然通过ζ来建模随机效应（即个体间对比/效应的差异）（Rovine & Molenaar, 1998, 2000, 2001; Bauer, 2003），其中Var(ζ)=Ψ是一个对角线元素为τjj的方差-协方差矩阵。在这种表述中，由于在聚合到条件均值后，每个人每个条件只贡献一个观察值，因此不会估计内部水平的残差方差。因此，在这种规定下，残差是不可单独识别的。我们现在更详细地检查一些选定的对比。β0,i是截距，即所有六个条件下的观看时间均值。这种均值在参与者中的平均值（即固定效应）为γ?00=4.69 [4.65,4.72]，括号中的值代表后验分布的95%可信区间。这意味着参与者需要4.69个单位的观看时间（以对数转换后的毫秒为单位）来阅读一个单词，或在原始尺度上为109毫秒。在本文的其余部分，为了简洁起见，我们只讨论对数转换后的结果。参与者之间的平均偏差方差（即随机效应的变异性）为τ?00=0.06 [0.05,0.08]。利用这些值，我们可以通过加上和减去一个标准差来说明儿童之间的观看时间差异。这给出了低于或高于平均水平的参与者的预期观看时间：γ?00±τ?00=4.69±0.25=[4.44,4.94]。主要关注的两个对比是βD:T1,i和βD:T2,i。从一年级到二年级的阅读效率平均变化为γ?40=0.56 [0.49,0.63]，从二年级到四年级的变化为γ?50=0.30 [0.25,0.35]。在ANOVA中，通常会对因子的主效应进行整体假设检验，零假设H0：γ40=γ50=0，意味着从一年级到二年级或从二年级到四年级的阅读效率没有变化。在贝叶斯模型中，我们不能使用F检验来比较两个（或更多）模型参数与零，也不能使用Wald检验或似然比检验。然而，可以基于后验抽样构建一个检验，这在渐近上等同于Wald检验（Asparouhov & Muthén, 2020）。Mplus计算每个参数抽样的中位数和抽样的方差-协方差矩阵。基于这些信息的Wald检验得出χ2(2)=453.24,p<.001，提供了从一年级到二年级或从二年级到四年级阅读效率变化的强烈证据。我们关注的是个体间差异，而不是主效应和交互效应的假设检验。此外，之前的χ2检验在p<.001时是有意义的，并且在ANOVA、LMM和RDSEM之间很可能没有差异。因此，我们将关注对比的方差。从一年级到二年级的变化方差为τ?44=0.18 [0.14,0.24]，从二年级到四年级的变化方差为τ?55=0.11 [0.09,0.14]。按照上述逻辑，低于和高于平均变化的一个标准差分别为γ?40±τ44=[0.14,0.99]和γ?50±τ55=[?0.03,0.63]，说明了低于或高于平均水平的儿童可以预期的发展变化范围。我们可以看到，从二年级到四年级的变化较小。根据先前的理论和研究，这并不令人惊讶，因为我们预计在常规句子中的观看时间会趋于在Landolt句子中的观看时间。我们还可以估计时不变协变量对阅读效率变化的影响。尽管IQ和CBCL没有显著影响，但RD确实有影响。对于患有RD的儿童，阅读效率的变化更大，从一年级到二年级的变化为γ43=0.21 [0.07,0.36]，从二年级到四年级的变化为γ53=0.18 [0.06,0.29]。一个可能的解释是，这些儿童在一年级时阅读常规句子的观看时间本来就较长。这一解释也得到了TVTwi的截距与两个变化变量βD:T1,i和βD:T2,i的相关系数ρ04和ρ05的支持。这两种相关性都是正的，意味着截距较高的儿童（即条件下的平均观看时间）可能会有较大的阅读效率变化。

模型2：混合模型
我们考虑的第二个模型是线性混合模型。为了最大化结果的可比性，还将使用Mplus中的贝叶斯多层次SEM来估计模型。该模型不会在六个条件下聚合测量值，而是使用完整的数据集。这样每个参与者会有496到1,575个观测值（即我们拥有的观测值数量不同）。在Mplus框架中，多层次模型中的斜率（即对比）被建模为潜变量。这些潜变量的均值代表固定效应，而它们的方差代表随机效应的变异性。如前所述，使用多层次SEM比ANOVA模型有几个优势。首先，我们可以获得内部残差方差的估计。其次，我们可以利用协变量来预测斜率（即潜变量）。也就是说，我们估计了协变量对对比的影响（即交互效应）。通过将潜斜率对协变量进行回归，我们还获得了对比的解释方差（即R2）的估计。这是协变量解释了多少个体间对比差异的指标。在多层次SEM框架中，我们必须偏离之前的符号。我们不再使用多元模型，而是使用单变量模型。我们将使用略有不同的符号：(7) TVTwi=β0,i+βD,iCD,wi+βT1,iCT1,wi+βT2,iCT2,wi+βD:T1,iCD:T1,wi+βD:T2,iCD:T2,wi+βLP,iLPwi+φiTVT(w?1)i+εwi (7) (8) β0,i=γ00+γ01IQic+γ02CBCLic+γ03RDic+u0,i (8) (9) βD,i=γ10+γ11IQic+γ12CBCLic+γ13RDic+u1,i (9) (10) βT1,i=γ20+γ21IQic+γ22CBCLic+γ23RDic+u2,i (10) (11) βT2,i=γ30+γ31IQic+γ32CBCLic+γ33RDic+u3,i (11) (12) βD:T1,i=γ40+γ41IQic+γ42CBCLic+γ43RDic+u4,i (12) (13) βD:T2,i=γ50+γ51IQic+γ52CBCLic+γ53RDic+u5,i (13) (14) βLP,i=γ60+u6,i (15) φi=γ80+u8,i (15) 方程(7) TVTwi=β0,i+βD,iCD,wi+βT1,iCT1,wi+βT2,iCT2,wi+βD:T1,iCD:T1,wi+βD:T2,iCD:T2,wi+βLP,iLPwi+φiTVT(w?1)i+εwi (7) 表示儿童i和单词w的观看时间作为之前定义的对比的函数。β代表随机斜率。方程(8) β0,i=γ00+γ01IQic+γ02CBCLic+γ03RDic+u0,i (8) 到方程(15) φi=γ80+u8,i (15) 表示潜斜率。我们可以看到，随机斜率βj,i（即j代表六个对比之一）是截距γjk（固定效应，k∈{0,1,2,3}）、随机效应uj,i和三个时不变协变量的函数。注意，我们实际上并不估计随机效应uj,i（即每个参与者与截距的偏差），而只估计它们的方差τjj。接下来，我们检查两个感兴趣的对比βD:T1,i (方程12) βD:T1,i=γ40+γ41IQic+γ42CBCLic+γ43RDic+u4,i (12) 和 βD:T2,i (方程13) βD:T2,i=γ50+γ51IQic+γ52CBCLic+γ53RDic+u5,i (13)。在方程(12) βD:T1,i=γ40+γ41IQic+γ42CBCLic+γ43RDic+u4,i (12) 中，从一年级到二年级的阅读效率平均变化估计值为γ?40=0.49 [0.43,0.54]，其方差为τ?44=0.13 [0.10,0.16]。在方程(13) βD:T2,i=γ50+γ51IQic+γ52CBCLic+γ53RDic+u5,i (13) 中，从二年级到四年级的阅读效率平均变化估计值为γ?50=0.24 [0.20,0.29]，其方差为τ?55=0.08 [0.06,0.10]。低于和高于平均变化的一个标准差分别为γ??40±τ?44=[0.13,0.84]和γ??50±τ?55=[?0.04,0.52]。此外，多层次模型提供了额外的见解。对比的解释个体间差异（R2）显著降低，R2(βD:T1,i)=0.07 [0.03,0.13] 和 R2(βD:T2,i)=0.05 [0.02,0.12]（结果表中用粗体红色字体表示超过10%的变化）。一个可能的原因是我们现在明确估计了内部残差方差（τ?=0.29 [0.29]），而在ANOVA模型中这部分方差被吸收到了对比的方差中。通过将个体内变异性与个体间变异性分开，随机效应水平的方差减少了，这减少了协变量可以解释的对比间差异的比例。同时，观测水平的结果方差也有很大一部分得到了解释，如R2(TVTwi)=0.40 [0.40,0.40]所示。然而，该模型不允许我们直接检验协变量是否以及如何预测内部残差方差本身——RDSEM将给出答案。

模型3：RDSEM
RDSEM是一种专为分析密集型纵向多层次数据而设计的复杂分析技术，可以追踪观察和潜变量随时间的轨迹（Asparouhov等人，2018年）。如上所述，RDSEM的显著优势包括：(1) 集成时间序列元素，允许自回归影响；(2) 通过多层次建模区分个体间和个体内效应；(3) 采用潜变量框架；(4) 通过贝叶斯估计提高计算可行性；(5) 个体间残差方差的差异；(6) 利用潜群体中心化。与传统的SEM不同，RDSEM是专门为密集型纵向数据集设计的，擅长捕捉不同时间域内变量之间的复杂相互关系，非常适合生态瞬间性和移动性评估数据（例如Trull & Ebner-Priemer, 2014；Conner & Barrett, 2012；Hamaker & Wichers, 2017；Mehl等人，2023）。在本节中，我们将扩展之前的模型，以便回答文章开头定义的问题。特别是，RDSEM模型通过自回归效应进行了扩展，这种效应可以在个体间、时间变化的协变量和个体内残差方差之间变化。每个参与者的观测值数量再次为496到1,575个。
模型方程为：(16) TVTwi=β0,i+βD,iCD,wi+βT1,iCT1,wi+βT2,iCT2,wi+βD:T1,iCD:T1,wi+βD:T2,iCD:T2,wi+βLP,iLPwi+εwi (17) β0,i=γ00+γ01IQic+γ02CBCLic+γ03RDic+u0,i (17) βD,i=γ10+γ11IQic+γ12CBCLic+γ13RDic+u1,i (18) βT1,i=γ20+γ21IQic+γ22CBCLic+γ23RDic+u2,i (19) βT2,i=γ30+γ31IQic+γ32CBCLic+γ33RDic+u3,i (20) βD:T1,i=γ40+γ41IQic+γ42CBCLic+γ43RDic+u4,i (21) βD:T2,i=γ50+γ51IQic+γ52CBCLic+γ53RDic+u5,i (22) βLP,i=γ60+γ61IQic+γ62CBCLic+γ63RDic+u6,i (23) εwi=φiε(w?1)i+δwi (24) σ2(δwi)=?exp?(ω70+ω71IQic+ω72CBCLic+ω73RDic+u7,i) (25) φi=γ80+γ81IQic+γ82CBCLic+γ83RDic+u8,i (26) 尽管后续部分将更详细地讨论这些扩展，但我们想简要强调上述方程中的变化。首先，在方程(16) TVTwi=β0,i+βD,iCD,wi+βT1,iCT1,wi+βT2,iCT2,wi+βD:T1,iCD:T1,wi+βD:T2,iCD:T2,wi+βLP,iLPwi+εwi (16) 中，我们引入了时间变化协变量landing position的βLP,iLPwi（见方程23）。其次，我们将残差表示为前一个单词残差的自回归效应φiε(w?1)i和残差δwi（见方程24 和方程26）。第三，我们将残差方差σ2(δwi)表示为几个协变量的函数，并进一步添加了一个随机效应u7,i（也见方程25）。图2展示了完整的RDSEM，其中彩色框表示三个扩展。图1包括RDSEM在六个实验条件下的模型推断的固定效应和随机效应。
图2. 提出的两级RDSEM的路径图。上部表示内部级别，下部表示外部级别。虚线绿色框包含第一扩展（时间变化协变量）。红色框包含第二扩展，它允许个体内变异性作为簇级协变量的函数。蓝色框包含第三扩展（自回归效应）。从前一个词的残差出发的一个有向箭头穿过一个特定于个体的自回归参数，然后再影响当前词的残差，从而捕捉句子中连续单词之间的序列依赖性。在层级之间：九个潜在变量代表了特定于个体的随机斜率：截距、五个实验对比斜率、着陆位置斜率、对数转换后的个体内残差方差以及自回归参数。每个潜在变量都有一个自我参照的双头箭头，表示其个体间方差。前六个斜率还通过弯曲的双头箭头相互连接，表示它们之间的成对相关性。所有九个潜在变量都从一个常数截距和三个观测到的时间不变协变量（智商、注意力问题（CBCL）和阅读难度（LRS）接收有向箭头。三个模型扩展通过颜色编码的轮廓标出。绿色虚线框包围了着陆位置变量及其在两个层级的斜率，标记了时间变化协变量的扩展。红色点线轮廓包围了个体内层级的残差方差和对数转换后的残差方差及其个体间方差，标记了个体内变异性的扩展。蓝色点划线框包围了两个层级的自回归参数及其个体间方差，标记了自回归效应的扩展。

另一个问题涉及时间结构的指定和处理缺失数据的方法。在Mplus中，使用“时间间隔”选项来定义连续测量之间的距离。这个选项直接影响自回归参数的估计，因为滞后是根据指定的时间间隔来缩放的。然而，它不影响实验对比的估计，因为模型的结构部分与自回归部分是分开的。在我们的应用中使用RDSEM而不是DSEM的一个特别优势在于（见“实验背景下的密集纵向数据的先前模型”部分），因为我们处理的不是物理时间尺度，而是句子中的单词序列。在这种情况下，自回归效应被解释为连续单词之间的依赖性，而不是由固定时间间隔分隔的观测值之间的依赖性。同时，RDSEM框架可以自然地应用于测量之间具有真正基于时间间隔的数据，在这种情况下，自回归效应的解释也会相应改变。关于缺失数据，需要注意的是，缺失问题并不只存在于我们的应用中，而在一般的RDSEM框架中也会出现。在Mplus中，缺失数据被视为在贝叶斯框架内估计的未知参数，这增加了估计参数的数量。潜在的假设是数据是随机缺失的（MAR），这意味着缺失可能取决于观测变量，但并不取决于缺失值本身（Muthén & Muthén, 1998-2017）。这个假设的有效性必须在每个实证应用中仔细评估（Mohan & Pearl, 2021; Potthoff et al., 2006; Enders, 2022）。

对于RDSEM，两个感兴趣的对比的固定效应和随机效应（方程21(21) βD:T1,i=γ40+γ41IQic+γ42CBCLic+γ43RDic+u4,i和方程22(22) βD:T2,i=γ50+γ51IQic+γ52CBCLic+γ53RDic+u5,i）与LMM相比只有轻微的变化。从一年级到二年级的阅读效率平均变化为γ?40=0.61 [0.54,0.69]，其方差为τ?44=0.17 [0.13,0.21]。从二年级到四年级的阅读效率平均变化为γ?50=0.34 [0.29,0.40]，其方差为τ?55=0.11 [0.08,0.14]。平均变化上下一个标准差的范围分别为γ?40±τ?44=[0.21,1.02]（对于一年级到二年级）和γ?50±τ?55=[0.02,0.67]。固定效应和随机效应的点估计值与LMM相比没有实质性变化（表1和表2中的粗体红色字体表示后验中位数变化超过10%）。基于偏差信息准则（DIC）的模型比较表明，RDSEM相对于DSEM有更好的拟合。

时间变化协变量（着陆位置）的第一个扩展回答了初始着陆位置是否影响观看时间的问题。我们通过将时间变化协变量LPwi纳入模型来测试这一点。这在ANOVA方法中是不可行的。这种扩展只能在多层模型中实现，例如LMM和RDSEM。先前的研究表明，熟练的读者倾向于在第一次注视时固定在一个单词的更靠近中心的位置（即使每个单词可能会被多次注视，但只考虑第一次注视；Radach & McConkie, 1998）。因此，我们预计着陆位置将与阅读效率呈正相关。我们还允许儿童之间存在个体间的差异（随机效应）在斜率βLP,i上。斜率的平均值为γ?60=0.16 [0.15,0.17]，其方差为Var(u6,i)=τ?66=0.002 [0.001,0.003]。因为LPwi的范围是从0（中心）到1（边缘），所以平均斜率γ?60=0.16代表了完美居中的注视与单词开始或结束处的注视之间预期的观看时间差异。平均效应上下一个标准差的范围分别为γ?60±τ?66=[0.11,0.20]，这意味着对于一些参与者来说，效应更接近0.11，对于另一些参与者来说，效应更接近0.20。此外，我们可以用R2(βLP,i)=0.09 [0.03,0.19]来计算残差方差中解释的方差量。

残差方差的异质性第二个扩展回答了一些个体特征（即，群组级协变量）是否影响个体内变异性的问题。我们首先将残差分为两部分：一部分可归因于来自前一个词的自回归效应（见下一节），另一部分是剩余的误差项δwi。δwi反过来又是时间不变协变量的函数。我们将使用不同的字母（ω）来指代这些回归系数，因为我们需要应用指数函数（即函数exp(x)=ex，以确保预测的残差方差严格为正），以获得可解释的系数量。残差方差的截距由exp(ω?70=0.30 [0.30,0.31)给出。由于这个方程中的协变量是总体均值中心的，该值可以解释为参与者之间的平均残差方差。虽然智商和CBCL不影响残差方差，但RD确实有影响，表现为exp(ω?73=1.10 [1.04,1.16]。如果从估计值中减去1并乘以100（(1.10?1)×100=10%），我们得到了残差方差的百分比增加。有阅读障碍（RD）的儿童的残差方差将比没有RD的儿童大10%。最后，我们允许残差方差中的随机效应。也就是说，我们正在建模“个体内残差方差中的个体间方差”。这种随机效应可以解释为无法通过协变量解释的个体内残差方差中的个体间差异。随机效应的变异性由Var(u7,i)=τ?77=0.03 [0.02,0.03]给出。这种解释并不简单，因为我们不能直接对这个值应用指数函数。然而，我们可以在将协变量设置为零的情况下（即，将协变量设置为样本平均值），计算出一个标准差高于或低于平均值的人的残差方差：exp(ω?70±τ?77=[0.26,0.35]。我们还可以用exp(τ?77=1.17)来表示个体内残差方差的变化百分比，这意味着如果一个人高于平均水平一个标准差，其个体内残差方差会增加17%。最后，我们可以用R2(σ2(δwi))=0.04 [0.02,0.10)来计算残差方差中解释的方差量。

自回归效应第三个扩展回答了前一个词的观看时间（TVT(w?1)i）是否会影响当前词的阅读。我们可以通过将观看时间的自回归（滞后）效应纳入模型来研究这一点。在Mplus中有两种方法可以建模这种效应。首先，我们可以将前一个词的观看时间进行总体均值中心化，并将其用作预测因子。其次，我们可以估计前一个词的残差（ε(w?1)i，并用它来预测当前词的残差。回想一下，RDSEM与常规DSEM的不同之处在于，自回归效应不是针对因变量本身估计的，而是针对因变量的残差估计的。如果模型中包含时间趋势，RDSEM提供了一种更好的方法。我们没有包含趋势，但我们在本手稿中将使用这种方法，因为它更容易推广到包含此类趋势的模型。相关公式可以在方程(24) εwi=φiε(w?1)i+δwi和方程(26) φi=γ80+γ81IQic+γ82CBCLic+γ83RDic+u8,i中找到。自回归效应的平均值为γ?80=0.16 [0.14,0.17]，其方差为τ?88=0.004 [0.003,0.005]。斜率的方差可以忽略不计，因此我们将重点解释其平均值γ80。如果前一个词的残差超过平均观看时间一个单位，当前词的残差将会大0.16个单位。例如，如果前一个词特别难，孩子们处理这个词花了更长的时间，就可能发生这种情况。记住，观看时间是按照单词的字符数来标准化的。因此，变化观看时间的因素不是单词长度，而是其他因素，如难度或熟悉度。

我们可以通过计算如果前一个词的观看时间高于平均值一个标准差时的预期自回归效应（φiε(w?1)i来进一步改进γ80的解释。对于一个具有平均智商、CBCL和RD的儿童（即，将这些变量设置为零，因为它们是居中的），残差的平均标准差为SD(εwi|IQic=CBCLic=RDic=0)≈0.56。注意，平均自回归效应（即固定效应）是γ?80=0.16。因此，如果前一个词的残差高于平均值一个标准差，当前词的残差将会高0.16·0.56=0.09个单位。最后，我们将自回归效应与前三个时间不变协变量进行了回归分析，这些协变量都没有显著效应。这与自回归效应解释的方差R2(φi)=0.02 [0.003,0.059)较小相符。

本教程的另一个贡献是展示了如何使用后验分布重叠（PDO）来比较不同模型的结果。表1和表2比较了三个模型的结果。PDO通过共享面积的比例来量化两个后验分布的相似性。PDO接近100%表示后验几乎相同，而较小的值则表示中心趋势、不确定性或两者的差异。这一点很重要，因为仅点估计或可信区间可能掩盖了完整分布中的有意义差异。图3可视化了LMM和RDSEM估计的固定效应参数的重叠情况。图3显示了LMM（浅灰色）和RDSEM（深灰色）中固定效应的后验分布。对于每个参数，报告了后验中位数的变化（Δ Median）和分布重叠的百分比（PDO）。顶部行显示了整体截距（delta-Median 1%，PDO 12%）、句子类型效应（delta-Median 36%，PDO 0%）和一年级对比（delta-Median 16%，PDO 7%）。中间行显示了二年级对比（delta-Median 20%，PDO 15%）以及代表从一年级到二年级（delta-Median 27%，PDO 5%）和从二年级到四年级（delta-Median 42%，PDO 5%）的阅读效率变化的两个交互效应对比。底部行显示了着陆位置斜率（delta-Median 2%，PDO 76%）、个体内残差方差截距（仅限于残差动态结构方程模型；后验中位数0.303）和自回归效应（delta-Median 0%，PDO 93%）。捕捉实验对比的参数显示出较大的中位数变化和非常低的分布重叠，句子类型和交互效应对比显示出最明显的差异。相比之下，着陆位置斜率和自回归效应显示出可以忽略的中位数变化和高分布重叠，表明这两个建模框架对于这些参数是一致的。个体内残差方差仅由残差动态结构方程模型估计，因此没有来自线性混合模型的相应分布。

PDO对于应用研究人员来说可能特别有价值，因为它突出了不同的建模选择如何影响参数估计，进而影响分析结果。最终，分析的目的是对发展过程做出实质性陈述，而不仅仅是报告统计显著性。如果两个合理模型之间的PDO（偏差度量）非常低，那么得出的实质性陈述可能会有所不同。例如，一个模型可能表明从一年级到二年级的阅读效率变化很大且非常确定，而另一个模型的后验分布与第一个模型几乎没有重叠。在这种情况下，应用研究人员可能会对发展变化的幅度甚至方向得出不同的结论。从这个意义上说，PDO提供了一个敏感性分析的工具。但它不应用于模型选择。模型选择应该由实质性论据指导，并在有可用性时参考拟合指数。我们注意到RDSEM缺乏许多传统的拟合指数，DIC除外。PDO的实际价值在于它将注意力从p值转移到效应的幅度及其确定性上，这对于实质性解释是重要的。

当从ANOVA（聚合条件均值）转移到LMM（完整数据）时，表格显示几个固定效应有显著差异。这也通过PDO的重叠百分比得到了体现。对于本文中两个核心的发展对比，从一年级到二年级的变化，PDOγ40=24%（βD:T1,i），而从三年级到四年级的变化，PDOγ50=21%（βD:T2,i）。其他固定效应也显示出类似的模式：PDOγ10=14%（βD1,i），PDOγ20=17%（βT1,i），以及PDOγ30=42%（βT2,i）。截距与PDOγ00=83%有更高的重叠。这些值表明，在多层次框架中使用所有观测数据可以显著改变固定效应的发展对比估计，相比之下，结果的总体水平更加稳定。

在RDSEM中引入残差自回归和个人特定残差方差后，固定发展对比的变化进一步加剧。表格显示LMM和RDSEM之间的重叠非常小：PDOγ40=5%和PDOγ50=5%。作为比较，当比较两个样本的均值时，Cohen’s d=0.5相当于在方差相等的情况下大约80%的重叠。这表明均值点估计或确定性存在相当大的差异。如表1（图3）所示，其他几个固定效应在这些模型之间也有较小的重叠（例如，PDOγ10=0%，PDOγ20=7%，PDOγ30=15%），而一些参数显示出更高的稳定性，例如着陆位置斜率（PDOγ60=76%）和自回归效应（PDOγ80=93%（表1））。这种模式表明，建模残差自回归主要改变了固定发展对比，而捕捉局部动态的参数（例如γ60和γ80）在LMM和RDSEM之间更为相似。图3确认了基于表格的结论。使用图中的后验抽样，发展对比的固定效应后验显示出非常小的重叠和显著的中位数变化。对于γ40，我们观察到ΔMedianγ40=27%且PDOγ40≈5%；对于γ50，我们观察到ΔMedianγ50=42%且PDOγ50≈5%。

图4提供了LMM和RDSEM在后验效应大小方面的差异可视化。我们为每个对比j推导出了一个简单的ηp2，定义为ηp2(βj,i) = γj02γj02+τjj，它总结了相对于该对比的总个体间变异性的固定效应大小。

脚注8：根据这个定义，图4显示ηp2(βD:T1,i)的ΔMedian=7%且PDO=58%，而ηp2(βD:T2,i)的ΔMedian=23%且PDO=36%。这些结果清楚地表明，即使两个模型对一个对比都会产生较小的p值，但一旦考虑了完整的后验分布，它们仍然可以产生不同的标准化效应大小。对于应用研究人员来说，这些发现表明关于发展变化大小的陈述对于是否建模残差动态是敏感的。

总结来说，PDO和ΔMedian共同提供了跨建模选择的透明敏感性分析。首先，几个固定效应，特别是发展对比γ40和γ50，在从ANOVA转移到LMM时在幅度上发生了实质性变化，而从LMM转移到RDSEM时变化更大，这一点从图中低PDO值和显著的ΔMedian可以看出。其次，捕捉局部动态的参数（如γ60和γ80）在模型之间显示出高重叠。对于应用研究人员来说，高PDO和小的ΔMedian表明不同的方法支持相同的实质性结论，而低PDO和大的ΔMedian表明实质性结论可能会随着建模方法的不同而改变。因此，PDO应该用于评估不同建模方法下结论的稳健性，而不是用于模型选择。

讨论和结论性评论：本研究展示了RDSEM在实验室环境中收集的密集重复测量数据中的应用，以儿童阅读效率实验为例。之前RDSEM的应用通常集中在生态瞬间评估或日常日记数据上。然而，DSEM和RDSEM都是为密集纵向数据设计的，包括观测间隔很短的情境（例如，秒、分钟或小时）。最近，移动传感方法扩展了密集纵向数据收集的范围，例如通过连续的基于传感器的行为和生理测量（Mehl等人，引用2023年）。我们的研究表明，RDSEM也可以应用于时间间隔为毫秒的实验室实验，突出了该框架在不同时间尺度和应用领域的灵活性。

在分析阅读数据时，ANOVA仅提供了聚合级别的估计，总结了句子类型（Landolt vs. regular）、年级水平及其交互作用对观看时间的影响。ANOVA还提供了个体间差异的估计（即随机效应），通过对比变量的方差来表示。尽管ANOVA检测到了阅读效率的一般趋势和变异性，例如年级间的改进以及儿童之间改进的差异，但它没有考虑个体变异性或连续观测之间的动态关系（例如，前一个词的阅读如何影响当前词的阅读）。通过关注组平均值，ANOVA简化了数据结构，但忽略了潜在重要的个体内过程。此外，ANOVA无法区分个体间差异和残差方差（因为它是单层方法）。

LMM通过区分随机效应的方差和残差方差，改进了ANOVA，从而允许更细致地估计个体差异。这种方法显示，虽然儿童的整体阅读效率随时间有所提高，但每个儿童的提高程度存在显著差异。然而，LMM仍然以一种未能充分捕捉阅读过程复杂性的方式处理数据，特别是在处理时变预测变量和模拟前词对当前阅读行为的影响方面。

RDSEM通过建立LMM估计固定效应和随机效应的能力，并增加了模拟时变协变量和自回归过程的能力，提供了最全面的分析。RDSEM揭示了数据中几个重要的动态特征，这些特征未被其他模型捕捉到。例如，它显示一个孩子阅读某个词的时间受到前一个词难度的影响，突出了自回归效应。这种对词之间时间依赖性的洞察力既未被ANOVA也未被LMM捕捉到。尽管LMM可以建模自回归效应，但RDSEM通过允许在残差之间建模自回归效应而进一步扩展了这一能力。此外，RDSEM还模拟了着陆位置（即孩子首次注视一个词的位置）如何逐词影响观看时间，为分析增加了另一层细节。除了这些发现外，RDSEM还使我们能够探索个体内变异性的个体间差异。有阅读困难的儿童在试验中的阅读表现表现出更大的变异性。这一结果表明，这些儿童的观看时间在词与词之间的波动更大，可能表明他们在维持一致的阅读策略方面存在更大的困难。这些洞察力无法从ANOVA或LMM中获得。

RDSEM的突出之处在于其能够模拟主要效应和交互效应中的随机效应，以及自回归效应和残差方差。正如“实验背景下的密集纵向数据的先前模型”部分所提到的，之前的工作已经探索了在自回归过程中合并随机效应和残差方差的模型。然而，据我们所知，还没有先前的研究将这些特征结合到一个统一的框架中。RDSEM是第一个自然地将所有这些元素——个体间变异性、时变协变量、自回归效应和残差方差——结合在一个综合建模结构中的模型。这种整合允许更深入、更准确地理解个体内的动态过程，对实验数据中的固定效应和随机效应提供了无与伦比的洞察力。尽管原则上LMM也可以扩展以包括自回归误差结构（例如，Chi & Reinsel，引用1989年），但在这种情况下，自回归是直接施加在观测水平上的误差上。相比之下，RDSEM在考虑预测变量后定义了残差之间的自回归，避免了将系统效应与序列依赖性混淆，并同时允许在潜变量框架中建模随机效应。为了使比较透明并在单一统计软件中进行比较，我们在本教程中依赖于Mplus中的标准LMM规范，并强调了RDSEM在建模自回归过程时的额外贡献。

RDSEM的好处远远超出了这个阅读实验。它能够模拟动态过程、时变协变量和个体变异性，使其适用于广泛的实验设置。在认知神经科学中，RDSEM可以模拟通过EEG或fMRI测量的大脑活动在认知任务过程中的演变，捕捉神经响应的个体内波动以及这些波动如何受到先前刺激或任务需求的影响（例如，McCormick & Kievit，引用2023年）。RDSEM允许研究人员以传统方法无法实现的方式捕捉时变因素和个体差异之间的动态相互作用。鉴于这些优势，我们建议研究人员在分析具有这种动态和个性化模式的实验数据时考虑使用RDSEM。RDSEM（以及Mplus）的另一个优点是其处理多变量结果的灵活性。例如，在激励性研究中，如果Landolt和常规句子的残差方差显著不同，可以将它们的观看时间视为单独的变量。尽管当前手稿中没有探讨这种可能性，但它为未来的研究指明了有趣的方向。此外，因变量不需要是连续的，因为Mplus允许包括连续和分类结果。此功能在研究错误率（即二元结果）与观看时间如何相互作用时可能特别有用。在当前的应用中，我们使用了Mplus中的TINTERVAL选项，以确保自回归残差过程不会延续到独立的句子之间。这需要构建一个时间索引变量，在试验之间引入间隔。当检测到这种间隔时，Mplus会在数据中插入一个缺失的时间点。在这个人工时间点，所有时间变异变量都被视为缺失的，并在贝叶斯框架内作为未知量进行估计。这种行为有重要的意义。在标准的DSEM中，滞后关系可能涉及结果和时间变异的预测因子，插入的缺失值不仅会影响自回归参数，还会影响时间变异的协变量。在这种情况下，Mplus会从其后验分布中抽取缺失的协变量值。如果这些协变量代表实验定义的对比，可能会导致它们预期的解释丢失，特别是在指定了滞后预测因子或更高阶滞后的情况下。

相比之下，我们的RDSEM规范使用结果对对比变量的同时回归，并仅在残差层面上建模自回归。TINTERVAL引入的人工时间点中包含结果和所有对比变量的缺失值。由于在这些时间点没有观测数据，它们不会直接影响对比的固定效应的估计。相反，它们只是用来中断句子之间的自回归残差链。因此，所有观测时间点的对比编码保持不变且可解释。这种推理适用于本教程中使用的RDSEM规范，该规范包括结果对对比变量的同时回归和一阶自回归残差过程。当指定了滞后预测因子或更高阶的自回归效应（例如AR(2)或更高）时，TINTERVAL引入的人工时间点可能会以更复杂的方式与动态结构相互作用。在这种情况下，研究人员应验证时间变异预测因子的预期解释是否得到保留。

为了验证这种行为，我们导出了扩展的数据结构，并确认所有插入的行仅包含结果和对比变量的缺失值，而所有观测行保留了它们原有的对比编码。此外，我们在已知参数值下生成了人工数据，并使用相同的TINTERVAL程序估计了RDSEM模型。对于样本量足够大的单个示例，真实生成参数得到了很好的恢复精度。用于生成数据的R代码、手稿中使用的数据集以及Mplus的输入和输出文件都可以在OSF仓库中找到。

未来的研究应该探索在RDSEM中量化实验因素的效果大小。由于层次数据中存在自回归效应和被试内残差方差中的随机效应，这并非易事。此外，模型可以扩展以考虑设计中的多个随机因素，例如认知心理学实验中的刺激物。另一个关键的开发领域是在RDSEM中提供更全面的指导，以指定不同类型的对比，因为对比的选择可以显著影响参数的解释，特别是自回归效应和残差方差。例如，当截距被定义为参考类别而不是总体平均值时，这些效应的解释可能会发生变化，因此在未来的教程中明确这些区别是必要的。另一个有前景的方向是使用RDSEM进行多层次中介分析。例如，在我们的激励研究中，可以测试儿童的智商是否通过他们在单词上的落地位置间接影响阅读效率（智商 → 落地位置 → 总观看时间）。这样的模型将允许研究人员不仅检验稳定个体特征的直接效应，还可以检验它们通过时间变异过程的间接效应。与所有中介分析一样，必须小心排除潜在混淆变量的影响，这是一项具有挑战性的任务（VanderWeele, 2015; MacKinnon, 2008）。最后，一个重要的目标是提供开源软件来估计本文中提出的模型。目前，我们依赖于像Mplus这样的商业软件，尽管代码可以在在线补充材料中找到，但需要Mplus许可证。开源工具将使这些先进的方法技术更广泛地应用于研究社区。已有尝试开发用于建模密集型纵向数据的开源软件，包括brms R包（Bürkner, 2017）和最近的mlts R包（Koslowski等人, 2024），这两个包都依赖于Stan建模语言（Stan开发团队, 2023a, 2023b）。

除了它们的优势之外，LMMs和RDSEMs也依赖于特定的假设，在解释结果时应予以考虑。例如，LMMs假设随机效应呈正态分布且残差具有同方差性，当包含时间变异的预测因子时，结果可能对居中选择敏感。在我们使用Mplus的贝叶斯方法进行的RDSEM分析中，时间变异的预测因子使用潜在的组均值居中来处理。这种方法将每个预测因子分解为个体内成分和潜在的组间成分，从而在模型层面分离了组内和组间效应。与观察到的组均值居中不同，潜在居中方法考虑了簇均值的测量误差，并有助于避免由于簇大小小或不平衡以及数据缺失而产生的偏差。本研究中的对比变量以其原始编码输入，并未进行手动居中。它们的效应在模型的组内层面进行估计，而组间变异性通过潜在分解在组间层面捕获。时间不变的协变量进行了总均值居中，以便于解释截距。

更广泛的文献讨论了在多层次模型中指定和解释分类预测因子时相关的几个问题。例如，对于不平衡的数据，编码方案可能意味着加权与未加权的均值比较，这可能会影响实质性的解释（Cohen等人, 2003）。在多层次设置中，未能正确分离组内和组间成分可能导致混淆或有偏的估计，特别是当簇大小小或不相等时（Enders, 2013; Yaremych等人, 2023）。对于分类预测因子及其与连续变量的交互作用，解释直接取决于所选的编码方案和居中策略（West等人, 1996）。贝叶斯RDSEM中实现的潜在居中框架通过明确建模组内和组间成分并在标准模型假设下处理缺失数据来解决许多这些问题。由于我们的重点是在RDSEM中实现自定义对比，我们将自己限制在当前建模背景下对编码和居中的解释上，并建议读者参考引用的文献以获得更一般的处理。

RDSEM增加了特定于时间序列建模的额外假设。特别是，RDSEM假设平稳性，即自回归效应随时间保持不变，以及同方差性，即创新方差在时间和实验条件下保持不变。在我们的应用中，这意味着实验操作被建模为仅影响结果的均值层面，而不影响时间动态或残差方差。然而，条件也可能影响这些方面，如果在所有条件下强制等同，则会违反这些假设。解决这一限制的一个可能扩展是制定一个多元RDSEM，其中每个实验条件都表示为一个单独的变量。在每个条件内仍然假设平稳性和同方差性，但可以允许残差方差或自回归效应等参数在条件间有所不同，而其他参数可以保持相等。这种方法将放宽跨条件的约束，并为捕获特定于条件的动态提供更灵活的框架。

总之，RDSEM相比传统的ANOVA和LMM具有显著的优势。通过捕捉个体内动态和个体间变异性，RDSEM提供了对实验数据更深层次和更全面的理解，使其成为各个领域研究人员的强大工具。

文章信息：每位作者都签署了披露潜在利益冲突的表格。没有作者报告与所描述的工作有关的任何财务或其他利益冲突。

伦理原则：作者确认在准备这项工作中遵循了专业的伦理指南。这些指南包括从人类参与者那里获得知情同意，保持对人类或动物参与者的伦理对待和尊重他们的权利，以及确保参与者和他们数据的隐私，例如确保在报告的结果或公开可用的原始或存档数据中无法识别个别参与者。

资助：这项工作得到了德国研究基金会（DFG）的Grant MA 7702/1-2和来自国家酒精滥用与酒精中毒研究所（NIAAA, NIH）的Pathway to Independence Award R00AA030052（PI: McCabe）的支持。

资助者/赞助者的作用：这项研究的任何资助者或赞助者在研究的设计和实施；数据的收集、管理、分析和解释；手稿的准备、审查或批准；或决定提交手稿发表方面都没有任何作用。

致谢：本手稿中表达的观点和意见仅代表作者本人，不应推断出作者所在机构或资助机构的认可。

补充材料：Certifications 25-062.R2 Langenberg.docx（下载MS Word（14.8 KB）

热点排行