验证一种基于游戏化的尺寸感知任务，以识别儿童的认知特征：对执行功能和感觉测量指标进行的潜在特征分析

《Frontiers in Psychology》：Validating a gamified size perception task for identifying cognitive profiles in children: a latent profile analysis of executive function and sensory measures

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Psychology 2.9

编辑推荐：

　　**摘要** **引言**：尺寸感知是一项基本的视觉空间技能，支持儿童的日常功能和学术学习。传统的以变量为中心的方法往往忽视了认知策略的异质性，尤其是在有神经发育障碍的儿童中。 **方法**：本研究选取了652名儿童（541名正常发育儿童，58名自闭症谱系障碍儿童，53名全面

　　**摘要**

**引言**：尺寸感知是一项基本的视觉空间技能，支持儿童的日常功能和学术学习。传统的以变量为中心的方法往往忽视了认知策略的异质性，尤其是在有神经发育障碍的儿童中。

**方法**：本研究选取了652名儿童（541名正常发育儿童，58名自闭症谱系障碍儿童，53名全面发育迟缓儿童）作为跨诊断样本，他们完成了一项包含九个难度的游戏化尺寸感知任务，并接受了执行功能、错觉敏感性和感觉整合的标准化评估。对于外部认知和感觉变量，我们应用了潜在剖面分析（LPA）方法；确认性因素分析（CFA）用于检验任务的因子结构。通过剖面内的配对t检验（Bonferroni校正）来检测潜在因素之间的差异。接收者操作特征（ROC）分析用于评估筛查的准确性。

**结果**：LPA分析得出了三种稳定的认知类型：低认知-感觉型（n = 108）、中认知型（n = 373）和高认知型（n = 171）。CFA分析确定了三个潜在因子：基本视觉辨别、序列视觉工作记忆和感知冲突控制。剖面内的比较显示，高认知型在两个需要执行功能的因素上得分显著高于基本视觉辨别因素（p < 0.001），而在其他两种类型中未观察到这种差异。ROC分析显示，该游戏化任务在识别高风险低认知-感觉型儿童方面具有出色的区分能力（曲线下面积=0.92，敏感性=85.2%，特异性=85.5%）。

**讨论**：不同的认知类型采用不同的策略：高认知型在任务要求高时能灵活调动执行资源，而其他类型则无论任务复杂性如何都依赖于基本的感知处理。这项游戏化任务简洁、有趣，适合大规模筛查。这些发现支持以个体为中心的方法来评估认知异质性，并突显了游戏化评估在早期识别有认知困难风险儿童方面的实用性。

**1 引言**
儿童在日常生活中不断需要准确的尺寸感知能力来做出决策：比如选择两个物体中较大的那个、将积木放入相应的孔中或书写时保持空间边界。尺寸感知——即能够在观察距离、环境和视网膜图像大小变化的情况下准确判断物体尺寸的能力——是一项基本的视觉空间技能，对日常功能和学术学习都有重要支持（Cantlon, 2020; Gunderson et al., 2012）。它使儿童能够调整握持物体的方式，在游戏中协调动作，以及在不平坦的地形中导航。在课堂上，熟练的尺寸感知能力有助于书写清晰和数学推理，包括数量比较、图表解读以及建立强大的数-空间关联（Kaiser et al., 2015; Gunderson et al., 2012）。相反，这种基本感知能力的缺乏与适应性行为、学术自信和社会参与方面的问题有关，可能导致长期的学习和社会挑战（Vicari et al., 2006; Ghisi et al., 2016）。

尽管尺寸感知在临床和教育上具有重要意义，但相关研究主要采用以变量为中心的方法——相关性分析、回归分析和组平均值比较——这些方法假设诊断类别内部具有同质性。这些方法旨在揭示变量之间的线性关系，并描述人群中的“平均”儿童（Muthén, 2001）。然而，它们隐含了一个关键的限制：它们忽略了可能存在 Qualitatively different cognitive strategies 或表现出不同优势和劣势模式的潜在子群体（Feczko et al., 2019; Pennington, 2006）。以变量为中心的分析可能会得出“工作记忆预测尺寸感知准确性”的结论，但并未意识到这种关系仅适用于部分儿童，而另一部分儿童可能主要依赖感觉策略，还有一部分儿童则没有系统性的关联。这种被称为“生态谬误”的问题意味着，能够准确描述平均儿童的模型可能无法描述任何个别儿童（Garon et al., 2008）。在自闭症谱系障碍（ASD）和全面发育迟缓（GDD）等神经发育障碍中，个体间和个体内的差异是普遍现象（Happé and Frith, 2020; Lord et al., 2020）。一个ASD儿童可能在局部处理能力上较强，但在整体整合能力上较弱；另一个相同诊断的儿童则可能表现出相反的情况（Mottron, 2021）。GDD儿童具有广泛的病因和复杂的认知障碍模式（Shevell, 2015）。将ASD儿童和正常发育儿童进行群体比较会掩盖这种异质性。此外，以变量为中心的方法无法识别那些虽然没有正式诊断但仍表现出特定感知认知困难且可能需要针对性支持的正常发育儿童。

**2 方法**
基于特定的理论依据，预计执行功能与尺寸感知表现之间存在关联。工作记忆在多次试验之间或单次试验内主动维持和比较多个尺寸表示时是必需的。在判断现实世界的尺寸时，需要抑制控制能力来排除误导性的视网膜图像信息，尤其是在尺寸恒常性错觉任务中，物理上较大的物体在屏幕上可能显得较小。认知灵活性支持在不同任务规则之间切换，例如从“屏幕上哪个更大”转换为“现实中哪个更大”。因此，这些执行成分的个体差异应系统地影响尺寸感知任务的表现，尤其是在要求高认知负荷的复杂任务中。

**1.1 以个体为中心的替代方法**
一种强大的替代方法是潜在剖面分析（LPA），这是一种基于个体在多个连续指标上的反应模式将其分类为同质子群体的有限混合建模技术（Berlin et al., 2014; Lubke and Muthén, 2005）。LPA不是问“变量之间如何相关”，而是问“这个异质样本是否由表现出相似表现模式的较小潜在子群体组成？”这种以个体为中心的方法在执行功能（EF）研究中得到了广泛应用。最近的研究表明，儿童表现出质的不同EF类型，而不是沿着单一连续体分布。例如，Brandt在1657名儿童样本中识别出四种EF类型，这些类型后来预测了他们的自我调节能力（Brandt et al., 2024）。Chaku在11,672名青少年中发现了四种有意义的EF类型，这些类型可以预测一年后的外化问题和内化问题（Chaku et al., 2022）。Vaidya通过数据驱动的方法识别了TD、ADHD和ASD中的EF亚型，发现神经生物学参与度比DSM诊断更能区分这些亚型（Vaidya et al., 2020）。最近的一项系统评价和 meta-analysis（Sadozai et al., 2024）得出结论，EF延迟是神经发育障碍的一个稳健的跨诊断特征，效应量适中（Hedges's g = 0.56），并且随着共病情况的增加而增大（Hedges's g = 0.72）。这些发现表明，可以跨越诊断边界识别出具有临床意义的信息丰富认知类型。

基于这些进展，本研究将以个体为中心的方法扩展到感知决策领域——特别是尺寸感知。据我们所知，还没有研究使用LPA来推导出跨越诊断边界的尺寸感知认知表型。

**1.2 对可扩展且吸引人的评估工具的需求**
另一个实际问题是，传统的EF或感知测试通常需要经过培训的管理者，耗时较长，并且可能无法吸引年幼儿童，尤其是那些存在注意力或感觉困难的儿童。这限制了它们在学校或社区环境中进行大规模筛查的实用性。游戏化评估——以触摸屏游戏形式出现的计算机化任务——提供了一个有前景的解决方案。它们简洁、具有内在动机性，且无需专门培训即可实施（Aneni et al., 2023）。然而，到目前为止，还没有任何游戏化尺寸感知任务经过跨诊断样本的独立认知和感觉测量的验证。目前尚不清楚这类任务是否测量了不同的认知过程（例如，工作记忆负荷与冲突控制），或者它是否可以作为识别有认知困难风险儿童的有效初步筛查工具。

**2. 本研究**
为了解决这些不足，我们招募了652名儿童（541名正常发育儿童，58名ASD儿童，53名GDD儿童）作为跨诊断样本。所有儿童完成了一个包含九个难度递增级别的游戏化尺寸感知任务，从基本感知比较到复杂的现实世界尺寸判断，这些判断会在视网膜图像大小和语义知识之间产生冲突。我们还收集了执行功能（包括工作记忆、抑制控制和认知灵活性）、视觉尺寸恒常性错觉敏感性和感觉整合的标准化测量结果。关键的是，我们不是对任务表现本身（可能只反映了难度梯度）应用LPA，而是对外部认知和感觉变量（EF分数、错觉分数和感觉整合子量表）进行LPA分析，以得出数据驱动的认知表型。然后，我们通过检查他们在游戏化尺寸感知任务上的表现来验证这些表型。这种两步方法直接回应了仅基于任务本身的LPA可能只能捕捉到单一连续能力梯度而非不同认知策略的担忧。

我们提出了三个研究问题：(1) 外部认知和感觉测量在跨诊断样本儿童中是否能产生稳定、可解释的认知类型？(2) 这些类型在涉及工作记忆和冲突控制的复杂任务级别上是否存在系统差异？(3) 游戏化尺寸感知任务能否作为识别高风险认知类型儿童的准确筛查工具？

我们假设：(1) LPA将识别出跨越诊断边界的多种不同认知类型，从而证明跨诊断、以个体为中心的方法的价值；(2) EF能力较差的类型在复杂任务级别上的表现会更差，这支持EF作为保护因素的作用；(3) 游戏化任务对表现较差的类型的筛查准确性非常高（AUC > 0.90），这支持其作为实用初步筛查工具的效用。

**结论**
LPA分析确定了三种稳定的认知类型，这证明了跨诊断、以个体为中心的方法的价值。游戏化尺寸感知任务在识别有认知困难风险儿童方面表现出优异的准确性，显示出其作为实用初步筛查工具的实用性。**指令**：“在现实生活中哪一个更大？”（级别8）或“在现实生活中哪一个最大/最小？”（级别9）。对于每个子测试，正确响应的准确率（正确答案的百分比）和平均反应时间（以秒为单位）都被记录为主要的因变量。

**2.2.2 执行功能评估**

- **抑制控制**：使用“头部-脚-膝盖-肩膀”（HTKS）任务进行评估（Fernandes等人，2023年）。该任务包括20个项目，每个项目的得分为0-2分（总分0-40分），得分越高表示抑制控制能力越强（α = 0.90）。
- **工作记忆**：通过正向和反向数字扩展任务进行评估（Pineau等人，2019年）。如果在给定序列长度连续两次失败，则停止测试。每个任务的最大得分为16分。
- **认知灵活性**：使用“维度变化卡片分类任务”进行测量（Mengxia，2024年），该任务要求儿童根据变化的规则对卡片进行分类。任务包含24次尝试，每次正确分类得1分（总分0-24分）。

**2.2.3 视觉大小恒常性错觉**

参与者观看了三组图像，这些图像中的图形在物理大小上相同，但由于呈现的空间背景不同而产生了大小上的错觉差异。儿童需要判断这些图形的大小是否相等。根据抵抗错觉的难度，得分范围从1到3分（得分越高表示越容易受到错觉的影响）。

**2.2.4 感觉统合评分量表**

使用《儿童感觉统合能力发展评分量表》（van Sassen等人，2025年），该量表包含58个项目，并在五点频率量表上进行评分。该量表为六个领域提供T分数（M = 50，SD = 10）：S1（感觉辨别功能障碍）、S2（神经生理抑制困难）、S3（空间和形态感知障碍）、S4（发育性运动协调障碍）、S5（重力不安全感）和S6（触觉防御性和气质敏感性）。

**2.3 统计分析**

所有分析均使用Mplus（版本8.3）、R软件（版本4.2.3）和Graphpad（版本10.0）进行。数据分析分为四个阶段：
- **阶段1**—对外部变量的潜在剖面分析（LPA）（Berlin等人，2014年）。我们使用了三个执行功能得分、错觉得分和六个感觉统合子量表作为指标。估计了具有1-5个剖面的模型（mclust，VVI）。通过贝叶斯信息准则（BIC）、Lo-Mendell-Rubin调整的似然比检验（LMR-LRT）、自助法似然比检验（BLRT）和熵（Enders，2006年）来确定最佳剖面数量。对于模型拟合评估，熵值>0.80表示分类准确度良好（Celeux和Soromenho，1996年）。对于ROC分析，AUC值的解释如下：0.90–1.00 = 优秀，0.80–0.90 = 良好，0.70–0.80 = 一般（Hosmer等人，2013年）。自助法重采样（500次迭代）用于评估稳定性。最终解决方案包含三个剖面。
- **阶段2**— 在大小感知任务上比较各剖面。单因素方差分析（ONEWAY ANOVAs）比较了三个剖面在每个子测试中的准确性。比较各个子任务中剖面的九个ANOVAs（acc1-acc9）是探索性的；为了减少I型错误，这些比较采用了保守的α = 0.01。主要的验证分析包括因子水平ANOVAs和剖面内的配对t检验：因子ANOVAs涉及三个比较，每个剖面的配对t检验涉及三个比较。后者应用了Bonferroni校正（α = 0.0167）。报告了效应大小（η2）。所有任务都进行了事后比较（Tukey HSD）（Faul等人，2009年）。
- **阶段3**— 敏感性分析（ANCOVA）。为了控制潜在的混杂因素，我们重复了比较，将年龄、发育年龄（DA）和诊断组（疾病）作为协变量，并报告了剖面因子的部分η2。
- **阶段4**— 临床实用性和筛查准确性。我们使用卡方检验和Cramér's V检查了不同剖面中的诊断组分布。然后我们进行了接收者操作特征（ROC）分析，以评估任务识别高风险剖面（低认知-感官；Robin等人，2011年）的能力。预测变量是复杂任务上的平均准确率（级别3–9）。计算了曲线下面积（AUC）、最佳临界值（Youden指数）、敏感性和特异性。

**额外有效性证据**：

对九个准确率得分进行了验证性因子分析（CFA；Brown，2015年），以测试三因子结构（基本视觉辨别：acc1–2；序列视觉工作记忆：acc3,5,6,7；感知冲突控制：acc8,9）。使用CFI、TLI、RMSEA和SRMR评估了模型拟合度。计算了在控制年龄、发育年龄（DA）和诊断组的情况下，每个子测试与执行功能测量之间的部分相关性。缺失数据可以忽略不计（< 3％）。为了完整性，使用仅包含任务准确率的探索性LPA进行了一项分析，但结果不稳定（自助法从未选择四剖面解决方案）；其结果在补充材料中。

**3 结果**

**3.1 基于外部测量的三个认知剖面**

为了探讨是否存在超出诊断标签的独特认知剖面，我们使用了执行功能、错觉敏感性和感觉统合测量进行了LPA。估计了具有1-5个剖面的模型。表1A展示了1-4个剖面解决方案的拟合指数和自助法稳定性。基于最低的BIC、显著的LMR-LRT（p < 0.001）和BLRT（p < 0.001）以及高熵（0.92），选择了三个剖面的解决方案。自助法重采样（500次迭代）在71.2％的样本中选择了三个剖面的解决方案，确认了其稳定性。表1B展示了每个剖面在指标变量上的样本数量和平均得分，图2显示了标准化平均得分。

**表1A**
| 剖面 | AIC | BIC | aBIC | Entropy | LMR_LRT_p | BLRT_p |
| --- | --- | --- | --- | --- | --- |
| 3-剖面 | 39.54 | 22.34 | 7.06 | 17.73 | 5.95 | 71.2% |
| 2-剖面 | 19.59 | 28.31 | 19.75 | 8.61 | 7.15 | 6.81 |
| 1-剖面 | 18.71 | 16.85 | 18.94 | 0.85 | 7.15 | 6.81 |
| | 17.41 | 11.09 | 17.69 | 3.33 | 17.10 | 6.13 |

**表1B**
| 剖面 | 低认知感官 | 中等认知 | 高认知 |
| --- | --- | --- | --- |
| 年龄（个月） | 86.1 ± 19.5 | 52.7 ± 13.1 | 50.0 ± 12.2 |
| TD（百分比） | 49.1% | 44.5% | 50.9% |
| ASD（百分比） | 50.0% | 49.1% | 0.0% |
| GDD（百分比） | 0.9% | 0.0% | 0.0% |
| DA（个月） | 52.7 ± 13.1 | 50.0 ± 10.5 | 52.7 ± 12.2 |
| DQ | 33.1 ± 12.2 | 5.2 ± 9.1 | 10.0 ± 6.7 |
| WM | 4.5 ± 2.0 | 5.9 ± 2.2 | 10.3 ± 2.8 |
| IC | 7.7 ± 5.1 | 7.4 ± 6.3 | 4.4 ± 8.0 |
| FLE | 5.8 ± 3.3 | 11.4 ± 5.5 | 19.8 ± 3.5 |
| Visual | 2.2 ± 0.7 | 1.7 ± 0.8 | 2.4 ± 0.7 |
| S1（感觉辨别） | 26.3 ± 6.4 | 52.1 ± 1.9 | 52.1 ± 2.2 |
| S2（神经生理抑制） | 35.2 ± 9.2 | 21.7 ± 2.0 | 17.7 ± 1.9 |
| S3（空间/形态感知） | 37.1 ± 10.8 | 20.0 ± 2.0 | 19.8 ± 2.0 |
| S4（运动协调） | 29.1 ± 6.5 | 20.0 ± 2.1 | 21.5 ± 2.1 |
| S5（重力不安全感） | 19.8 ± 6.0 | 20.0 ± 2.0 | 20.0 ± 2.0 |
| S6（触觉防御性） | 31.6 ± 6.1 | 20.0 ± 2.0 | 20.0 ± 2.0 |

**三个认知剖面的特征（平均值±标准差或百分比）**
数据为平均值±标准差或百分比。
p值来自单因素方差分析（连续变量）或卡方检验（分类变量）。
对于诊断组（TD、ASD和GDD），p值来自总体卡方检验 [χ2(4) = 618, p < 0.001]。
DA：发育年龄（个月）；DQ：发育商；WM：工作记忆；IC：抑制控制；FLE：认知灵活性；Visual：视觉大小恒常性错觉得分（范围1–3，得分越高表示越容易受到错觉的影响）。
S1–S6为T分数（平均值50，标准差10）。

**图2**
三个认知剖面在执行功能、错觉敏感性和感觉统合测量上的标准化平均得分（z分数）。线图显示了三个剖面在WM、IC、FLE、Visual和S1–S6上的标准化平均值（z分数）。误差条表示标准误差。零处的虚线水平线表示总体平均值。剖面1（低认知-感官）在执行功能测量上的得分始终低于平均值，剖面3（高认知）高于平均值，而剖面2介于两者之间。所有变量都基于全样本的平均值和标准差转换为z分数。

**剖面1（低认知-感官，n = 108）** 在所有执行功能测量上的得分都非常低，感觉统合也低于正常水平（S1–S6的平均值分别为26–37）。例如，其抑制控制（IC）得分为7.7 ± 5.1，而剖面3为44.4 ± 8.0，剖面2为7.4 ± 6.3。剖面2（中等认知，n = 373）表现出中等程度的执行功能水平和正常的感觉统合（平均值约为52）。其工作记忆（WM）和认知灵活性（FLE）得分高于剖面1但低于剖面3。剖面3（高认知，n = 171）表现出高执行功能（尤其是抑制控制）和正常的感觉统合。例如，其WM得分达到10.3 ± 2.8，大约是剖面2（5.9 ± 2.2）的两倍，是剖面1（4.5 ± 2.0）的两倍多。这三个剖面直接回答了第一个研究问题：存在在认知和感觉处理方面存在系统差异的独特认知表型。

**表1B中的几种模式值得特别说明。** 首先，剖面1和2在工作记忆（4.5 ± 2.0 vs. 5.9 ± 2.2）和抑制控制（7.7 ± 5.1 vs. 7.4 ± 6.3）方面表现出相似的水平，而认知灵活性在三个剖面之间呈现出明显的梯度（5.8 ± 3.3 → 11.4 ± 5.5 → 19.8 ± 3.5）。这表明认知灵活性可能特别容易受到大小感知任务的认知需求的影响。其次，高认知剖面（剖面3）的错觉敏感性得分最高（2.4 ± 0.7），与低认知-感官剖面（2.2 ± 0.7）相当，但在所有复杂任务中的表现都最好。这种模式表明，强大的执行功能，特别是工作记忆，可能作为一种保护因素，可以补偿可能具有误导性的视觉输入（见第4.4节）。

**敏感性分析：调整发育年龄**：为了检查剖面归属是否受发育年龄的影响，我们使用调整后的执行功能得分（即EF得分回归发育年龄）重新进行了LPA。得到的三个剖面解决方案与原始解决方案高度一致（调整后的Rand指数 = 0.904），剖面大小仅有轻微变化（低认知-感官：n = 108，中等认知：n = 380，高认知：n = 164）。这表明原始LPA结果对发育年龄的调整是稳健的。详细结果见补充表S1。

**3.2 潜在因素水平上的大小感知表现差异**

为了减少比较次数并测试不同的认知剖面是否采用质量不同的策略，我们比较了CFA得出的三个因子得分（基本视觉辨别、序列视觉工作记忆、感知冲突控制）在三个剖面上的表现。单因素方差分析显示三个剖面在所有三个因子上都有显著差异（所有p < 0.001），序列视觉工作记忆的效应大小最大 [F(2, 649) = 196.6, η2 = 0.38] 和感知冲突控制 [F(2, 649) = 176.4, η2 = 0.35]，基本视觉辨别的效果略小 [F(2, 649) = 152.7, η2 = 0.32]。事后比较（Tukey HSD）确认高认知剖面在所有因子上的表现都优于其他两个剖面，中等认知剖面优于低认知-感官剖面（所有p < 0.001）。关键的是，为了检查剖面在因子上的表现模式是否存在差异，我们在每个剖面内部进行了配对t检验，并应用了Bonferroni校正（α = 0.0167）。如图3所示，高认知剖面在两个执行要求较高的因子（序列视觉工作记忆和感知冲突控制）上的得分显著高于基本视觉辨别（所有p < 0.001）。相比之下，在低认知-感官或中等认知剖面内，三个因子之间没有显著差异（所有p > 0.017）。这种差异表明，高认知剖面在任务需求增加时能够灵活地调动执行资源，而其他剖面主要依赖于基本的感知处理，不论任务的复杂性如何。每个剖面的平均因子得分以及剖面内的配对t检验结果（Bonferroni校正）见表2。为了完整性，原始的个别子任务分析（acc1-acc9）见补充材料（补充图S1，补充表S2）。这些探索性分析显示出剖面之间的普遍相似模式，这与难度梯度一致；然而，潜在因素分析提供了更直接的证据来证明策略差异。

**图3**
三个认知剖面在三个潜在因子（基本视觉辨别、序列视觉工作记忆和感知冲突控制）上的平均因子得分（z标准化）。误差条表示标准误差。p < 0.001（高认知剖面内的配对t检验，α = 0.0167）：基本视觉辨别与序列视觉工作记忆（上水平线）和基本视觉辨别与感知冲突控制（下水平线）之间的比较。在低认知-感官或中等认知剖面内，三个因子之间没有显著差异（所有p > 0.017）。这些结果表明，高认知能力类型在任务需求增加时会选择性地调动执行资源，而另外两种类型则无论任务复杂度如何，都依赖于基本的感知处理。表2显示了不同认知类型之间的均值、标准差和比较结果。

| 类型 | 因素 | 均值 | 标准差 | 差异 | CI_95% | Bonfardo显著性 |
|---------------|-------------|------------|------------|-----------|-------------|
| 低认知-感官（n=108） | BasicVis | 0.07 | (1.02) | -0.04,0.18 | 0.651 |
| | SeqWM | 0.00 | (0.98) | -0.11,0.14 | 1 |
| | Conflict | 0.01 | (0.95) | -0.06,0.00 | 0.156 |
| 中等认知（n=380） | BasicVis | 0.03 | (0.99) | 0.00, 0.11 | 0.222 |
| | SeqWM | -0.02 | (0.97) | 0.00, 0.13 | 0.147 |
| | Conflict | -0.01 | (0.96) | -0.01,0.04 | 0.756 |
| 高认知（n=164） | BasicVis | -0.20 | (0.95) | -0.16, -0.10 | <0.001 |
| | SeqWM | -0.03 | (0.99) | -0.25, -0.08 | <0.001 |
| | Conflict | -0.03 | (0.99) | -0.04, 0.04 | 1 |

注：表中的p值表示在Bonfardo校正后的显著性（α = 0.0167）。**

3.3 敏感性分析：控制年龄、发育年龄（DA）和诊断组的ANCOVA
为了排除认知类型差异仅仅是由于人口统计或临床变量造成的可能性，我们进行了控制这些变量的ANCOVA分析。表3显示，在控制这些因素后，所有九个子测试的类型主效应仍然非常显著（所有p < 0.001）。类型因素在复杂任务上的部分η2值介于0.20到0.41之间，表明这些类型解释了超出协变量部分的显著方差。这种稳健性证实了观察到的类型差异不是由年龄、发育水平或诊断造成的，而是反映了真实的认知异质性。

3.4 诊断组在认知类型中的分布
我们通过分析TD、ASD和GDD儿童在三种类型中的分布来检验这些类型的临床相关性（表4）。低认知-感官类型几乎完全由ASD（50.0%）和GDD（49.1%）儿童组成，只有0.9%的TD儿童属于这一类型。相反，93.1%的ASD儿童和100%的GDD儿童被归类为中等认知类型。高认知类型则主要由TD儿童组成（分别占98.9%和100%）。这种关联非常强烈[χ2(4) = 618, p < 0.001, Cramér's V = 0.69]。这一结果直接回答了第三个研究问题：这些类型在临床上是有意义的，并且能够识别出最需要干预的儿童，无论他们的正式诊断是什么。

3.5 游戏化大小感知任务的筛查准确性
为了评估该任务作为筛查工具的实际效用，我们使用复杂任务（第3-9级）的平均准确率进行了ROC分析，以识别高风险的低认知-感官类型儿童。图4显示了ROC曲线，曲线下方面积（AUC）为0.92（95%置信区间[0.897, 0.944]），表明其具有出色的区分能力。最佳临界值为46.4%的正确率，灵敏度为85.2%，特异性为85.5%（表5）。这意味着该任务能正确识别出超过85%的高风险儿童，同时也能正确排除超过85%的低风险儿童。这些发现直接回答了第四个研究问题：游戏化大小感知任务可以作为学龄前儿童认知困难的有效且准确的初步筛查工具。

3.6 额外有效性证据（补充材料）
为了进一步支持该任务的构念有效性，我们对九个准确率分数进行了确认性因子分析（CFA）。三因素模型（基本视觉辨别：acc1–2；序列视觉工作记忆：acc3,5,6,7；感知冲突控制：acc8,9）的拟合度良好：χ2(17) = 172.14, p < 0.001；CFI = 0.959；TLI = 0.933；RMSEA = 0.118（90%置信区间[0.102, 0.134]）；标准化因子载荷范围为0.715至0.949（所有p < 0.001）。CFA确认该任务测量的是三个相关但不同的认知过程，而不是单一的难度梯度。

4.1 三种类型的理论和临床意义
这三种类型是由外部认知和感觉变量推断出来的，而不仅仅基于任务表现。低认知-感官类型的儿童在所有执行功能上存在显著缺陷，感觉整合能力也明显低于正常水平；因此他们在大小感知任务上的表现较差，尤其是在需要工作记忆和冲突控制的任务上。中等认知类型的儿童执行功能处于中等水平，感觉整合正常，任务表现也中等。高认知类型的儿童在执行功能（特别是抑制控制）上表现强烈，感觉整合正常，在所有复杂任务上表现最佳。

4.2 任务难度的区分与认知策略
研究结果表明，游戏化大小感知任务捕捉到的不仅仅是一个单一的难度梯度，而是不同的认知过程，这些过程根据个体的认知类型而有所不同。通过将分析重点从九个单独的子测试转移到基于确认性因子分析得出的三个潜在因素上，我们减少了比较的数量，并测试了不同类型是否使用不同的策略。关键的观察结果是：高认知类型在两个需要高执行能力的因素（序列视觉工作记忆和感知冲突控制）上的因子得分显著高于基本视觉辨别得分，而低认知-感官和中等认知类型内部没有这样的差异。这直接支持了不同认知类型采用不同策略的假设。高认知类型能够在任务需求增加时灵活地调动执行资源，而其他类型则无论任务复杂度如何都依赖于基本的感知处理。这种解释与认知负荷理论（Sweller, 1988）和感知学习理论（Goldstone, 1998）一致。简单的感知比较通过重复练习自动化，只需要最少的执行控制；因此，所有类型在基本视觉辨别因素上的表现相似。相比之下，需要主动维持和操作多重大小表征的任务（序列视觉工作记忆）或抑制误导性视网膜图像信息（感知冲突控制）会带来较高的认知负荷。只有拥有足够执行能力的个体（即高认知类型）才能成功调动工作记忆和抑制控制来满足这些需求。

4.3 讨论
本研究使用了652名儿童的跨诊断样本，研究从执行功能、视觉错觉敏感性和感觉整合测量中得出的认知类型是否可以通过游戏化大小感知任务的表现来验证。分析识别出三种稳定且具有临床意义的类型——低认知-感官（n=108）、中等认知（n=373）和高认知（n=171）——它们在认知-感官特征和任务表现上存在系统性的差异。重要的是，大小感知任务本身在识别高风险儿童方面表现出出色的筛查准确性（AUC = 0.92），支持其作为实用初步筛查工具的效用。

4.4 三种类型的理论和临床意义
这三种类型是基于外部认知和感觉变量得出的，而不仅仅基于任务表现。低认知-感官类型的儿童在所有执行功能上存在严重缺陷，感觉整合能力也明显低于正常水平；因此他们在大小感知任务上的表现较差。中等认知类型的执行功能处于中等水平，感觉整合正常，任务表现也中等。高认知类型的儿童在执行功能（尤其是抑制控制）上表现出色，感觉整合正常，在所有复杂任务上表现最佳。这些类型中几乎所有ASD（93.1%）和GDD（100%）儿童都属于低认知-感官类型，而TD儿童则主要属于中等或高认知类型。这一发现与最近的系统综述和元分析结果一致（Sadozai等人，2024年），该研究显示执行功能延迟是神经发育障碍（NDCs）中的一个普遍特征，相对于典型发展儿童，NDCs的效应量为g = 0.56，在存在共病情况时效应量更大（g = 0.72）。该综述还指出，ASD儿童在任务转换能力上存在特殊缺陷，这与我们低认知-感官类型中观察到的极低认知灵活性得分（5.8 ± 3.3）相符。少数TD儿童（0.9%）也属于表现较差的类型，表明认知困难并不限于特定的临床诊断。相反，一些ASD儿童（1.1%）被归类为中等认知类型，表明仅凭诊断标签无法预测个体的认知类型。这种模式支持了一种以个体为中心的方法，将认知和感觉类型与诊断标签结合起来，并符合研究领域标准（RDoC）框架，该框架强调维度构念而非分类诊断（Cuthbert和Insel, 2013；Happé和Frith, 2020；Marais和Roche-Labarbe, 2025）。值得注意的是，大多数儿童仍保持在其原始的诊断类别内（表4），表明这些类型并非完全独立于诊断。尽管如此，结果仍然支持该任务作为筛查工具的效用，ROC分析（表5，AUC = 0.92）进一步证明了这一点。

总之，本研究使用了一组跨诊断的样本，通过游戏化大小感知任务验证了从执行功能、视觉错觉敏感性和感觉整合测量中得出的认知类型。研究发现了三种稳定的、具有临床意义的类型，它们的认知-感官特征和任务表现存在系统性差异。此外，大小感知任务在识别高风险儿童方面的筛查准确性表现出色（AUC = 0.92），支持其作为实用初步筛查工具的效用。相反，认知-感官水平较低的儿童可能会从减少认知负担的干预措施中受益（例如，简化视觉展示、提供明确的策略提示），而不是试图直接改善执行功能。该任务的出色筛查准确性（AUC = 0.92）使其适合于识别需要此类针对性支持的儿童，而因子水平分析则提供了对其认知优势和劣势的更细致的理解。

4.3 尺度感知任务的构念独立性
子测试准确性与执行功能测量之间的相关性较弱到中等（|r| ≤ 0.24），这表明该任务不能直接作为工作记忆或抑制控制的代理指标。尽管如此，三种外部得出的认知谱型在复杂任务层面存在显著差异（η2 = 0.20–0.34），表明该任务能够敏感地反映个体在执行功能和感觉整合方面的差异，而无需直接进行测量。这种看似矛盾的现象可以通过认知负荷理论和感知学习理论来解释。根据认知负荷理论（Sweller, 1988），复杂任务对执行资源的需求较高；因此，执行功能较弱的儿童在这些任务中的表现较差。然而，该任务本身并不等同于执行功能测试，因为儿童可能会使用不同的策略来解决相同的问题。例如，在一个尺寸排序任务中，一个儿童可能依赖重复比较（依赖工作记忆）或视觉扫描（感知策略）。执行功能较强的儿童倾向于使用高效的战略性方法，而执行功能较弱的儿童则可能依赖于更基本的感觉处理。因此，任务表现反映了执行功能的间接影响，而不是直接测量结果。

感知学习理论（Goldstone, 1998）提供了另一种解释。重复的经验可以使某些感知判断自动化，从而减少对执行控制的需求。在最简单的任务（第1-2级）中，所有儿童都达到了上限，表明这些任务高度自动化，没有涉及执行功能。在复杂任务中，自动化不足，需要执行资源，因此出现了谱型差异。这种模式支持了该任务的构念有效性。

从神经认知的角度来看，参与尺寸感知的视觉通路（背侧和腹侧通路）与执行控制网络（前额叶-顶叶网络；Grill-Spector等人，2001；Eriksson等人，2015）功能相关但不同。因此，任务表现可以反映执行功能的效率，而并不等同于执行功能本身。这种“间接敏感性”的特性使该任务适合于筛查——识别可能需要进一步评估的儿童——而不是用于特定执行缺陷的诊断评估。与执行功能测量结果的适度相关性实际上是一个优势：它们表明该任务测量了独立的感知-认知构念，为现有执行功能测试增添了价值。

4.4 执行功能作为尺寸感知表现的保护因素
高认知水平的儿童具有较高的工作记忆、较强的抑制控制能力以及最高的错觉评分（最容易受到错觉的影响）。尽管容易受到错觉的影响，这种认知谱型在复杂的尺寸感知任务（第3-9级）中表现最好。这种模式支持执行功能（特别是工作记忆和抑制控制）作为保护因素的观点：强大的认知控制能力可以弥补误导性视觉输入的潜在干扰。

从认知控制的角度来看，执行功能通过自上而下的调节机制发挥作用。前额叶皮层生成自上而下的信号，引导与当前任务目标最匹配的大脑区域活动模式（Buschman和Miller, 2007）。作为执行功能的核心组成部分，抑制控制对于适应性和认知至关重要（Diamond, 2013）。在复杂的感知任务中，执行功能较强的个体能够更好地利用前额叶-顶叶网络，主动维持任务目标，抑制无关信息，从而在复杂条件下保持准确的判断。

预测编码理论提供了另一种解释（Clark, 2013; Friston, 2005; Gabhart等人, 2025）。在这个框架中，高级皮层区域生成自上而下的预测，并将其发送到低级感觉区域；这些预测与自下而上的感觉输入进行比较，不匹配之处会产生预测错误。高认知水平的儿童在错觉任务中倾向于将图形判断为“不同”，这可能反映了他们的内部预测模型更侧重于局部分析特征而非全局尺寸恒常性推断。然而，当任务要求明确涉及现实世界知识（第8-9级）时，这一组的表现最优，表明他们的自上而下的控制具有高度的战略灵活性。

在神经层面，参与尺寸感知的视觉通路与执行控制网络（前额叶-顶叶网络；Grill-Spector等人，2001；Eriksson等人，2015）功能相关但不同。因此，任务表现可以反映执行功能的效率，而并不等同于执行功能本身。这种“间接敏感性”的特性使得该任务适合于筛查——识别可能需要进一步评估的儿童——而不是用于特定执行缺陷的诊断评估。与执行功能测量结果的适度相关性实际上是一个优势：它们表明该任务测量了独立的感知-认知构念，为现有执行功能测试提供了额外价值。

4.4 执行功能作为尺寸感知表现的保护因素
高认知水平的儿童具有较高的工作记忆、较强的抑制控制能力以及最高的错觉评分（最容易受到错觉的影响）。尽管容易受到错觉的影响，这种认知谱型在复杂的尺寸感知任务（第3-9级）中表现最好。这种模式支持执行功能（特别是工作记忆和抑制控制）作为保护因素的观点：强大的认知控制能力可以弥补误导性视觉输入的影响。

从认知控制的角度来看，执行功能通过自上而下的调节机制发挥作用。前额叶皮层生成自上而下的信号，引导与当前任务目标最匹配的大脑区域活动模式（Buschman和Miller, 2007）。作为执行功能的核心组成部分，抑制控制对于适应性行为和认知至关重要（Diamond, 2013）。在复杂的感知任务中，执行功能较强的个体能够更好地利用前额叶-顶叶网络，积极维持任务目标，抑制无关信息，从而在复杂条件下保持准确的判断。

预测编码理论提供了另一种解释（Clark, 2013; Friston, 2005; Gabhart等人, 2025）。在这个框架中，高级皮层区域生成自上而下的预测，并将其发送到低级感觉区域；这些预测与自下而上的感觉输入进行比较，不匹配之处会产生预测错误。高认知水平的儿童在错觉任务中倾向于将图形判断为“不同”，这可能反映了他们的内部预测模型更侧重于局部分析特征而非全局尺寸恒常性推断。然而，当任务要求明确涉及现实世界知识（第8-9级）时，这一组的表现最优，表明他们的自上而下的控制具有高度的战略灵活性。

在神经层面，执行功能的保护作用可能与认知储备相关——大脑在面对任务需求或病理状况时通过优化神经网络效率或招募额外大脑区域来维持表现的能力（Stern等人，2020）。执行功能较强的儿童可能拥有更高效的神经储备，从而在高认知负荷下保持稳定的表现。最近的fMRI研究进一步表明，认知储备的神经基础包括任务相关网络的效率提升（神经储备）和替代区域的补偿性招募（神经补偿；Cabeza等人，2018）。

执行功能的保护作用在儿童发展中具有跨诊断意义。最近一项关于神经发育障碍儿童的系统回顾和元分析得出结论，执行功能缺陷是多种神经发育障碍的共同特征，而较强的执行功能可以作为保护因素，减轻认知困难对日常功能的影响（Sadozai等人，2024）。我们的研究结果与此一致：低认知-感官水平的儿童中自闭症谱系障碍（ASD）和广泛性发育迟缓（GDD）的比例较高，而高认知水平的儿童中这类儿童的比例较低，进一步支持了执行功能的保护作用。

总的来说，执行功能通过自上而下的认知控制、预测编码的灵活调节以及认知储备的补偿机制，对感知挑战起到保护作用。这种综合解释不仅符合区分认知能力和处理效率的信息处理理论，还为跨诊断的、以个体为中心的干预策略提供了理论基础。

4.5 游戏化的尺寸感知任务作为一种实用的筛查工具
经过验证的任务相比传统的执行功能测试具有多个实际优势：它大约需要10分钟，以触摸屏游戏的形式呈现，不需要经过培训的管理员，并且对年幼儿童具有很高的吸引力。在复杂任务（特别是第3-9级）中，不同认知谱型之间的显著分离表明该任务能够捕捉到与现实世界功能相关的认知能力中的有意义差异。因此，该任务可以作为一线筛查工具，识别可能需要进一步评估的儿童。其出色的筛查准确性（AUC = 0.92）、高敏感度（85.2%）和高特异性（85.5%）使其成为大规模早期识别认知困难的有希望的工具，对教育和临床实践具有直接意义。

4.6 局限性和未来方向
应承认几个局限性。首先，横断面设计无法得出因果推断；需要纵向研究来考察任务表现能否预测后来的学术或功能结果。其次，尽管二次LPA提供了稳定的谱型，但低认知-感官水平的样本量仍然相对较小（n = 108）；需要在更大、更多样化的样本中进行重复实验。第三，最初的探索性LPA仅基于任务准确性，结果不稳定（在自助重采样中从未选择到四谱型解决方案，最小谱型仅包含14名儿童）。因此，我们的结论基于来自外部认知和感觉变量的更可靠的三谱型解决方案。第四，高认知谱型显示出最高的错觉评分，这需要进一步使用眼动跟踪或出声思考协议来验证假设的局部处理风格。第五，任务子测试与执行功能测量结果之间的弱到中等相关性表明该任务测量了独立的感知-认知构念；这对于筛查是一个优势，但对诊断特异性是一个限制。未来的研究应评估重测信度、对学业成就的预测有效性以及在ASD和ADHD等临床人群中的诊断准确性。此外，干预研究可以测试低认知-感官水平的儿童是否能从针对性的执行功能或感觉整合训练中受益，以及任务表现的改善是否转化为现实世界中的功能提升。最后，虽然本研究关注认知和感觉因素，但情绪变量（如焦虑、压力和情绪调节）也可能影响儿童的尺寸感知表现（Rabner等人，2024）。未来的研究应纳入情绪功能的测量，以更全面地理解个体在感知决策方面的差异。

5 结论
本研究在一个大的跨诊断样本中识别出三种稳定的认知谱型，这些谱型基于执行功能、感觉整合和错觉敏感性。关键的是，高认知水平的儿童在执行要求较高的因素（工作记忆和冲突控制）上得分显著高于基本视觉辨别能力，而其他两个谱型没有表现出这种差异。这种分离提供了直接证据，表明不同的认知谱型在尺寸感知中采用了不同的策略。

游戏化的尺寸感知任务在识别高风险的低认知-感官水平儿童方面表现出出色的筛查准确性（AUC = 0.92）。它简短、吸引人且不需要经过培训的管理员，适合大规模的早期筛查。这些发现支持以个体为中心的认知评估方法，并突显了游戏化任务在早期识别认知困难儿童方面的实用性。未来的研究应采用纵向设计，并测试基于谱型的干预措施。

热点排行