测量你脑海中的画面：将“事后想象”作为衡量个体在视觉想象能力差异的参考点

《Neuropsychologia》：Measuring what's in your mind's eye: Afterimagery as a reference point for measuring individual differences in visual imagery.

【字体：大中小】 时间：2026年05月02日 来源：Neuropsychologia 2

编辑推荐：

　　马克·C·普莱斯（Mark C. Price）| 马尔钦·楚布（Marcin Czub）| 西娅·M·M·豪格兰（Thea M.M. Haugland）| 米尔顿·格林（Milton Gering）| M·C·普莱斯（M.C. Price）| M·楚布（M. Czub）| T·M·M·豪格兰（T.M.M. Haugland）| M·A·格林（M.A. Gering）
挪威卑尔根大学心理学系心理社会科学系，Christiesgate 12，5015卑尔根

**摘要**
我们提出了一种新颖而简单的方法来测量个体在视觉想象方面的差异，该方法要求人们将自己自愿生成的视觉图像的质量与闭眼后的负后像质量进行比较。在实验室测试中（n = 98），许多参与者认为他们自己生成的面部或字母A的图像在多个体验维度上与面部或字母的后像相似甚至更出色。这些维度包括亮度、清晰度、细节，以及两个用于区分联想型与投射型想象者的维度。另一些参与者则认为他们的自愿生成的图像不如后像，这表明参与者之间存在质量差异。这一结果在较小样本量的初步研究中得到了验证。参与者普遍表示他们的比较评分是准确的。在初步研究和主要研究中，评分与三种标准的自我报告视觉想象工具的结果相关，从而支持了我们测量方法的有效性。参与者在电脑屏幕上可视化后像的亮度和清晰度，这有助于（a）为自愿生成的图像提供基准；（b）计算后像强度的变化是否独立于自愿生成图像的强度，以及这种变化是否能够解释我们在比较评分中的差异。作为一种量化从无想象能力者到超想象能力者视觉想象体验范围的方法，我们的方法可能比广泛使用但受到批评的自我报告工具（例如将想象生动性与真实视觉进行比较的工具）更具准确性。

**1. 引言**
“视觉心理想象”指的是在缺乏外部环境视觉信号的情况下，可以在“心灵之眼”中自愿或非自愿产生的各种内部生成的准视觉感官模拟（Kosslyn等人，2006；Pearson，2019）。长期以来，人们对于这种“离线视觉”的非正式描述存在很大差异（Galton，1880），这引发了关于视觉想象的神经认知基础和功能的广泛研究和争议（Pearson & Kosslyn，2015）。在极端情况下，一些人描述的想象体验非常生动、详细、真实或“如真实视觉一般”，这种现象有时被称为超想象（Zeman等人，2020），这与现已较少使用的“ eidetic memory”概念（Gray & Gummerman，1975）或纳博科夫在其小说《洛丽塔》（1955）中描述的“摄影记忆”概念有重叠。在另一端，一些人（如案例研究MX，Zeman，2024；Zeman等人，2010，2015）则描述了所谓的无想象能力——即几乎没有或完全没有自愿甚至非自愿的视觉想象体验。

尽管已经开发了许多自我报告工具来测量个体差异，并且有很多关于视觉想象的行为和神经相关性的研究（Pearson等人，2015），但我们仍然认为该领域缺乏足够的工具来衡量想象体验的变化（McAvinue & Robertson 2007；Schwarzkopf，2024）。我们的经验表明，从事视觉想象研究的研究人员常常对现有的测量工具感到不满。由于准确的测量对科学至关重要，这是一个问题。为了解决这个问题，本文探讨了一种测量个体视觉心理想象体验差异的新方法的可行性。该方法基于使用诱导产生的后像作为基准，人们可以据此比较自愿生成的图像的感官质量。我们将在第1.2节中更全面地介绍这一方法的逻辑，在此之前先讨论现有方法的局限性。

准确的测量对科学至关重要。首先，在想象体验方面，不准确的测量使得难以判断人们是在想象体验上存在差异，还是在想象的评价和报告上存在差异。其次，这也使得长期存在的关于视觉想象在大脑中的实现方式以及想象体验的认知、情感和行为后果的争论难以解决（Pylyshyn，2002；Winlove等人，2018；尽管有定期声称已经解决了这些问题（Kosslyn，1994；Pearson & Kosslyn，2015））。这些问题在想象体验的两个极端情况下尤为突出，即那些具有非常丰富或非常贫乏想象体验的人。例如，至少一些被诊断为无想象能力的人可能只是报告偏差较大的人（也参见Schwarzkopf，2024）。但对于更普通的想象体验差异，这个问题也同样存在。

对于空间想象来说，它似乎是一种与视觉想象可分离的技能（Blajenkova等人，2006；Blazhenkova & Kozhevnikov，2010；Farah，1988；Kozhevnikov等人，2005），自我报告的空间能力与简单的实验室空间技能测量（如折纸测试和各种类型的心理旋转任务）有很强的相关性（Blajenkova等人，2006）。反过来，空间技能似乎是认知的重要组成部分，超越了一般智力（Malanchini等人，2020），而一般智力又可以预测现实世界中的技能（如数学能力，Tosto等人，2014）和职业选择（Wai等人，2009）。相比之下，对于视觉想象来说，找到可靠的个体差异测量方法一直较为困难。例如，McKelvie（2019）讨论了大量文献后得出结论，很少有证据表明较高的视觉想象生动性能够明确预测表现。例外情况包括视觉想象生动性似乎能预测更好的运动表现和更有效的心理训练效果，以及在某些记忆任务（如图片细节回忆、自由回忆和配对联想回忆）中的更好表现，但在精细视觉细节的记忆方面则表现较差（同上）。此外，较强的视觉想象能力还与更好的抽象视觉艺术解释能力（Blazhenkova & Kozhevnikov，2010）和更好的自我报告的艺术能力（Blazhenkova & Kozhevnikov，2016）相关。另一方面，较低的想象生动性与对言语刺激的情绪反应减弱有关，并可能介导失语症和自我报告的同情心之间的关联（Monzel等人，2024；Wicken等人，2021）。还有一些证据表明，视觉想象与空间想象一样，可以预测职业选择（Zeman等人，2020）。

在自传记忆方面，有越来越多的证据表明强烈的视觉想象具有优势，因为较强的想象可能与更详细、检索更快、情感更强烈和生动的记忆相关（Aydin，2018；D’Argembeau & Van der Linden，2006；McKelvie，2018；Vannucci等人，2016）。然而，其他研究并未发现这一现象（Greenberg & Knowlton，2014）。此外，尽管无想象能力者的主要缺陷之一是自传记忆或情景记忆以及未来想象的缺陷（Dawes等人，2022；Monzel等人，2024；Watkins，2018；Zeman，2015），但并非所有无想象能力者都存在这些缺陷（Greenberg & Knowlton，2014；Zeman等人，2010）。

就测量视觉想象差异的最佳方法达成共识显然会对正常和异常认知领域的研究有所帮助。这在临床心理学领域尤为重要，因为想象差异被认为在情绪障碍（Holmes & Matthews，2010）和其他精神和临床障碍（Ji等人，2019；Pearson等人，2013）中起着作用，例如预测创伤后应激障碍的倾向（Yeung等人，2025）。此外，许多治疗方法明确涉及视觉想象的生成、检查和操作（Pearson等人，2013；Pile等人，2021；Schwarz等人，2020）。然而，现有的个体差异测量方法存在问题或至少存在局限性。

**1.1 现有方法的局限性**
许多研究使用神经成像等技术来探讨想象差异的脑部基础（Pearson，2019；Winlove等人，2018）。这种方法对于大多数想象研究来说过于复杂且成本高昂，而且它关注的是想象体验的神经相关性，因此还需要能够直接测量这种体验的方法。

也存在心理物理学方法，例如使用瞳孔扩张作为个体差异的标志（Kay等人，2022；Laeng & Sulutvedt，2014）。然而，这也需要专门的设备，并且仍然需要主观体验的相关测量作为参考。此外，最近最常被引用的心理物理学创新方法基于这样的观点：想象强度会影响双眼竞争的结果（Pearson等人，2011），但这一方法基于复杂的程序，独立团队未能复制这一结果（Bouyer等人，2024）。另一种方法是通过一些更简单的行为任务来测量想象差异。然而，正如Farah等人（1988）早就指出的，这些任务往往被认为是想象体验的相关指标而非直接测量方法，实际上测量的是其他东西。例如，涉及图像转换的任务（如心理旋转）通常受到空间技能的限制，而不是视觉想象本身（Aydin，2018；Blajenkova等人，2006；Lequerica等人，2002；McAvinue & Robertson，2007；Vannucci等人，2008）。涉及检查图像的任务（如判断两个想象对象中哪个具有最精细的图案（Kozhevnikov等人，2010）或动物尾巴任务（Behrmann，Moscovitch & Winocur，1994）可能实际上反映了视觉知识（例如，知道猪是否有长尾巴），而不是想象（例如，生成猪的图像并检查尾巴的外观）。涉及保留和比较视觉刺激的任务可能实际上反映了视觉短期工作记忆，无论参与者在任务过程中是否生成和维持了想象体验；虽然视觉短期记忆可能与想象有关，但它是一个可分离的构念（Reeder，2016）。

通过不涉及想象的心理策略完成许多这些行为任务的可能性可以通过无想象能力者的个案研究来说明（Greenberg & Knowlton，2014；Zeman等人，2010），他们在这些测量任务中表现正常。同样，容易产生幻觉的个体的高特质想象生动性似乎并不转化为大多数行为想象任务中的表现差异（Aleman等人，2000）。所有这些可能部分解释了元分析的结果（Runge等人，2017），即自我报告的想象生动性与行为测量的关联较弱，而与神经测量的关联较强。

总之，有必要以某种方式捕捉人们的想象体验质量——这是想象概念的核心。但在这里，我们遇到了自我报告测量的不可靠性问题，因为它们受到元认知的干扰。

最常用且最知名的视觉想象自我报告工具是16项的《视觉想象生动性问卷》（Vividness of Visual Imagery Questionnaire，Marks，1973）。标准说明要求参与者在睁眼或闭眼的情况下生成一系列视觉图像，并将其与正常视觉的（回忆或想象的）质量进行比较。参与者在5点李克特量表上对图像的“生动性”进行评分，从“完全没有图像，你只知道自己在思考一个对象”（1）到“完全清晰且像正常视觉一样生动”（5）。这16个项目分为4个主题组。其中一个主题组的例子是：“想象日出：太阳正在地平线上升起，天空朦胧。”（同上）。

我们并不否认这种测量方法可以捕捉到人们想象质量的一些差异。例如，在群体层面，根据VVIQ得分将人们分组可以与客观的神经差异相关联。在基于低VVIQ分数分类的失像症患者中，神经影像学研究发现，与超像症患者相比，失像症患者在前额叶和视觉网络区域之间的功能连接性降低（Milton等人，2021年），以及梭状影像节点与额顶叶网络之间的连接性也降低（Liu等人，2025年）。然而，评估影像与量表高端点（在此情况下代表真实感知）之间的距离可能受到元认知的干扰。换句话说，该工具也可能捕捉到许多由人们如何解释指令和应用评分方式产生的噪音。造成这种情况的原因有几点：

1) “生动性”等术语在定义上较为模糊，没有普遍认可的定义（McKelvie，2019年），试图用一个统一的标签来描述复杂的多维感官体验，不同参与者可能会对其有不同的解读（Schwarzkopf，2024年）。
2) 受试者需要根据量表上的参考点来评估他们的影像体验——即与真实视觉体验进行比较。即使在影像比参考点更生动的罕见情况下（例如，在意识状态改变时），也没有选择比参考点更强的评分选项。受试者只能选择一个接近参考点的定量距离。因此，每个受试者如何评估这个距离是可变的。
3) 使用真实视觉体验作为参考点还存在另一个问题。外部感知受限于外部空间参考框架，而影像通常是在“心灵之眼”的想象空间中体验的。最坏的情况下，想象空间和外部参考空间的特性可能无法以有意义的方式进行比较。最好的情况下，受试者在将差异转化为评分量表上的定量距离时也可能存在差异。换句话说，至少对许多人来说，真实视觉体验与影像体验差异很大，这使得比较变得困难。
4) 很难知道受试者是如何尝试遵循问卷指导的。有些人可能会尝试将想象中的物体或场景的质量与“真实看到”该物体或场景的记忆进行比较。然而，由于记忆本身也是一种再构想象，因此受试者可能只是在比较两个版本的视觉图像。或者，受试者在填写问卷时可能会将内部影像与当前看到的外部感知质量进行比较，无论当前看到的场景是否完全不同。但我们无法知道或轻易控制他们使用了哪种策略。无论哪种情况，当我们要求他们使用“真实视觉体验”作为基准时，参与者所比较的内容都存在很大的模糊性。
5) 根据上述观点，另一个担忧是生动性评分可能受到受试者对所要求想象的场景的个人熟悉程度的影响。例如，当要求他们想象一个熟悉的场景时，受试者可能会容易地利用最近的或详细的情景记忆，而想象一个不熟悉的场景则需要更多的创造性处理。回忆一个熟悉的地方的现象可能涉及更生动的图像，而构建一个新图像则不然。此外，受试者可能会因为某个图像容易回忆或生成而错误地将其评为更生动，而不是因为它在感知上更亮或更详细。然而，在填写问卷时，这种个人熟悉度的变量是无法控制且未知的。

总之，即使这些自我报告测量方法能够在群体层面捕捉到影像质量的总体差异，但在更细致的层面上，要自信地比较不同个体的评分也非常困难。Schwarzkopf（2024年，第23页）在最近对影像测量的批评中甚至认为这些方法“几乎无用”。其他常见的自我报告量表也存在类似的问题。VVIQ工具的更新版本，如VVIQ-2（Marks，1995年）和VVIQ修订版（McKelvie，1995年），以及更近期的Plymouth感官影像问卷（Andrade等人，2014年），仍然基于将影像的生动性与真实视觉体验进行比较。对象空间影像问卷（OSIQ）（Blajenkova等人，2006年）的视觉影像子量表包括要求评估生动性的项目（例如，“我的图像非常生动且具有照片般的质感”），或者询问想象的难易程度，这也很难进行量化。自发使用影像量表（SUIS）（Reisberg等人，2003年）包含要求对图像质量进行开放性评估的项目（例如，“当我想到拜访亲戚时，我几乎总能清楚地想象出他的样子”），尽管该量表更侧重于影像的频率。尽管有研究表明，对特定对象的逐次影像评分比广泛的自我报告工具更能准确预测神经激活（Runge等人，2017年），但这些逐次评估的方法也往往基于生动性，并以真实视觉体验作为参考点。

为了解决这些方法学问题，我们提出了以下替代方法。这种方法解决了我们在第1.1节中列出的两个可分离的问题方面：(1) 找到一个更好的参考点或锚点，让受试者可以将其影像体验与之比较；(2) 在比“生动性”等更具体的维度上测量有意产生的视觉图像的体验质量。该方法基于将视觉图像的质量与外部诱导的负后像的质量进行比较（Zaidi等人，2012年）。需要澄清的是，我们主要不是在研究后像和自愿产生的影像是否一定共享某些潜在过程（如Kronemer等人（2024年）的其他近期研究），尽管这仍然是一个开放的实证问题，我们的发现可以对此做出贡献（见第4.2节）。相反，我们的兴趣是利用后像作为评估个人内部影像体验的更好基准。具体来说，针对上述问题：(1) 后像，尤其是在闭眼时体验，具有“内在”的特性。因此，它们具有一些想象空间的无形特性，即不在物理环境中存在，尽管睁眼后的后像（以及视觉图像）有时会感觉像是投射到外部空间中的。这使得后像和视觉图像与真实感知区分开来，可能使后像成为一个比真实视觉体验更可比较的参考点。(2) 对于某些人来说，后像的亮度和清晰度等特性可能更接近内部视觉体验的特性，而不是真实视觉体验的特性。这表明内部视觉体验的参考点（在这种情况下是后像）有时可能是两者中较弱的一个，而不总是较强的。换句话说，参考点不再位于比较量表的理论最大值上。如果某些人的视觉图像体验在评分量表上高于比较点，而另一些人的体验低于比较点，这就构成了个体间的质性差异。这比评分量表上模糊区间的定量差异提供了更强的证据。元认知干扰减少了。(3) 后像的参考点可以通过下面进一步描述的方法客观量化。(4) 像“生动性”这样的模糊术语可以被一组更具体、定义更明确且与影像体验相关的感官基本维度所替代（见Schwarzkopf，2024年）。这应该为受试者创造一个更清晰的任务，减少个人解释的空间，并更好地捕捉影像体验的潜在多维质量。虽然这可以在不使用后像作为参考点的情况下完成，但直接比较后像和内部视觉图像在一系列感官特性上的差异可以减少语言转换的问题。当然，使用后像作为内部视觉体验的比较点需要满足一些假设，这些假设将在我们主要研究的设计部分进一步讨论。

在本文的其余部分，我们首先总结了一项试点研究，该研究以简化和非正式的方式测试了我们核心方法的可行性。包括试点研究的概述是因为它展示了我们方法的逻辑，并事后为我们在不同程序和刺激下的主要发现提供了一致性证据。然后，我们描述了在更正式的实验室条件下进行的主要研究。

2. 测试研究
在实验室研究之前，我们进行了一项在线试点研究，对象是大学生（n = 167），以确定我们方法的可行性。完整的方法和结果见补充材料。简而言之，在没有预先练习的情况下，参与者首先看到一个“Mooney脸”的负对比版本，然后闭上眼睛体验该脸的后像（以下简称AI），接着尝试生成一个他们熟悉的人的视觉图像（以下简称SGI）。最后，他们使用5点相对评分（RR）量表（从-2（后像更强）到+2（图像更强））来比较SGI和AI的“强度、细节和整体视觉质量”。RR分数的分布是双峰的，大约一半的参与者认为他们的SGI在强度、细节和视觉效果上都优于AI。结果与人们的视觉体验差异很大这一说法一致。正如预期的那样，后像体验提供了一个位于可能视觉体验范围中心的比较基准，从而能够显示体验的质性差异，而不仅仅是人们在评分量表上对距离的解读差异。这些结果激发了下面描述的更受控制的实验室研究。

试点研究的另一个方面是，大多数参与者在主要研究前几天还完成了VVIQ自我报告工具的测试。VVIQ分数与RR分数之间的关系非常显著，为我们的主要研究结论提供了强有力的支持。因此，这些数据也与下面的主要研究结果一起呈现。

3. 实验室研究
3.1. 目标和设计
这主要是一项基于视觉内省和自我报告的观察性横断面研究。与试点研究类似，参与者被要求比较自我生成的视觉图像（SGI）和诱导后像（AI）的体验质量。除了在受控条件下进行研究外，程序也比试点研究有所改进：
1) 超出脸部的范围：虽然理想情况下应包括多种类型的刺激，但非正式的试点表明，如果超过两种刺激，实验各阶段的累积持续时间会导致过长的测试时间、参与者疲劳和数据质量下降。因此，除了使用与试点研究不同的面部刺激外，我们只增加了一个额外的刺激——即大写字母A。这种类型的视觉感知被认为在心理上表示为一个简单的基于特征的结构模型，与更整体和关系性的面部感知（Tanaka & Farah，1993；Tanaka & Simonyi，2016）相比，为我们的刺激带来了多样性。字母的熟悉度在识字者中可能非常一致，从而减少了人们生成刺激内部视觉图像的能力与刺激熟悉度或短期视觉记忆之间的混淆。
2) 在多个体验维度上比较SGI和AI：与VVIQ中评估的“生动性”或“强度”等模糊且可能具有歧义的特质不同，参与者需要根据五个体验维度来评价SGI和AI的相对质量。这更精确和详细地研究了个体在影像体验上的差异。更集中的内省性问题也更有可能以一种一致的方式被解释，即不太容易受到元认知污染的影响。所选的五个维度是基于初步研究工作的，包括亮度、清晰度、内部细节、视觉质量和投射性。这些在程序部分3.2.2中有进一步的描述。

3.2.2.3) 测量人工智能（AI）是否为自生成图像（SGIs）提供了一个一致且独立的比较点：为了检查参与者对SGIs与AI的比较是否独立于他们AI质量的任何变化，我们以客观的方式测量了AI的感官质量。参与者被要求通过调整原始AI诱导物的负片图像来在电脑屏幕上呈现他们的AI体验，直到它与AI的外观相匹配。这种技术在最近的关于后想象（afterimagery）的文献中有先例（例如，Kronemer等人，2024年）。

3.2.4) 为AI诱导和比较SGIs与AI提供练习试验：为了优化AI体验的稳定性和一致性，参与者接受了使用不同练习刺激物来诱导AI的练习。对于每个刺激物，参与者还有两次机会将他们的SGIs与AI进行比较；每次刺激的第一次尝试被视为额外的练习试验。

3.2.5) 将结果与标准的心象自我报告量表进行比较：设计中包含了之前用于测量个体心象差异的自我报告工具，有两个原因。首先，它们被用来支持我们新的视觉心象体验测量方法的结构效度和区分效度。其次，它们被用来探讨SGIs的强度与AI的强度之间可能存在的关联。这两个目标在下面有进一步的阐述。

该研究的目标可以具体化为以下5个研究问题：

1) 是否有相当比例的参与者认为他们的SGIs比相应的AI更亮、更清晰、更详细、更“视觉化”或更具投射性？这测试了我们新方法揭示参与者视觉心象体验异质性的可行性。因变量是报告在每个体验维度上SGIs相对于后想象具有更强效果的参与者数量。我们的实验假设是，相当比例的参与者（至少超过5%）会认为他们的SGIs比AI更强，并且参与者应该从元认知角度认为他们的RR（Relative Strength）得分是准确的。为了得出RR得分反映了真实的心象体验差异的结论，进一步的研究问题主要测试了研究问题1结果解释所基于的假设。

2) 将SGIs评为相对较强或较弱的参与者所体验到的AI的视觉外观是什么样的？记录下来的参与者AI呈现的参数可以用来重新创建这些AI的描绘，从而揭示出参与者将SGIs评为较强或较弱的基准。

3) RR得分的变化是否可以由后想象质量的变化而不是自我生成想象的变化来解释？由于RR得分是相对于后想象的基线的，因此高RR得分也可能是基线变化的结果——即AI较弱而不是较强。换句话说，如果AI在质量上存在差异，一个参与者拥有的AI较弱，那么他们的SGI可能会被评定为相对较强，但这并不一定意味着他们的SGI实际上特别强。通过测量我们的AI质量客观测量方法（即呈现得分）与RR得分之间的关联来测试这种可能性。预见了三种结果：a) 在最简单的情况下，如果AI呈现得分与RR得分不相关，我们可以在零假设检验的局限范围内得出结论，任何RR得分的变化都与AI强度的变化无关。b) 如果AI呈现得分与RR得分呈负相关，那么较高的RR得分确实可能反映了较弱AI的随机分布。（RR得分也可能反映了较弱AI的系统分布，如果这些AI与较强的特质心象有关；见研究问题5。）c) 如果AI呈现得分与RR得分呈正相关，那么（如同零相关情况）较高的RR得分就不能仅仅反映较弱的AI。相反，较高的RR得分会低估参与者SGIs的强度，因为比较的基线被提高了；即SGIs会被评定为比AI更强。这可能是因为一个隐藏变量增强了AI的强度，同时也进一步增强了SGIs的强度（再次参见研究问题5）。

4) RR得分较高的参与者在标准的视觉心象自我报告量表上的得分是否也较高？如果RR得分与现有的视觉心象自我报告工具呈正相关，那么我们新的视觉心象测量方法的结构效度将得到支持。因此，在设计中包含了两种这样的工具。为了排除这种正相关是由于一般反应偏差或需求特征造成的，我们还预测RR得分与测量与视觉心象无关的另一种类型心象的工具的结果之间没有相关性。这将支持RR得分的区分效度。为此，我们使用的一种自我报告工具是对象空间心象问卷（OSIQ）（Blajenkova等人，2006年）；该问卷同时生成视觉对象心象和空间心象的得分，之前发现这两者基本上是不相关的（同上）。

5) AI和SGIs的强度是否通过共同的因果影响而系统地相关？研究问题3已经探讨了后想象和自我生成图像的强度之间是否存在关系。然而，为了以一种不依赖于我们RR得分的方式来测试这种关系，我们还可以询问参与者在标准视觉心象自我报告量表上的得分是否能够预测他们对后想象的呈现。在之前探讨后想象与内部想象之间关系的少数研究中，结果似乎并不一致。Wallace（1990年）报告说，通过VVIQ测量的更生动的心象与后想象的持续时间呈正相关（尽管仅在与高特质催眠性结合时）。相比之下，Hirose和Hishitani（2005年）报告说VVIQ得分与后想象持续时间呈负相关。最近，Kronemer等人（2024年）报告说VVIQ得分与后想象的对比度和清晰度呈弱正相关，这是通过参与者对后想象外观的呈现来测量的。Kronemer等人将这种关系归因于通过共同的自上而下的视觉过程增强了SGIs和AI，或者归因于可能同时影响VVIQ评分和参与者对AI呈现的元认知偏差。作为我们研究主要目标的补充，我们的数据为这一小范围的研究提供了补充。

我们最核心的分析主要基于（a）描述性统计和数据可视化，以及（b）参数和非参数的双变量相关性和多元回归测试。对于后者的测试，使用G*Power软件（Faul等人，2007年）进行的功效分析表明，大约100的样本量将能够以超过0.8的功效检测到中等效应大小。这包括了为非参数测试增加的15%的参与者（Lehman，2006年）。为了考虑到未来可能排除某些参与者的情况，招募了略多于100名参与者。

3.2. 方法

3.2.1. 参与者
在2023年1月2日至12月1日期间，通过卑尔根大学的学生社交媒体招募了118名学生参与者（27名男性和91名女性）。该研究被宣传为关于视觉心象体验个体差异的研究。纳入标准是视力正常或经过矫正为正常视力以及对挪威语有良好的理解。记录的样本中排除了一个年龄极端的异常值，以及三名由于语言技能不足而被排除的参与者。参与者的年龄范围从18岁到31岁（平均年龄23.4岁，标准差3.4岁）。大多数是心理学专业的学生，但也有一些来自其他社会科学、法律或医学专业的学生。样本中女性占多数，这反映了卑尔根大学女性心理学学生的比例较高。参与者完成了标准的知情同意书，并获得了价值150挪威克朗的礼品卡（在测试时相当于大约12.5欧元）。数据是匿名收集的，不包含个人敏感或识别信息，并仅用一个随机数字代码标记。程序符合卑尔根大学非临床心理研究的伦理指南。

3.2.2. 程序
测试会话持续大约一小时，在一个声音被减弱且照明较暗的心理测试室中进行。每次只测试一名参与者。所有的口头和书面指示及回答表都用挪威语提供。

测试程序分为三个主要部分：（1）发放两个标准的自我报告问卷；（2）诱导和呈现后想象；（3）比较后想象和自我生成的图像。为了向读者说明，我们提供了以下初步概述，并引用了图1。

图1. 程序流程图，显示了程序部分1、2和3的交织（图右边缘的编号括号），以及刺激顺序的平衡（面部试验显示为米黄色，字母A的试验显示为蓝色）。刺激图标是后想象诱导物。参与者被随机分配遵循流程图的左侧或右侧分支。

完成程序的第一部分后，第二部分开始让参与者练习诱导然后呈现后想象，使用一个单独的练习刺激物，即一个圆形形状（2次试验）。然后继续使用我们的两个主要刺激物之一，诱导并呈现一个后想象（AI），要么是字母A（一半的参与者），要么是面部（另一半的参与者），包括一次练习试验和一次测试试验。第三部分针对相同的刺激物进行，首先是诱导一个新的AI，然后生成一个SGI，然后比较它们的质量。第三部分同样包括每个刺激物的一次练习试验和一次测试试验。稍作休息后，再次依次对剩余的刺激物进行第二部分和第三部分的测试。因此，刺激顺序在参与者之间进行了平衡。在程序结束时收集了人口统计数据。

由于研究中包含的刺激物数量有限，练习试验和测试试验的数量也受到合理测试会话时间限制的影响。另一种策略可能是多次测试高度练习过的观察者。然而，我们的目标是开发一种最终可以应用于普通参与者、几乎不需要练习的程序。因此，我们选择通过大样本量来建立我们方法的可靠性，而不是通过漫长而繁琐的多次试验程序。

3.2.2.1. 第一部分 - 标准自我报告问卷
在研究开始时，参与者填写了由计算机呈现的两个标准视觉心象自我报告问卷的挪威语版本。首先，他们完成了自发使用心象量表（SUIS；Reisberg等人，2003年），这是一个自我报告工具，用于测量人们在日常思考、计划和回忆中体验自发视觉图像的可能性。例如，“当我想到拜访亲戚时，我几乎总是能清楚地想象出他的样子”。对于每个项目，参与者在从“从不”到“总是”的5点李克特量表上评估他们的想象频率，量表的中点标记为“一半时间”。共有12个项目，按固定顺序排列。先前的研究（Nelis等人，2014年；Reisberg等人，2003年）报告说，这个量表是一维的，具有可接受的内部和重测信度，并且与视觉心象量表（VVIQ）有中等程度的相关性，尽管SUIS更多地是测量心象频率而不是心象质量。

其次，参与者完成了对象空间心象问卷（OSIQ；Blajenkova等人，2006年）。这个包含30个项目的工具分别生成视觉想象和空间想象的得分，这两种能力可以被视为可分离的技能。每种类型的想象各有15个项目，这些项目是随机混合排列的。涉及视觉想象的项目（Blajenkova等人将其称为“物体想象”）会询问视觉想象的生动程度和频率，包括视觉记忆，以及艺术兴趣。例如一个视觉想象项目的描述是：“我可以闭上眼睛，轻松地想象出一个我曾经经历过的场景”。一些视觉想象项目与SUIS中的项目相似。空间想象项目则关注空间技能和兴趣，例如“我可以轻松地想象并心理旋转三维几何图形”。Blajenkova等人证明，该工具的视觉和空间子量表能够载荷于不同的心理测量因素，并具有可接受的内部可靠性。视觉子量表（以下简称视觉OSIQ）与自上而下的感知行为测量结果相关，而空间子量表（以下简称空间OSIQ）则与空间技能的行为测量结果相关（参见同文献）。参与者需要根据5点李克特量表对每个项目进行回答，从“非常同意”到“非常不同意”。

我们将OSIQ翻译成挪威语时，保持了项目的固定伪随机顺序。为了适应具有现代挪威文化和教育背景的参与者，我们对4个空间想象项目的表述进行了轻微调整。为了使测试时间控制在合理的范围内，我们没有包含在线预研究中使用的更常见的VVIQ工具。与使用VVIQ相比，我们当前选择的自我报告工具具有以下优势：视觉OSIQ比VVIQ提供了更广泛的视觉想象测量范围；空间OSIQ有助于排除一般性反应偏差的可能性（见引言部分）。SUIS测量的是想象频率，即各种日常思维和行为是否伴随着视觉想象，将其纳入测量可以检验我们的新测量方法是否与这种补充性的想象体验有关。此外，SUIS的填写时间也比VVIQ短得多。最后，虽然SUIS与视觉想象的生动程度相关，但在不同情境下评估是否具有想象体验可能比单纯评估想象现象的强度更为简单且更准确。

问卷在测试开始时发放，而不是在测试结束时发放，这样就可以确保这些问卷是对参与者想象能力的独立评估，不受他们在研究过程中所经历的想象内容的影响。我们认为问卷对后续测试阶段表现的影响可能性很小。

3.2.2.2 第二部分 - 诱导和呈现残像
残像（AIs）的诱导和呈现是通过Unity?软件（版本2021.3.10f1）编程实现的，并在24英寸LCD显示器（Samsung F24T450）上展示。显示器调至最大亮度，观察者距离显示器40厘米处观看。用于诱导残像的刺激有三个：（1）一个黑色圆的练习刺激；（2）一个由大写字母A组成的测试刺激；（3）一个由黑白人脸负片组成的测试刺激（见图2）。所有刺激都显示在白色背景上。每个刺激的展示时间为30秒，初步测试表明这个时间足以在大多数观察者中诱导出稳定的残像。在30秒的诱导过程中，参与者被要求注视每个诱导刺激上的一个小红色星号，并尽可能保持头部和眼睛的静止。使用Minolta LS-100亮度计测量得到的白色和黑色屏幕区域的亮度分别为310 cd/m2和0.2 cd/m2。两个测试刺激的垂直高度均为11厘米，所形成的视角为16°。

下载：高分辨率图片（84KB）
下载：全尺寸图片

图2. 用于诱导和呈现残像的刺激。上排从左到右分别是练习刺激和两个用于诱导残像的测试刺激。下排展示了每个刺激在呈现时的可能样子。需要注意的是，在开始时，呈现的残像大小是诱导刺激的一半，且更加模糊。在这张图中，为了更好地展示强烈残像的细节，呈现的人脸图像被显示得比其他两个刺激更亮、更清晰。

当某个诱导刺激的展示时间结束后，参与者被要求闭上眼睛体验产生的残像，当残像完全消失后再告诉实验者，然后再次睁开眼睛。接下来，参与者会看到一个与诱导刺激相同的负片版本的残像（见图2），显示在同一屏幕位置。这个显示的图像比诱导刺激小得多、更暗淡、更模糊。实验者在参与者睁开眼睛后立即开始呈现残像。参与者可以通过按键盘上的水平箭头（←和→）来调整图像的亮度、清晰度和大小。每次按箭头后，电脑扬声器会播放相应的提示音（“大小”、“亮度”、“清晰度”），指示当前可以调整的参数。调整可以通过向上箭头（↑）增加亮度、清晰度或大小，通过向下箭头（↓）减小这些参数。

问卷在测试开始时发放，而不是在测试结束时发放，以确保这些问卷是对参与者想象能力的独立评估，不受他们在研究过程中所经历的想象内容的影响。

3.2.2.3 第三部分 - 残像与自生成图像的比较
在测试的第三部分，参与者比较残像（AIs）和自生成图像（SGIs）。这一部分仅针对字母A和人脸刺激进行。没有使用黑色圆的练习环节。每个刺激进行两次比较测试，连续进行。与残像呈现过程类似，我们将这些测试分别称为练习测试和测试测试。对于字母A和人脸刺激，第一次测试被视为进一步练习（帮助参与者熟悉新刺激和程序的细节），第二次测试则为正式测试。不过，参与者并未被告知这种区别。在完成黑色圆的两次测试后，参与者会随机选择字母A或人脸的测试。之后，他们继续进行测试程序的第三部分（比较残像和自生成图像；详见下文），这部分包括两次使用相同刺激的测试。休息3分钟后，他们再完成一次字母A或人脸的练习测试和正式测试。在完成每次残像呈现后，参与者会被要求填写一份纸质问卷，评估他们是否能够体验到残像，以及他们对残像呈现的准确性，选项包括“非常不准确”、“稍微不准确”、“稍微准确”、“非常准确”和“不确定”。

在测试的第三部分中，参与者将残像（AIs）与自生成图像（SGIs）进行比较。这一过程仅针对字母A和人脸刺激进行。对于黑色圆刺激，没有进行额外的练习。每个刺激进行两次比较测试。对于字母A和人脸刺激，第一次测试被视为练习，第二次测试为正式测试。在完成黑色圆的两次测试后，参与者会随机选择字母A或人脸的测试。然后他们继续进行测试程序的第三部分（比较残像和自生成图像；详见下文），这部分包括两次使用相同刺激的测试。休息3分钟后，他们再次完成一次字母A或人脸的练习测试和正式测试。在完成每次残像呈现后，参与者会被要求填写一份问卷，评估他们是否能够体验到残像，以及他们对残像呈现的准确性。

在诱导和呈现残像的过程中，首先使用Unity?软件（版本2021.3.10f1）编程了一个程序，并在24英寸LCD显示器（Samsung F24T450）上展示结果。显示器调至最大亮度，观察者距离显示器40厘米处观看。为了诱导残像，使用了三种刺激：（1）一个黑色圆的练习刺激；（2）一个由大写字母A组成的测试刺激；（3）一个由黑白人脸负片组成的测试刺激。所有刺激都显示在白色背景上。每个刺激的展示时间为30秒，初步测试表明这个时间足以在大多数观察者中诱导出稳定的残像。在30秒的诱导过程中，参与者被要求注视每个诱导刺激上的一个小红色星号，并保持头部和眼睛的静止。白色和黑色屏幕区域的亮度分别使用Minolta LS-100亮度计测量得到，分别为310 cd/m2和0.2 cd/m2。两个测试刺激的垂直高度均为11厘米，形成的视角为16°。

在给定诱导刺激的展示时间结束后，参与者被要求闭上眼睛体验产生的残像，当残像完全消失后告诉实验者，然后再睁开眼睛。为了呈现他们的残像体验，接下来向参与者展示一个与诱导刺激相同的负片版本的残像，显示在同一屏幕位置。这个显示的图像比诱导刺激小得多、更暗淡、更模糊。实验者在参与者睁开眼睛后立即开始呈现残像。参与者可以调整图像的亮度、清晰度和大小，直到其与之前闭眼时体验到的最强烈残像相匹配。参与者可以通过按水平箭头（←和→）在三个不同参数之间切换。每次按箭头后，电脑扬声器会播放提示音（“大小”、“亮度”、“清晰度”），指示当前可以调整的参数。使用向上箭头（↑）增加亮度、清晰度或大小，使用向下箭头（↓）减小这些参数。参与者可以根据需要自由调整时间次数。实验者在参与者呈现第一个残像时，互动演示了整个过程。

呈现图像的初始大小是诱导刺激大小的50%。大小可以以10%的步长增加或减少，因此可以通过按5次向上箭头来恢复原始大小。初始亮度和清晰度设置得使图像刚好可见。亮度范围从0（表示对象完全透明）到1（表示对象的所有白色部分均为纯白色）。初始亮度在该范围内为0.05，亮度以0.03的步长递增，因此可以通过按30次向上箭头来达到最大亮度。清晰度通过调整应用于图像的高斯模糊效果来调节。程序将最大清晰度定义为零模糊状态。因此，可以通过按16次向上箭头来达到最大清晰度。

用于量化大小、亮度和模糊度的刻度和步长是在编程限制和希望创建自然感觉的刻度敏感性之间做出的折中。例如，亮度需要能够以非常小的步长进行调整，以捕捉不同残像的感觉，但对于捕捉图像大小的可感知差异来说，这种可调性并不必要。对于所有三种类型的刺激（黑色圆、字母A、人脸），诱导和呈现图像的整个过程都进行了两次——即每个刺激两次测试（详见3.2.2节）。对于黑色圆的练习刺激，两次测试都被称为练习测试。对于字母A和人脸刺激，第一次测试被视为进一步练习，第二次测试为正式测试。然而，参与者并未被告知这种区别。在完成黑色圆的两次测试后，参与者会随机选择字母A或人脸的测试。之后，他们继续进行测试程序的第三部分（比较残像和自生成图像；详见下文），这部分包括两次使用相同刺激的测试。休息3分钟后，他们再次完成一次字母A或人脸的练习测试和正式测试，但这次使用的是未使用的刺激（见图1）。

在完成每个字母A和人脸的残像呈现后（黑色圆除外），参与者会被引导填写一份纸质问卷，评估他们是否能够体验到残像。回答选项包括“是”、“否”和“不确定”。然后他们评估自己对残像呈现的准确性，选择“非常不准确”、“稍微不准确”、“稍微准确”、“非常准确”或“不确定”。

在测试的第三部分中，参与者将残像（AIs）与自生成图像（SGIs）进行比较。这一过程仅针对字母A和人脸刺激进行。对于黑色圆刺激，没有进行额外的练习。每个刺激进行两次比较测试，连续进行。与残像呈现过程类似，我们将这些测试称为练习测试和正式测试。首先完成一个刺激的练习测试和正式测试，然后休息3分钟，并完成剩余刺激的测试部分。之后，对剩余的刺激重复第三部分测试（见图1）。

每次测试开始时，都会诱导一个新的字母A或人脸的残像。新的残像诱导确保了与自生成图像的比较是基于最近体验到的残像，而不是可能在第二部分测试中模糊的残像记忆。新的诱导过程与研究中的残像呈现阶段相同，即在Unity中编程，展示时间为30秒，随后闭眼观看残像。当参与者口头报告残像消失后，他们睁开眼睛，并被要求再等待10秒以减少残像残留的可能性。然后他们再次闭上眼睛，尝试生成一个自生成图像（SGI）。如果诱导的是字母A，指示是“想象一个白色背景上的大写字母A”；如果是人脸，则指示是“想象一个你经常见到且最近见过的好朋友或家人的脸”。我们没有要求参与者仅仅模拟之前的残像，因为这会将想象技能与短期视觉记忆混淆。相反，我们希望他们尽可能自然地生成一个高度熟悉的物体的视觉图像。残像的作用是作为参考点，而不是模板。

当参与者准备就绪时，他们睁开眼睛并评估自生成图像（SGI）与之前残像的体验。他们需要填写一份纸质问卷（见图4），在比较过程中可以根据需要多次闭眼重新生成SGI。如果参与者确实体验到了残像（通常是这种情况），他们需要在五个维度上比较SGI和残像。尺寸及其定义如下：
1. 亮度 – “就像你可以调整手机亮度一样，从亮到暗。”
2. 清晰度 – “边缘和细节的清晰程度，与模糊程度相对，就像你调整渲染后图像的清晰度一样。”
3. 细节 – “你能看到的物体的可区分部分的数量。”
4. 视觉质量 – “用眼睛看到的感觉，而不仅仅是知道某物看起来如何。”
5. 投射质量 – “图像感觉像是位于你外部，而不是在你内部或‘无处’的程度。”

下载：下载高分辨率图片（619KB）
下载：下载全尺寸图片

图4. 问卷的设计，参与者在其中标出了自我生成的图像与后像之间的相对评分。文本已从挪威语翻译过来。

在第一次试验之前，每个维度以及填写问卷的方式都向参与者进行了口头解释。问卷上还写有每个维度的定义。

参与者被告知，视觉质量这个维度可能难以理解。这样做的目的是为了区分视觉感知现象（例如催眠图像）和仅凭抽象知识知道某物外观的情况。后一种体验在经典的VVIQ自我报告工具中最低评分的描述中有所体现。一个极端的例子是患有失象症的人，他们有视觉知识，但完全没有“在脑海中看到”的感觉。

为了进一步帮助理解视觉质量这个维度，并解释投射质量，参与者被引导查看图3中的插图。该插图以字母A为例。投射质量沿着水平轴表示，三组图片分别展示了（1）将图像投射到眼睛前的周围空间，（2）感觉图像位于“眼睑上”或“眼后”，以及（3）感觉图像“在头脑中”或在一个无法在物理空间中定位的“想象空间”中。视觉质量沿着垂直轴表示，实心字母代表“看到”的质量，虚线字母代表“仅仅知道”的质量。该插图试图展示视觉质量和投射质量是如何相互垂直变化的。

下载：下载高分辨率图片（306KB）
下载：下载全尺寸图片

图3. 用于帮助参与者理解视觉质量（上下行）和投射质量（左右）这两个垂直维度的插图。

请注意，这里定义的视觉质量和投射质量进一步分解了Schwarzkopf（2024）提出的关联者想象者和投射者想象者之间的简单区别，这被认为是个体在想象能力上的一个潜在重要但常被忽视的方面。这种区别在联觉文献中源于关联者联觉者和投射者联觉者之间的区分（Dixon等人，2004年）。以图形-颜色联觉者为例，他们会说看到的颜色实际上存在于印刷的字母本身中（即空间上投射到包含字母的外部空间框架中），而关联者联觉者则会报告在脑海中看到颜色，或者仅仅知道哪些颜色与字母相关联，而并不真正看到它们。这种一维的区分在联觉情况下可能有意义，尽管这种区分受到了批评（Edquist等人，2006年）。然而，至少在自愿视觉想象的情况下，关联并不是投射的相反，而是一个与视觉质量是看到还是仅仅知道相关的独立维度。因此，我们希望将关联（或知道）与看到分开进行研究。

问卷上响应选项的物理布局和标签设计旨在使相对评分的概念尽可能直观。对于每个维度，参与者需要在5个相对评分中选择一个（见图4）。例如，对于亮度维度，如果他们的选择更靠左且靠近绿色“后像标签”，则表示AI的亮度“稍微更亮”或“明显更亮”；相反，如果选择靠右且靠近蓝色“心理图像标签”，则表示SGI的亮度“稍微更亮”或“明显更亮”。同样，对于视觉质量，向左的评分表示AI相对更具有视觉效果，向右的评分则表示相反。中间的评分标记为“相同”。除了这5个评分外，参与者还可以选择“不知道”。

在同一份问卷上，参与者还评估了自己是否能够生成SGI（选项为“是”、“否”和“不确定”；见图4底部）。如果他们选择“否”，则不需要完成其余部分。假设参与者完成了问卷，最后他们会使用从“非常不准确”到“非常准确”的4点量表来评估自己评分的总体准确性，并可以选择“不确定”（见图4）。

每次试验结束后，完整的问卷会被收回，参与者在后续试验中无法再次查看。

3.2.3. 人口统计数据
在测试结束时，参与者填写了一份纸质表格，说明他们的年龄、性别、学习领域以及是否有任何未矫正的视觉缺陷。

3.3. 结果
3.3.1. 参与者排除
我们首先筛选出数据完整且对AI生成和SGI评估具有准确元认知评分的参与者。

3.3.1.1. 后像诱导和生成的评估评分
几乎所有118名参与者都回答“是”，表示在AI生成阶段他们经历了后像，无论是练习试验还是测试试验，无论是字母还是面孔刺激。唯一的例外是一名在每次测试刺激的测试试验中回答“不确定”的参与者。所有参与者在所有试验中都生成了AI渲染结果。

在练习试验和测试试验中，以及对于两种刺激，参与者将AI渲染的准确性评为“非常准确”或“稍微准确”的比例达到了92%，其中“非常准确”是最常见的评分；见表1，其中从“非常不准确”到“非常准确”的四个评分等级被量化为1-4分以计算平均值。最低的“非常不准确”评分仅出现在13次试验中，分布在7名参与者中。“不确定”这一选项很少被选择。每种试验类型（2种刺激×2次试验）的平均评分在数值上非常相似，在参数和非参数重复测量方差分析中均无统计学差异（未报告）。

表1. 参与者（n = 118）对其后像生成准确性的评分，采用4点量表。数据按试验类型（练习 vs. 测试）×（字母 vs. 面孔）分开显示。

表1. 参与者对其后像生成准确性的评分（n = 118）

在研究的第三部分中，当比较AI和SGI时，没有特别询问参与者在AI诱导程序后是否经历了后像。然而，我们可以假设这是事实，因为所有参与者在第三部分的每次试验中都口头报告了AI的终止（见3.2.2.3节）。

3.3.1.2. 生成SGI并将其与AI进行比较的评估评分
大多数参与者表示他们能够在字母练习试验（84%）、字母测试试验（87%）、面孔练习试验（86%）和面孔测试试验（87%）中生成SGI（见表2）；所有这些参与者都完成了将他们的SGI与AI进行比较的问卷，并从中获得了RR分数。少数参与者（18/118，15%）表示他们无法在一种或多种试验类型中生成SGI，但这些参与者仍然提供了RR分数。

表2. 参与者（n = 118）对其是否能够生成SGI的评分。数据按试验类型（练习 vs. 测试）×（字母 vs. 面孔）分开显示。

表2. 参与者对其是否能够生成SGI的评分

在研究的第三部分中，虽然没有特别询问参与者在AI诱导程序后是否经历了后像，但我们可以假设确实如此，因为所有参与者在第三部分的每次试验中都口头报告了AI的终止。

3.3.3.2. 生成SGI并将其与AI进行比较的评估评分
大多数参与者表示他们能够在字母练习试验（84%）、字母测试试验（87%）、面孔练习试验（86%）和面孔测试试验（87%）中生成SGI（见表2）；所有这些参与者都完成了将他们的SGI与AI进行比较的问卷，并从中获得了RR分数。少数参与者（18/118，15%）表示他们在一种或多种试验类型中无法生成SGI，这些试验的比较问卷几乎从未被填写。

表2. 参与者对其是否能够生成SGI的评分

表3. 参与者对其RR分数准确性的评分（n = 100），这些参与者在所有4种试验类型中都回答“是”或“不确定”。数据显示了每种试验类型的累计百分比。

在研究的第三部分中，当比较AI和SGI时，没有特别询问参与者是否经历了后像。然而，我们可以假设这是事实，因为所有参与者在第三部分的每次试验中都口头报告了AI的终止。

3.3.3.3. 保留的参与者
以下3个标准用于排除数据缺失或自我报告数据最不准确的参与者：（a）AI渲染的评分“非常不准确”，（b）未生成SGI，或（c）将SGI与AI进行比较的评分“非常不准确”。

如果我们仅考虑程序的第一部分和第二部分的测试试验，将这些标准应用于字母和面孔刺激，并且应用于程序的第一部分和第二部分的测试试验，样本人数从118人减少到98人（22名男性和76名女性，年龄范围18至31岁，平均年龄22.5岁，标准差2.4岁）。换句话说，这个子样本提供了AI生成测试试验和SGI与AI比较测试试验的完整数据。我们在下面的分析中主要关注这98名参与者，而不是包括练习试验的数据。这样做部分是为了简洁，部分是因为我们认为练习试验的数据可能不太准确，部分是因为包括练习试验会使样本量减少到93人（因为在练习和测试试验中都符合纳入标准的参与者较少）。尽管如此，我们在分析中仍然指出了在练习试验中也进行了分析的地方，或者正式比较了练习和测试试验的地方。这些额外的分析显示在补充材料中。在大多数情况下，练习和测试试验的结果基本一致。

3.3.2. 比较SGI和AI（研究问题1）
参与者在程序的第三部分中将他们自生成的图像（SGI）与后像（AI）进行比较的结果被编码为一个数值量表，范围从-2（AI“明显优于”SGI）到+2（SGI“明显优于”AI）。图5显示了这些相对评分（RR分数）在5个体验维度上的分布，针对字母和面孔刺激。数据展示了上述98名参与者的子样本情况，即程序的测试试验（第二次试验）的结果。表4显示了每个维度的中位数评分，但这些评分仅具有指示性，因为评分量表可以被认为是序数的而非整数的（在这种情况下，数值平均值是不有效的总结方式）。表4还显示了每个维度中认为自己的SGI比AI“更强”（即更明亮、更清晰、更详细、更具视觉效果或更具投射感）的参与者比例。每个比例的95%置信区间（经过连续性校正）也一并列出。这些置信区间是通过在线统计计算器www.vassarstats.net根据Newcombe（1998）和Wilson（1927）的方法得出的。

图5显示了在字母刺激（L，顶部行，蓝色条形）和面部刺激（F，底部行，米黄色条形）的测试试验中，参与者给出5种可能相对评分（RR分数）的分布情况。纵轴代表参与者数量（n = 98），横轴代表RR分数，其数值标签从-2（AI被评为比SGI强得多）到+2（SGI被评为比AI强得多）。每个条形上方显示了相应的参与者数量。

表4总结了测试试验中的RR分数（n = 98），包括：中位数评分；认为SGI比AI体验更强的参与者百分比及其95%置信区间；在纳入未产生SGI的参与者后调整后的较低95%置信区间。

表4显示，对于每个体验维度和刺激类型，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%，在大多数情况下甚至远高于5%。这有力地支持了研究问题1的假设H1，即相当一部分参与者确实可靠地将自己的SGI评为比相应的AI更强。有人可能会认为这些结果高估了具有强烈SGI的参与者比例，因为从98名参与者中排除了14名在测试试验中对一个或多个刺激没有产生SGI的参与者。因此，在将样本量扩大到112名后重新计算了较低的95%置信区间以包括这些参与者。如表4所示，即使进行了调整，较低的置信区间仍然远高于5%。

一系列五个非参数Wilcoxon符号秩检验（n = 98）显示，在所有维度上，面部刺激的RR分数显著高于字母刺激，效应量中等至较大（r = .24 – .69；所有p ≤ .02，大多数p ≤ .001）。经过Bonferroni校正（α = .005）后，大多数比较结果仍然显著，与图5和表4中的模式一致。

非参数Friedman方差分析（n = 98）用于分别比较每个刺激在五个维度上的分数。对于字母刺激，亮度和清晰度显示出最高比例的参与者RR分数高于零；对于面部刺激，细节和清晰度显示出最高比例的参与者RR分数高于零。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。在大多数情况下，这一比例远高于5%。这有力地支持了研究问题1的假设H1。

一系列五个非参数Wilcoxon符号秩检验（n = 98）显示，在所有维度上，面部刺激的RR分数显著高于字母刺激，效应量中等至较大（r = .24 – .69；所有p ≤ .02，大多数p ≤ .001）。经过Bonferroni校正（α = .005）后，大多数比较结果仍然显著，与图5和表4中的模式一致。

非参数Friedman方差分析（n = 98）用于分别比较每个刺激在五个维度上的分数。对于字母刺激，亮度和清晰度显示出最高比例的参与者RR分数高于零；对于面部刺激，细节和清晰度显示出最高比例的参与者RR分数高于零。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。在大多数情况下，这一比例远高于5%。这有力地支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的95%置信区间都高于5%。这进一步支持了研究问题1的假设H1。

表4的进一步分析表明，对于每种体验维度和刺激组合，将SGI评为比AI“更强”的参与者比例的本节不讨论投影的剩余维度，但将在下文的定量分析中予以考虑。字母和面部刺激的复合RR分数分别分为3个参与者组，如下所示：
(a) 高SGI组：参与者（字母n = 30，面部n = 52），其复合RR分数表明SGI强度高于AI（复合RR分数≥+0.5）。
(b) 中等SGI组：参与者（字母n = 10，面部n = 19），其复合RR分数表明SGI强度与AI相似（–0.5 < 复合RR分数 < +0.5）。
(c) 低SGI组：参与者（字母n = 58，面部n = 27），其复合RR分数表明SGI强度低于AI（复合RR分数≤-0.5）。
对于每个参与者组，我们计算了字母和面部AI的中位亮度和清晰度。这些值通过一个定制的计算机程序（同样使用Unity?软件编写）结合在一起，在用于原始渲染的同一显示器上创建了字母和面部AI的中位图像。图像的大小与AI诱导器的大小相同。使用“打印屏幕”命令保存了显示结果，并将其复制到我们的手稿文档中，以生成图7。同样，通过组合每个组的最亮度和清晰度值，生成了每个组的最亮度和最小AI图像。图7中图像的具体外观将取决于读者的显示器，因此我们尝试视觉传达余像的效果只能是近似的。然而，作为参考，图7中显示的最弱对比度在实验显示器上都是可见的。图7还展示了每个参与者组的亮度和清晰度分布图（Allen等人，2021年）。用于创建图7中图像的数值见表6。

下载：下载高分辨率图像（287KB）
下载：下载全尺寸图像

图7. 显示了每个参与者组中参与者体验到的余像的亮度和清晰度，分别针对（a）字母刺激和（b）面部刺激。数据来自程序第1部分和第2部分的测试试验（n = 98）。从左到右，分别为低SGI组（SGI强度被评为低于AI）、中等SGI组（SGI和AI强度相似）和高SGI组（SGI强度被评为高于AI）。从上到下，分别显示了渲染AI的最大、中位和最小亮度和清晰度。图右侧的雨云图表示每个组中所有数据点的分布，分别针对亮度和清晰度。请注意，尽管这些总体分布在不同组之间看起来非常相似，且中位AI外观的表示也非常相似，但由于最大和最小AI强度代表了分布的极端值，因此这些表示在不同组之间看起来差异较大。

表6. 用于描述图7中余像外观的余像亮度和清晰度值。有关单位说明，请参见第3.2.2.2节。给出了字母和面部刺激的3个参与者组中的最大、中位和最小亮度和清晰度值。整个n = 98参与者的总体平均值也显示在表中。

渲染变量
字母参与者组
面部参与者组
空单元
空单元
所有SGI > AI
SGI ≈ AI
AI > SGI
所有SGI > AI
AI > SGI
n = 98
n = 30
n = 10
n = 58
n = 98
n = 52
n = 19
n = 27
最大亮度：0.77
0.56
0.56
0.77
1.00
1.00
0.83
0.47
清晰度：
0.00
0.1
1
1
1
1
1
中位亮度：
0.32
0.28
0.28
0.35
0.26
0.26
0.29
0.26
清晰度：
6
6
4
6
5
5
5.5
4
5
最小亮度：
0.08
0.14
0.08
0.08
0.08
0.08
0.11
0.08
清晰度：
16
11
16
18
18
14
13

观察图7可以发现，即使对于报告SGI强度高于余像的参与者，他们体验到的余像通常也非常清晰和强烈。对于字母刺激，大约三分之一的参与者表示他们体验到的SGI在亮度、清晰度、细节和视觉效果上均优于图7a中最右边的中位字母。同样，大约一半的参与者对图7b中最右边的中位面部也有相同的感受。即使在高图像质量的参与者组中，最暗淡和最模糊的余像也具有可辨别的视觉外观。这些定性描述表明，确实有相当比例的参与者具有强烈的视觉想象能力。

对于面部刺激，比较图7中中位AI外观的视觉表现也发现，无论参与者报告他们的SGI强度是高于还是低于AI，平均AI的外观在各个组之间都非常相似。因此，余像似乎为视觉想象提供了一个稳定的平均比较点；平均而言，报告SGI强度较高的情况不太可能是由于AI强度较低造成的。然而，对于字母刺激，观察图7可以发现，在低图像质量的组中，AI的中位亮度明显更强。因此，余像基线的变化可能导致更多参与者将他们的SGI强度评为低于AI。尽管如此，这种中位亮度的变化在感知上非常小，不太可能解释大多数参与者为何将他们的SGI强度评为高于或低于AI。换句话说，我们认为这种小的中位基线变化并不影响使用AI作为参考点的一般逻辑。此外，图7中的雨云图初步表明，三个组中AI外观的总体分布大致相似。我们将在下一节更定量地讨论这个问题。

3.3.6. 定量分析RR分数是否独立于余像渲染（研究问题3）
AI不是SGI的不变参考点这一观察结果使得RR分数的解释变得复杂。因此，研究问题3询问RR分数的变化是否可以由余像质量的变化而不是自我生成图像的变化来解释。

作为提醒，最容易解释的情况是RR分数独立于AI的变化。如果较高的RR分数与较强的AI相关（即正相关，这可能是由于一个共同因素增强了SGI和AI的强度），那么较高的RR分数平均而言仍然反映了较强的图像，但会低估图像的实际强度。最成问题的是，如果较高的RR分数与较弱的AI相关（即负相关），那么较高的RR分数可能反映了较弱的AI而不是较强的SGI。

为了补充第3.3.5节中描述的定性分析，我们通过两种定量方法进一步探讨了研究问题3。首先，由于我们特别关注零相关性的证据强度，采用了贝叶斯方法（Lee & Wagenmakers, 2014; Wetzels et al., 2011）。我们使用贝叶斯组间方差分析（ANOVA）来测试高、中和低RR分数的3个参与者组的AI渲染亮度或清晰度分布是否存在差异，或者是否更支持零假设。四个独立的ANOVA测试了参与者组对亮度或清晰度这些因变量的影响，分别针对字母或面部刺激。这些分析基于n = 98的子样本，使用了AI渲染程序的第2部分和生成RR分数程序的第3部分的测试试验。ANOVA采用了统一的贝叶斯先验，并使用JASP版本0.95.0.0（Van den Bergh et al., 2020）进行。贝叶斯因子BF01量化了支持零假设相对于替代模型的证据。

对于面部刺激，H0在亮度（BF01 = 5.05，误差% = .03）和清晰度（BF01 = 8.27，误差% = .03）的效果上获得了更多支持；即零假设的可能性分别是H1的5倍和8倍，根据Lee和Wagenmakers（2014）的解释指南，这构成了中等程度的证据支持零假设。对于字母刺激，H0在清晰度效果上也略微优于H1（BF01 = 6.85，误差% = .03），但亮度的结果不明确，H0和H1都没有获得实质性支持（BF01 = 0.98，误差% = .02）。总之，结果在任何条件下都不支持参与者组有显著影响，并且在4种条件中有3种条件支持没有影响。

其次，为了进一步量化AI质量变化与RR分数变化之间的任何关联，我们进行了AI亮度和清晰度对每个刺激（字母和面部）的复合RR分数的序数多元回归（Bürkner & Vuorre, 2019）。还进行了另一组多元回归，涉及投影的RR分数，因为这一维度没有包含在复合分数中。将亮度和清晰度作为预测变量是合理的，因为这些变量之间的相关性从未超过中等程度。报告的分析再次集中在测试试验上（即研究第2部分的AI渲染和第3部分的RR分数），使用我们的n = 98子样本。由于RR分数的序数性质和偏度，序数回归比普通最小二乘回归更为合适。整体模型拟合程度通过3种常见算法（McFadden、Cox和Snell以及Nagelkerke）获得的伪R2值范围来表示，传统的显著性以卡方检验的对数似然值的p值给出。回归使用jamovi（The jamovi project, 2024）进行。

对于面部刺激，复合RR分数的回归模型得到的伪R2值非常小（所有≤.002），总体上不显著（χ2(2) = 0.96，p = .62）。两个预测变量对复合RR分数均无显著影响（亮度，B = 0.82，CI95 [-1.53, 3.15]，SE = 1.18，p = .49；清晰度，B = -0.02，CI95 [-1.36, 0.09]，SE = 0.06，p = .71）。（注意，清晰度的B值为负表示清晰度增加，因为更高的清晰度以高斯模糊减少来量化）。对于字母刺激，伪R2值仍然很小（所有≤.01），尽管整体模型具有显著性（χ2(2) = 6.74，p = .03）。在这里，亮度显示出显著的负效应（B = ?2.78，95% CI [?5.10, ?0.53]，SE = 1.16，p = .02），但清晰度没有显著效应（B = ?0.07，95% CI [?0.17, 0.03]，SE = 0.05，p = .18）。

当投影的RR分数是序数回归的因变量时，面部和字母刺激的伪R2值都非常小（所有≤.006），并且回归模型对于面部（χ2(2) = 1.41，p = .49）或字母（χ2(2) = 0.96，p = .64）都不显著。这些结果与我们的先前贝叶斯分析基本一致：AI质量与复合RR分数之间的任何关联要么不存在，要么在字母刺激的情况下仅解释了很小一部分方差。例如，我们使用模型的阈值和系数来估计低SGI组（0.28；见表6）和高SGI组（0.35）的中位亮度下参与者的预期分数。对于字母刺激的测试试验，模型预测这些参与者在5级RR量表上的差异仅为0.5级。相比之下，组均值之间的实际差异为2.3级。这一差异表明，AI的渲染质量对RR分数的方差解释甚微。

总之，对于我们的面部刺激，贝叶斯ANOVA和序数多元回归的一致结果支持以下结论：（a）参与者AI的质量与（b）参与者对SGI相对于AI的强度评分之间没有系统性的关系。对于字母刺激，较亮的AI可能与较低的RR分数略有关联，但这种负相关仅解释了RR分数总方差的很小一部分。因此，AI的变化与SGI的变化之间的独立性得到了广泛的支持。请注意，当使用AI渲染程序的练习试验数据和生成RR分数的程序的练习试验数据重复进行分析时，结果非常相似（见补充材料S2.4节）。3.3.7. RR分数是否与现有的视觉意象测量方法相关？（研究问题4）研究问题4询问我们新的个体视觉意象差异测量方法——即RR分数——是否与参与者在研究第一部分中填写的OSIQ和SUIS自我报告工具上的分数相关。如果RR分数与OSIQ的视觉子量表以及SUIS有正相关，这将支持RR分数的构念有效性。此外，为了支持RR分数的区分有效性，我们还预测其与OSIQ空间子量表的分数无关；这将提供证据，排除RR分数与视觉OSIQ和SUIS之间的相关性可能归因于一般反应偏差或需求特征的可能性。表7显示了所有参与者（N=118）和子样本（n=98）的视觉OSIQ、SUIS和空间OSIQ的描述性统计信息，这些参与者（a）在测试试验中对面部刺激和字母A进行了RR评分，并且（b）认为他们的RR评分和AI渲染至少在某种程度上是准确的。每个量表的内部一致性（Cronbach’s alpha）都非常好，范围从.71到.85。对于空间OSIQ，我们样本均值的95%置信区间与之前的挪威样本均值重叠（Rizza & Price, 2012），我们的上95%置信区间要么紧密包含在其他先前发表的样本均值之内，要么略微低于这些均值（Ayadin, 2018; Blajenkova et al., 2006）。对于视觉OSIQ，我们样本的95%置信区间同样与之前的挪威样本均值重叠（Rizza & Price, 2012），而我们的上95%置信区间再次略微低于Ayadin（2018）和Blajenkova et al.（2006）的均值。对于SUIS，我们的置信区间与Nelis et al.（2014）对许多研究的综述中报告的均值范围重叠。表7显示了所有118名参与者以及在第2次试验中一致生成SGI的98名参与者的OSIQ视觉和空间子量表及SUIS的分数。表格显示了范围、带有95%置信区间的均值、标准差以及每个量表的内部一致性Cronbach alpha（α）。表7. 所有118名参与者和在第2次试验中一致生成SGI的98名参与者的OSIQ视觉和空间子量表及SUIS的分数。对于OSIQ的两个子量表和SUIS之间的成对相关性，使用我们的整个样本（N=118），显示出与先前发表的数据相似的模式。首先，观察到两种视觉意象测量方法——即视觉OSIQ和SUIS之间存在强烈的正相关[rp = .70, p < .001]；这与先前的研究结果一致，即视觉OSIQ可以与其他视觉意象的自我报告测量方法强烈相关（Blajenkova et al., 2006; Blazhenkova & Kozhevnikov, 2010; Burton & Fogarty, 2003）。其次，没有观察到空间OSIQ与视觉OSIQ[rp = -.04, p = .70]或SUIS[rp = .02, p = .84]之间存在显著的正相关；这也与先前的研究结果一致，即OSIQ的两个子量表或类似工具之间的相关性要么是弱负相关（Blajenkova et al., 2006; Blazhenkova & Kozhevnikov, 2010; Campos, 2014），要么不存在（Aydin, 2018; Blazhenkova & Kozhevnikov, 2009）。使用n = 98的子样本，计算了测试试验中的RR分数与这三个自我报告量表之间的相关性。这是通过非参数方法（rs）进行的，因为RR分数的非正态分布和序数性质，以及参数方法（rp）来生成置信区间（见表8）。由于两种类型的相关系数始终非常相似，尽管违反了参数假设，但参数模型生成的置信区间仍然可以作为一个有用的参考。为了最小化第二类错误的膨胀，我们没有将自我报告量表与RR分数的每个维度进行比较。相反，我们仅使用了综合RR分数（如3.3.5节所述，该分数汇总了亮度、清晰度、细节和视觉质量的4个相关维度），以及投影维度的RR分数。表8. 来自字母和面部刺激测试试验的3个意象自我报告量表与RR分数之间的相关性（n = 98）。1RR分数视觉OSIQSUIS空间OSIQ字母试验2综合RR分数CI95 rp [-.04, .35] rp = .16, p = .11rs = .18CI95 rp [.00, .38] rp = .20, p = .05rs = .18CI95 rp [-.23, .17] rp = -.03, p = .80rs = -.01投影RR分数CI95 rp [-.05, .34] rp = .15, p = .13rs = .17CI95 rp [-.31, .08] rp = -.12, p = .25rs = -.11CI95 rp [-.14, .26] rp = .06, p = .56rs = .07面部试验2综合RR分数CI95 rp [.12, .48] rp = .31, p = .002rs = .34 ?CI95 rp [.03, .41] rp = .23, p = .03rs = .26 ?CI95 rp [.00, .37] rp = .19, p = .06rs = .17投影RR分数CI95 rp [.00, .37] rp = .19, p = .07rs = .21 ?CI95 rp [-.23, .17] rp = -.03, p = .79rs = .01CI95 rp [-.26, .14] rp = -.06 p = .55rs = -.071对于每个相关性，首先列出了Pearson参数rp的95%置信区间，然后是rp的点估计和Spearman非参数rs。双尾p值未经过多重检验校正。*表示p < .05的非参数相关性。尽管表8中只有最强的相关性在当前样本量下能够通过Bonferroni校正，但效应大小的主要模式符合我们在研究问题4中预测的定性模式。对于面部和字母刺激，综合RR分数与视觉OSIQ和SUIS量表之间的相关性置信区间与弱到中等正相关一致。尽管面部刺激的相关性在数值上更为稳健，但两种刺激的置信区间非常相似。投影RR分数与视觉OSIQ之间的相关性也观察到了相同的模式，但与SUIS则没有。第三，各种RR分数与空间OSIQ之间的相关性平均较弱或不存在，这与预测一致；然而，置信区间并不排除存在弱正相关的可能性。当使用字母或面部刺激的练习试验中的RR分数重复进行实验时，结果非常相似（见补充材料S2.5节；注意，练习试验中视觉OSIQ/SUIS与综合RR分数之间的正相关性往往比测试试验更大）。这些结果得到了试点研究的数据补充（有关试点研究其他方面的详细信息，请参见补充材料）。如第2节所述，大多数试点研究（n = 142）的参与者在参与在线比较AI和SGI之前几天生成了自我管理的VVIQ分数。因此，这些VVIQ分数可以与他们在一个使用不同面部刺激的单一试验中的RR分数相关联。参与者在VVIQ的1-5李克特量表上的平均分数范围从1.0到4.9（组M = 3.6，SD = 0.7）。VVIQ分数与RR分数之间存在显著的正相关，效应大小为中等到强（rp = .42，p < .001，CI95 [.28, .55]；rs = .39，p < .001）。因此，试点研究和正式研究的数据共同支持我们的RR分数（使用余像作为基准）大致测量了与各种更传统的视觉意象口头自我报告测量方法相同的构念。然而，重要的是要记住，我们观察到的RR分数与视觉OSIQ、SUIS（以及在试点研究中）VVIQ之间的正相关性的置信区间包含了相当一般的关联。此外，这些相关性基于平均数据，掩盖了不同测量方法之间存在相当大的不一致性的例子。例如，以主要研究和试点研究中使用的面部刺激为例，散点图显示了一些在3个标准自我报告量表上得分高但RR分数低的参与者（见图8）。相反，至少对于SUIS和视觉OSIQ量表，我们看到了一些RR分数高但得分低的参与者。下载：下载高分辨率图像（343KB）下载：下载全尺寸图像图8. 面部刺激的RR分数与各种标准自我报告量表之间的散点图。数据显示了（a）主要研究中面部刺激测试试验的SUIS分数与综合RR分数；（b）主要研究中面部刺激测试试验的视觉OSIQ分数与综合RR分数；（c）试点研究中不同面部刺激的VVIQ分数与RR分数。在图a和b中，较大的圆圈表示2名参与者。在图c中，VVIQ分数是16-80范围内的累积分数。回归线显示了95%的置信区间。正的RR分数表示SGI被评价得比AI更强，负的分数表示AI被评价得比SGI更强。3.3.8. 标准自我报告的视觉意象测量方法能否预测余像的强度？（研究问题5）另一种测试余像强度与自动生成图像之间系统关系的方法是比较（a）参与者在我们提供的标准视觉意象量表（视觉OSIQ和SUIS）上的分数，与（b）参与者余像渲染的亮度和清晰度。表9a显示，对于面部和字母刺激，使用测试试验的数据（n = 98），rp和rs的点估计彼此相似，并且对于所有图像量表和AI渲染测量的组合都聚集在零附近。此外，贝叶斯因子（BF01）对于我们报告参数rp的所有相关性都显示出中等程度的支持（7.85 ≥ BF01 ≥ 4.56）。这与SGI和AI的强度是独立的前提一致，并进一步支持使用AI作为测量SGI差异的参考点的有效性。表9a. 来自字母和面部刺激测试试验的2个意象自我报告量表与余像亮度和清晰度渲染值之间的相关性（n = 98）。1AI渲染视觉OSIQSUIS字母试验2亮度rp = .11, CI95 [-.10, .31], p = .29, BF01 = 4.56rs = .07rp = -.08, CI95 [-.28, .13], p = .44, BF01 = 5.93rs = -.10清晰度rp = -.03, CI95 [-.23, .17], p = .77, BF01 = 7.61rs = .00rp = -.01, CI95 [-.21, .19], p = .89, BF01 = 7.85rs = .00面部试验2亮度rp = .03, CI95 [-.17, .23], p = .76, BF01 = 7.56rs = .04rp = -.10, CI95 [-.30, .11], p = .34, BF01 = 5.05rs = -.12清晰度rp = .04, CI95 [-.17, .24], p = .68, BF01 = 7.28rs = .08rp = .03, CI95 [-.17, .23], p = .78, BF01 = 7.62rs = .041表格显示了Pearson参数rp及其95%置信区间，以及Spearman非参数rs（所有p > .05）。P值（双尾）未经过多重检验校正。此外，贝叶斯因子BF01显示了支持零假设而非H1假设。为了提高这一发现与其他研究之间的一致性（见第4.2节的讨论），使用更大的样本量重新进行了相关性分析。这包括了另外6名参与者，他们声称在面对面部或字母刺激的测试中无法生成SGI（自动生成的图像）。虽然这些参与者被排除在我们n=98的样本之外（见第3.3.1.3节），但他们仍然完成了意象自我报告问卷并完成了AI渲染。将他们排除在当前分析之外可能的一个反对意见是，我们人为地去除了个体在视觉意象质量上的一个极端值（例如，失象症患者）。这可能会掩盖在更广泛分布中存在的关系。然而，如表9b所示，经过修订后的分析结果（n=104）在数值上几乎完全相同。此外，这6名参与者的AI渲染的平均亮度和清晰度在数值上都高于原始n=98样本的平均值，无论是对于字母还是面部刺激。所有个别值也都高于n=98样本中的最小值。总之，即使对于那些声称无法生成SGI的参与者来说，也没有证据表明他们的AI渲染异常弱或异常强。

表9b. 来自字母和面部刺激第二次试验的2个意象自我报告量表与残留图像亮度和清晰度渲染值之间的相关性（n=104）。表格详细信息与表9a相同。

AI渲染
视觉OSIQSUIS
字母试验2
亮度
rp = .13, CI95 [-.06, .31], p = .18, BF01 = 3.40
rs = .18
rp = -.03, CI95 [-.22, .16], p = .78, BF01 = 7.84
rs = -.06
清晰度
rp = -.04, CI95 [-.23, .15], p = .67, BF01 = 7.42
rs = -.04
rp = -.02, CI95 [-.21, .17], p = .80, BF01 = 7.91
rs = -.01
面部试验2
亮度
rp = .00, CI95 [-.19, .19], p = .99, BF01 = 8.16
rs = .08
rp = -.11, CI95[-.30, .08], p = .26, BF01 = 4.38
rs = -.11
清晰度
rp = .01, CI95 [-.20, .18], p = .94, BF01 = 8.13
rs = .02
rp = .01, CI95 [-.20, .18], p = .94, BF01 = 8.14
rs = .02

应当注意的是，这6名声称无法生成SGI的参与者在SUIS（平均分M = 2.6，标准差SD = 0.7）和视觉OSIQ（平均分M = 2.4，标准差SD = 0.6）上的得分也低于其他98名参与者的平均水平（分别为M = 3.6，标准差SD = 0.6；M = 3.4，标准差SD = 0.6）。然而，除了其中一名得分最低的参与者（在两个量表上的得分均为1.5）外，他们的得分都在其他参与者的平均值2.5个标准差范围内。这与标准工具缺乏精确性的观点是一致的。

4. 讨论
我们的讨论结构如下：在第4.1节中，我们总结了我们的主要发现以及我们方法论方法的潜在优势。在第4.2节中，我们关注我们结果的一个具体方面——残留图像和自动生成图像的强度是否相关——以解决与以往文献的明显不一致之处。第4.3节讨论了我们的方法在失象症中的适用性。第4.4节探讨了结果的另一个方面，推测性地挑战了来自联觉研究的“投影器-关联者”区分是否适用于正常视觉意象的个体差异。最后，第4.5节讨论了我们方法目前的局限性，并概述了未来探索的领域。

4.1. 主要发现概述
我们的试点研究和主要研究的综合结果表明，使用残留图像作为参考点来衡量自愿视觉意象的个体差异是可行的。针对我们的第一个研究问题，我们发现（见图5），许多参与者认为他们自动生成的面部或字母A的图像比残留图像更暗淡、更模糊、细节更少、视觉效果更差且投影效果更弱，但仍有相当一部分参与者（置信区间95%范围内的比例在16%到65%之间）认为他们的自愿生成的图像比残留图像更亮、更清晰、更详细、视觉效果更好且投影效果更强。作为一种衡量SGI个体差异的方法，这种方法具有简单性、直接反映人们的意象意识体验的优势，并减少了可能降低传统自我报告方法准确性的元认知污染。

我们的方法可能比经典量表（如VVIQ（Marks, 1973）更准确的几个原因如下：首先，通过要求人们将自愿视觉意象与位于意象体验分布中间的基准进行比较，我们可以显示出参与者之间的定性差异；即那些将他们的SGI评价为高于或低于基准的人。这规避了参与者在VVIQ等量表上如何定量衡量其意象与“真实视觉”参考点之间的距离的不确定性。例如，两个在VVIQ上都将他们的意象评价为“中等生动”的参与者，通过我们的方法可能会被揭示为位于残留图像基准的两侧——一个体验的意象超过了残留图像的质量，另一个则低于它。换句话说，位于基准两侧的定性差异揭示了一个在VVIQ中可能被掩盖的真实差异。另外，考虑一个选择了最低VVIQ评分的人，其描述是“完全没有图像”。虽然这在某种意义上可以与选择量表顶部描述“完全清晰且像正常视觉一样生动”有所不同，但该量表本质上是定量的，因为它基于沿5个等级估计与真实视觉的经验距离。而且这5个等级可能被不同的人以不同的方式解释。一个人可能因为自己是失象症患者而选择最低评分，另一个人可能因为他们的体验是非视觉的、短暂的或其他原因而将其分类为非视觉的。

此外，要求参与者渲染他们的残留图像的质量，使得他们的SGI体验的参考点能够被客观地量化和记录，从而能够大致描绘出参与者的SGI体验比什么更强或更弱（研究问题2）。例如，在我们的研究中，许多参与者认为他们的SGI体验比一个相当明亮和清晰的残留图像更强。

我们程序的一个补充方面是，它基于直接视觉比较来做出判断，这些比较是在明确定义的感知维度上进行的（例如，亮度、清晰度、细节），而不是依赖于使用复合且可能含糊的词汇（如生动性）来描述感官体验。传统的问卷需要参与者将他们的视觉体验转化为语言术语——这可能会根据不同个体的语言习惯或关于意象的隐含理论而有所不同。相比之下，在我们的方法中，参与者首先通过调整屏幕上的实际视觉参数来渲染他们的残留图像，然后将这种具体的视觉体验直接与他们自动生成的图像进行比较。这减少了语言转换的步骤，从而可能实现更高的精度。

在几个感知维度上评估意象，而不是仅仅基于整体生动性，并不一定需要使用残留图像作为参考点。这些维度同样可以应用于使用真实视觉作为参考的问卷中。然而，作为比较标准，残留图像提供了独特的优势。首先，残留图像是非真实的体验；像意象一样，它们代表的是环境中不存在的东西。这种共同的特性可能使意象和残留图像之间的现象学比较比将意象与真实视觉进行比较更为自然和有意义。其次，在我们的范式中，残留图像和自动生成的图像都是在闭眼状态下体验的。这种共同的观看情境将两种体验置于相同的现象学框架内——都是作为内部视觉体验发生的，而不是外部感知。相比之下，将意象与真实视觉进行比较需要参与者跨越两种根本不同的视觉体验模式：一种向外指向世界，另一种向内指向心理内容。

这些关于我们程序优点的论点引出了一个问题，即在实践中，这种方法是否确实能够生成准确的SGI测量。在这方面，大多数参与者元评价他们的AI渲染是准确的，以及他们将SGI与AI进行比较（RR评分）也是准确的，这是令人鼓舞的。即使这些元评价容易受到需求特征的影响，参与者似乎普遍认为基本程序是可行的。RR评分模式在我们的各种体验维度或两种类型的刺激之间并不相同，这也表明我们的主要因变量不太可能仅仅反映了普遍的响应偏差。

我们相对SGI强度评分的构念有效性得到了进一步的支持，这来自于RR评分与三种视觉意象自我报告工具之间的观察到的正相关关系——在我们的主要研究中是SUIS（Reisberg等人，2003）和OSIQ的视觉子量表（Blajenkova等人，2006），以及在我们的试点研究中的VVIQ（Marks，1973）（研究问题4；见表8）。尽管这些相关性始终为正，但通常很小，特别是对于字母刺激与SUIS和OSIQ工具而言。然而，对于面部刺激，所有三种工具的置信区间有相当大的重叠，并且都至少包含了中等效应大小。如果标准自我报告量表存在元认知污染，那么这些相关性大多只是轻微到中等的也就不足为奇了。实际上，对于一些参与者来说，RR评分与标准自我报告评分之间存在明显差异（见第3.3.7节）。然而，平均正相关性的存在令人放心，表明我们的新测量方法确实触及了相同的构念。此外，我们的测量方法的区分有效性还得到了支持，因为它与OSIQ的子量表（衡量空间而非视觉意象）没有类似的相关性。

4.2. 残留图像和自动生成图像的独立质量
解释我们的结果的一个重要前提是，RR评分的变化不应归因于残留图像质量的变化，而应归因于自动生成图像的变化（研究问题3）。这一点尤其重要，因为渲染的残留图像的质量并不均匀；也就是说，评价SGI的参考点在某种程度上是变化的。根据简单的数学关系，SGI表面强度的增加或减少可能仅仅反映了AI参考点强度的因果无关的增加或减少。如果一个共同的因果因素引入了AI强度和SGI强度之间的某种系统性正相关或负相关，例如通过自上而下的视觉处理的影响，那么RR评分的解释将会更加复杂。然而，我们没有观察到AI渲染的变化与RR评分之间存在稳健的关系（贝叶斯方差分析，由序数多元回归支持；见第3.3.6节）。对于大多数刺激和试验条件，零假设得到了积极的支持，任何关系趋势都没有解释超过微小的协方差。此外，AI的质量与SUIS和OSIQ的视觉子量表上的评分之间也存在正相关，提供了AI和SGI强度独立的证据（研究问题5；贝叶斯相关性；见表9a、表9ba和9b）。后一个结果也反驳了AI强度和RR评分看似不相关的可能性，即使AI和SGI强度实际上是正相关的；这在理论上可能是由于一个共同的隐藏变量导致AI和SGI强度同时增加，因此即使AI强度增加，RR评分（相对于AI）仍然保持不变。

我们观察到AI和RR评分之间没有稳健的关系这一事实实际上相当引人注目，因为AI确实存在变化。（请注意，这种变化可能反映了在AI诱导期间注意力的差异，以及个体在低级视觉和自上而下视觉过程中的差异。）这意味着AI的变化虽然存在，但相对于SGI的变化来说微不足道。尽管人工智能（AI）之间存在差异，但它们仍然是一个可行的参考点，用于评估我们在这里最感兴趣的方面——即合成视觉想象（SGIs）的质量。虽然我们自己的研究没有支持SGIs和AI之间的强度相互依赖性，但结果与Kronemer等人（2024年）的研究结果相反，后者最近声称正常参与者的VVIQ分数与AI强度呈正相关（见第1.0节）。与我们的研究一样，Kronemer等人通过要求参与者直观地描述他们所感知的AI的亮度和清晰度来客观测量AI的强度。这些研究之间的明显差异需要解释。一种可能性是，我们的研究犯了第二类错误，或者Kronemer等人犯了第一类错误。我们的研究在样本量上更具统计效力，而且我们发现AI与视觉OSIQ或SUIS分数之间的相关性为零假设提供了中等程度的贝叶斯支持。在Kronemer等人（2024年）的研究中，相关性的95%置信区间接近零，因此该研究中的任何真实效应可能都很微小；此外，只有AI亮度的发现被认为是可靠的，而AI清晰度的效应则容易受到单个参与者数据的影响。然而，如果我们使用贝叶斯统计方法重新分析Kronemer等人的开放获取数据，会发现VVIQ分数与AI亮度之间存在中等程度的正相关（BF10 = 5.52），尽管AI清晰度的结果不太明确（BF10 = 1.69）。由于他们的贝叶斯因子与我们对零假设的证据处于相似的数量级（我们的BF01在各种条件下介于4.56到7.85之间），仅凭统计可靠性很难对这两种结果做出判断。

另一种可能性是，不同的发现都是可靠的，但它们源于一个或多个程序上的差异，包括时间安排和观看条件：首先，Kronemer等人（2024年）的研究优势在于他们收集了多次试验的数据，而我们的研究只对每个刺激进行了一次测试试验（以及一次练习试验）。另一方面，我们的研究测试了两个刺激，并使用了两种不同的工具来进行意象自我报告。其次，Kronemer等人（2024年）诱导出的AI可能比我们研究中的要弱得多，因为他们的诱导时间为4秒而不是30秒，他们的刺激占据的视角只有一半，而且诱导器的亮度也低得多。我们稍后会回到这一点。第三，由于我们希望参与者在闭眼的情况下体验AI，我们的研究是在AI消退后回顾性地让他们进行描述；相比之下，Kronemer等人（2024年）的参与者需要在短暂诱导结束后10-12秒内开始描述他们的AI，此时AI的体验仍然存在。有人可能会认为同时报告残像感知更为准确，而我们的研究过于依赖对AI的记忆。也许我们的参与者的AI确实与他们的视觉意象强度相关，但这些差异在描述时已经被忘记了？然而，我们认为这种可能性不大。根据我们的经验，在短暂延迟后描述AI是完全可能的，并且相当准确。毕竟，人们在几秒钟后就会集中注意力去注意自己将要描述的刺激特征。在这方面，值得注意的是，96%的参与者认为他们的描述是准确的。此外，我们确实观察到了AI强度的变化，但这些变化与视觉意象的变化无关。除此之外，回顾性描述还可以避免其他潜在的混淆因素。

第四，由于Kronemer等人（2024年）使用了同时描述的方法，他们的参与者是在睁眼的情况下体验AI的，而我们的参与者是在闭眼的情况下进行的。睁眼观看可能会改变AI的现象学特征——例如，减少外部投射的感觉，这正是我们使用闭眼的主要理由。然而，这样做的好处是可以消除环境光和竞争刺激的视觉干扰。在Kronemer等人的研究中，睁眼观看可能导致AI在描述模板上偏离。这种重叠既可能削弱已经很微弱的AI（通过视觉干扰），也可能使准确匹配模板变得更加困难。较弱AI的一个效应可能是，在Kronemer等人（2024年）的实验条件下，这些弱AI确实受到自上而下的视觉过程的影响，这些过程也会影响意象的生动性。使用专门关注生动性的自我报告工具（如VVIQ）可能比更不专注于生动性的工具（如OSIQ或SUIS）更有可能反映这种影响。相比之下，在我们的研究中，AI可能足够强，以至于自上而下的过程没有额外的贡献。另外，当AI较弱时，描述过程可能更容易受到反应偏差的干扰，这也解释了VVIQ分数的一些变化。实际上，Kronemer等人明确表示，他们的数据不能排除这种偏差的解释。

总之，为了调和我们自己的发现与Kronemer等人（2024年）的发现，我们建议：（1）他们研究中VVIQ预测AI描述的弱趋势（如果存在的话）仅出现在AI比我们研究中的情况更弱时；或者（2）VVIQ分数受到多种反应偏差的影响，这些偏差也影响了AI的描述，尤其是在AI较弱或描述过程难以准确遵循的情况下。这些结论因另一项关于残像强度与自愿视觉意象强度之间关系的最新研究而变得复杂，该研究关注的是视觉意象多样性的极端低端——即失认症。与我们的研究不同，Krempel和Monzel（2024年）比较了来自失认症参与者群体和来自学生群体的大量个体之间的残像强度判断。与我们的研究结果不同，他们发现失认症患者报告的残像强度低于对照组，且效应量较大。值得注意的是，他们诱导AI的时间（15秒和30秒）与我们的研究相当，这表明即使残像相对较强，群体差异也可能出现。另一方面，这是在线研究，而我们的研究是在受控实验室条件下进行的，使用高对比度显示器在明亮的环境中，并且房间光线较暗。此外，失认症患者是在睁眼的情况下体验AI的，而我们的研究是在闭眼的情况下进行的。这些暴露条件使得我们的AI可能更强，尽管暴露时间相似。除了这些程序上的差异外，还可以认为Krempel和Monzel（2024年）的发现与我们的发现一致，如果较弱的AI仅限于失认症这一特殊群体，而在更正常的视觉意象个体差异范围内则没有这种关系（至少在我们的测试条件下是这样）。也许我们的样本中潜在的失认症患者太少，无法检测到这种非线性效应？尽管如此，当我们重新分析AI强度与SUIS或视觉OSIQ分数之间的相关性时，即使包括了那些在第三部分研究中报告没有视觉意象的参与者——即最有可能是失认症患者的人——我们仍然没有发现这种关系（见第3.3.8节）。在这个子组中，参与者描述的AI也没有特别弱。

Krempel和Monzel（2024年）的发现也可以用其他方式解释，而不只是表明失认症患者中的AI特别弱。首先，由于他们的研究使用了回顾性评估而不是同时评估，视觉意象非常差或完全缺失的人可能会因为现在回忆起来更弱而将最近体验到的AI评为弱，而不是因为他们实际体验时确实更弱。其次，任何让参与者从特殊群体（如失认症患者）中自我选择的研究都容易受到需求特征的影响。Krempel和Monzel提出了可能的辩护，但他们仍然认为失认症患者可能因为普遍认为自己的视觉意象非常差或完全缺失而将AI的视觉体验评为弱。这尤其有可能，因为Krempel和Monzel要求他们的在线参与者简单地用1-7的评分标准来评估AI的强度，而不是像我们研究那样详细地描述AI的亮度和清晰度。如果AI确实因为诱导和观看过程而较弱，正如我们上面推测的那样，需求特征可能会更有影响力。另一方面，当AI较弱时，描述过程可能更容易受到反应偏差的干扰，这也解释了VVIQ分数的一些变化。实际上，Kronemer等人明确指出，这种偏差不能排除作为他们数据解释的可能性。

总之，为了调和我们自己的发现与Kronemer等人（2024年）的发现，我们建议：（1）他们研究中VVIQ预测AI描述的弱趋势（如果存在的话）仅出现在AI比我们研究中的情况更弱时；或者（2）VVIQ分数受到多种反应偏差的影响，这些偏差也影响了AI的描述，尤其是在AI较弱或描述过程难以准确遵循的情况下。这些结论因另一项关于残像强度与自愿视觉意象强度之间关系的最新研究而变得复杂，但该研究关注的是视觉意象多样性的极端低端——即失认症。与我们的研究不同，Krempel和Monzel（2024年）比较了来自失认症参与者群体和对照组的学生群体之间的残像强度判断。与我们的研究结果不同，他们发现失认症患者的残像强度低于对照组，且效应量较大。值得注意的是，他们诱导AI的时间（15秒和30秒）与我们的研究相当，这表明即使残像相对较强，群体差异也可能出现。另一方面，这是在线研究，而我们的研究是在受控实验室条件下进行的，使用高对比度显示器在明亮的环境中，并且房间光线较暗。此外，失认症患者是在睁眼的情况下体验AI的，而我们的研究是在闭眼的情况下进行的。这些暴露条件使得我们的AI可能更强，尽管暴露时间相似。除了这些程序上的差异外，还可以认为Krempel和Monzel（2024年）的发现与我们的发现一致，如果较弱的AI仅限于失认症这一特殊群体，而在更正常的视觉意象个体差异范围内则没有这种关系（至少在我们的测试条件下是这样）。也许我们的样本中潜在的失认症患者太少，无法检测到这种非线性效应？尽管如此，当我们重新分析AI强度与SUIS或视觉OSIQ分数之间的相关性时，即使包括了那些在第三部分研究中报告没有视觉意象的参与者——即最有可能是失认症患者的人——我们仍然没有发现这种关系（见第3.3.8节）。在这个子组中，参与者描述的AI也没有特别弱。

Krempel和Monzel（2024年）的发现也可以用其他方式解释，而不仅仅是表明失认症患者中的AI特别弱。首先，由于他们的研究使用了回顾性评估而不是同时评估，视觉意象非常差或完全缺失的人可能会因为现在回忆起来更弱而将最近体验到的AI评为弱，而不是因为他们实际体验时确实更弱。其次，任何让参与者从特殊群体（如失认症患者）中自我选择的研究都容易受到需求特征的影响。Krempel和Monzel提出了可能的辩护，但他们仍然认为失认症患者可能因为普遍认为自己的视觉意象非常差或完全缺失而将AI的视觉体验评为弱。这尤其有可能，因为Krempel和Monzel要求他们的在线参与者简单地用1-7的评分标准来评估AI的强度，而不是像我们研究那样详细描述AI的亮度和清晰度。如果AI确实因为诱导和观看过程而较弱，正如我们上面推测的那样，需求特征可能会更有影响力。个体在残像持续时间上的差异，而不是它们的亮度或清晰度，与我们的当前研究关系不大，因为这不是我们比较AI和SGIs的维度。然而，正如我们在引言中提到的，之前关于持续时间的研究结果也不一致。Hirose和Hishitani（2005年）报告说较弱的VVIQ分数与较长的AI持续时间相关，而Wallace（1990年）则报告了相反的结果。再次，比较这些研究是很困难的。例如，Wallace使用非常高的光强度脉冲单眼诱导AI。Wallace的发现也更为复杂，因为较长的AI持续时间仅出现在那些VVIQ分数和特质催眠易感性分数都较高的参与者子组中。由于高催眠易感性似乎与对感知刺激的更好整体注意力相关，并且也与强烈的视觉意象相关，一种猜测是，这个子组对诱导刺激或随后的AI给予了更多的关注，从而延长了AI的持续时间。总之，将我们的结果与其他文献进行比较表明，残像与意象体验之间的关系可能既复杂又可能受到人为因素的影响。目前尚不清楚不同的结果是由于在某些刺激条件下AI和视觉图像的强度有关，而在其他条件下无关，还是因为某些程序掩盖了实际存在的关系，或者因为某些程序促进了人为关系的表达。此外，目前还不确定这种关系是否从正常的意象变化范围连续到失认症或超常想象的极端情况，或者在这些极端情况下是否存在不同的关系。未来的研究需要关注上述许多方法学细节和样本特征。

4.3. 应用于失认症尽管我们的研究并没有专门针对失认症患者，但它开发并验证了可以帮助回答以下问题的工具：所谓的失认症是否总是反映了真正的意象体验缺失，还是仅仅反映了报告标准的差异。事实上，区分意象差异和元认知解释及报告偏差的差异一直是失认症研究中的一个挑战（Schwarzkopf，2024年）。例如，可以使用弱诱导的残像来测试疑似失认症患者，以确定他们是否报告了任何超出最小残像强度的自愿意象。这可能比传统的问卷（如VVIQ）提供更敏感的测试方法，因为传统的问卷通常使用较低的分数来将人分类为失认症患者[通常<32/80（Delem等人，2025年），尽管一些研究使用≤25/80（Bainbridge等人，2021年）]。一个报告称其自愿想象的各方面都比几乎无法察觉的残像还要弱的失象症患者，将比在VVIQ测试中得到最低分数提供更有力的证据，证明其确实缺乏想象现象。VVIQ的最低分数可能仅仅反映了在将个人的想象与“真实视觉”进行比较时采用的保守评分标准。相反，如果非常微弱的残像被评定为比尝试产生的自愿想象还要弱，这将为失象症的说法提供反事实证据。在第3.3.7节中，我们描述了AI（自动想象）和SGI（自觉想象）的相对强度评分与视觉OSIQ和SUIS量表得分之间存在正相关（从弱到中等强度）。然而，我们也观察到了一些个体偏离这一模式的情况，即一些参与者尽管OSIQ或SUIS得分较低，但仍认为他们的SGI比AI更强。目前还没有基于OSIQ或SUIS得分来分类失象症患者的明确标准，但这些数据异常情况说明了我们的方法如何可用于质疑语言自评量表中低分数的解释。在我们的初步研究中，使用了VVIQ量表，将失象症的临界值设定为<32，从而识别出5名潜在的失象症患者。尽管他们中的大多数也给出了最低的RR（相对强度）分数-2（即AI远强于SGI），但VVIQ得分最低的参与者（得分为16）却认为他们的AI仅略强于SGI。如果他们是真正的失象症患者，这种情况就不应该发生。因此，我们有一个可能的反事实例子。如果在许多VVIQ得分较低的参与者中都能复制这一现象，那么使用低VVIQ分数进行诊断的说法就存在问题了。

正如第4.2节所讨论的，Krempel和Monzel（2024年）的最新失象症研究表明，在一般人群样本中，残像的强度与自愿想象的强度并不相关。他们的研究表明，至少对于这个特殊群体来说，残像可能更弱。因此，将我们的方法应用于失象症患者时，应该考虑到这种可能性。实际上，这意味着在解释失象症患者的想象能力（或缺乏想象能力）之前，需要仔细评估他们的残像质量。然而，如上所述，即使他们的残像异常微弱，仍然可以作为一种有用的基准来验证或质疑失象症的说法。

在结果的第3.3.3节中，我们探讨了参与者在比较SGI（自觉想象）和AI（自动想象）时不同体验维度之间的相关性。与其他维度相比，相关性最低的是“投射”维度——即图像在想象空间内部被体验的程度，与在周围空间外部被体验的程度。值得注意的是，投射维度与我们的“视觉质量”维度之间的相关性仅为中等。这可能挑战将参与者分类为“投射者”或“联想者”的尝试，无论是在正常想象范围内，还是在失象症或超想象症的极端情况下（Schwarzkopf, 2024）。尽管有时会提出这样的二元对立：(a) “投射者”将看到的图像投射到外部空间框架中，而(b) “联想者”只是在想象中的“内心之眼”中知道刺激的外观，既不非常视觉化也不进行投射（见第3.2.2.3节），但我们的程序将投射和联想分为两个正交维度。一方面，我们的投射维度关注的是内在/想象空间参考框架与外在空间参考框架；另一方面，我们的视觉质量维度关注的是SGI是被仅仅知道（对应于“联想”的概念）还是实际上被看到（“像真实视觉”一样）。因此，如果人们可以简单地被划分为投射者或联想者，我们可能会预期投射与视觉质量之间的相对评分有很强的正相关性；即投射越多，联想就越少。但事实并非如此。

在这里，我们进一步探讨了这一观察结果。虽然投射者-联想者的区分本身并不是我们研究问题的核心，但我们认为它很好地说明了分析个体想象体验差异时所需的细致和小心。再次检查图8中投射与视觉质量相关性的散点图可以清楚地看到，参与者并不都简单地分为投射者和联想者两类。诚然，在图8中，数据点主要集中在每个图表的左下象限，这些参与者认为他们的SGI既不那么投射也不那么视觉化。因此，这些参与者可能更接近于联想者的概念。两个图表中也包含右上象限的数据点，特别是对于面部刺激的参与者，他们认为他们的SGI既更投射也更视觉化，因此可能更接近于投射者的概念。然而，我们在图8a和8b的两个其他象限中也观察到了数据点。首先，左上象限的少数数据点表明，这些参与者报告说他们的SGI投射较强，但相对于AI而言，他们的视觉感知较弱。如何解释这些数据点呢？由于投射和视觉质量的评分是相对于AI的，而AI的投射和视觉质量程度并未测量，因此无法从这些数据中精确推断出SGI投射和视觉质量的绝对水平。尽管如此，SGI的视觉质量低于AI而投射较强仍然显得很奇怪。推测来说，这些数据点可能代表了那些将面部或字母的外观仅仅视为已知，但这种知识仍然与周围空间的位置紧密相关的参与者。这里有几种可能的情况：(a) 一个人可以将“已知”（但未“看到”的）对象的位置投射到外部空间位置；(b) 一个人可以将对象的空间结构模型（缺乏视觉内容）投射到外部位置；(c) 对对象的视觉记忆激活可能非常短暂，以至于无法被描述为真正的视觉体验，但仍属于投射。这些都是在没有强烈视觉感知的情况下仍存在投射的例子。

在图8a和8b的右下象限中，有一些参与者的投射和视觉质量之间存在相反的 dissociation（分离）。现在，SGI被评定为比AI更视觉化，但投射较弱。与之前一样，解释变得复杂，因为评分是相对于AI的投射和视觉质量而言的。这些参与者是否只是AI的视觉体验不强但投射较强的情况呢？即使如此，这也表明增加的投射并不一定伴随着视觉质量的提高，至少对于AI来说是如此。然而，根据我们自己的非正式观察，我们认为投射和视觉质量之间的差异更可能发生在SGI中；即在我们看来，较强的SGI往往感觉更投射，而SGI有时也可能感觉非常视觉化，但仍然发生在想象空间中。另一个支持这一解释的后续论据是观察到图8右下象限的数据点中，面部刺激的数据点比字母刺激更多。如果我们合理假设字母和面部的AI具有相似的投射和视觉质量（即RR分数相对于相似的基线），那么字母和面部刺激之间的RR分数差异确实表明了个体内部在自我生成的想象之间存在真实差异。

总之，虽然我们承认这一讨论是探索性和推测性的，但我们的数据表明可能的体验情况比简单的投射与联想更为复杂。我们认为在未来的视觉想象个体差异研究中考虑这一点很重要。这包括对失象症的研究，我们需要准确理解这一群体在体验的哪个方面存在差异。例如，一些失象症患者是否能够在没有视觉质量的情况下体验投射？非失象症患者是否可能因为他们的视觉体验没有投射，或者因为他们的投射体验不是视觉化的，而认为自己没有真正的想象体验？

尽管研究结果表明我们的程序能够测量自我生成图像的一些变异，并且这种方法可能较少受到元认知解释和反应偏差的影响，但我们研究的一个主要局限性是它尚未证实我们的测量方法是否实际上比现有工具更准确。因此，未来研究的一个下一步是测试我们的程序是否能比现有方法提供更强、更一致的预测指标，以预测各种提出的视觉想象的行为和神经相关性。此外，还需要比较我们的方法在较长时间内的重测可靠性与其他方法。由于我们的样本主要是女性，还需要考虑性别差异；鉴于有关性别在残像感知（Hoyenga等人，1979年）和某些心理想象方面（Campos，2014年）的差异报告，这种不平衡可能很重要。未来的研究应该争取更平衡的样本，以检验性别是否调节了我们观察到的残像与自愿想象之间的关系。在未来的研究中，最初可以根据参与者的SGI是否被评定为比AI质量更强或更弱来简单分类他们。我们初步研究和主要研究结果的趋同也表明，基本方法不一定总是需要正式的实验室控制才能有用。我们实验室研究的练习试验和测试试验结果的相似性也表明，简短的一次性试验设计可能就足够了，尽管在长时间练习后检查结果是否发生变化是明智的。

我们程序的一个方面是要求对SGI质量在几个体验维度上进行评分。这是出于提高指令和评分精确度的考虑。我们选择的维度是探索性的，而且我们的研究样本量不足以可靠地确认许多维度之间的详细后验模式。这也是未来研究需要扩展的领域。大多数维度之间的强相关性可能表明，在未来的研究中可以简化程序。例如，可以要求参与者仅评估SGI的亮度和清晰度。另一方面，我们在第4.4节中对投射者-联想者区分的讨论提醒我们，仔细调整我们提出的问题对于全面理解个体体验差异非常重要。

再次检查图8中投射与视觉质量相关性的散点图可以清楚地看到，参与者并不都简单地分为投射者和联想者两类。当然，在图8中，数据点主要集中在每个图表的左下象限，这些参与者认为他们的SGI既不那么投射也不那么视觉化。因此，这些参与者可能更接近于联想者的概念。然而，两个图表中也包含右上象限的数据点，特别是对于面部刺激的参与者，他们认为他们的SGI既更投射也更视觉化，因此可能更接近于投射者的概念。然而，我们在图8a和8b的两个其他象限中也观察到了数据点。首先，左上象限的少数数据点表明，这些参与者报告说他们的SGI投射较强，但相对于AI而言，他们的视觉感知较弱。如何解释这些数据点呢？由于投射和视觉质量的评分是相对于AI的，而AI的投射和视觉质量程度并未测量，因此无法从这些数据中精确推断出SGI投射和视觉质量的绝对水平。尽管如此，SGI的视觉质量低于AI而投射较强仍然显得很奇怪。推测来说，这些数据点可能代表了那些将面部或字母的外观仅仅视为已知，但这种知识仍然与周围空间的位置紧密相关的参与者。这里有几个可能的情况：(a) 一个人可以将“已知”（但未“看到”的）对象的位置投射到外部空间位置；(b) 一个人可以将对象的空间结构模型（缺乏视觉内容）投射到外部位置；(c) 对对象的视觉记忆激活可能非常短暂，以至于无法被描述为真正的视觉体验，但仍属于投射。这些都是在没有强烈视觉感知的情况下仍存在投射的例子。

在图8a和8b的右下象限中，有一些参与者的投射和视觉质量之间存在相反的 dissociation。现在，SGI被评定为比AI更视觉化，但投射较弱。与之前一样，解释变得复杂，因为评分是相对于AI的投射和视觉质量而言的。这些是否只是AI的视觉体验不强但投射较强的参与者呢？即使如此，这也表明增加的投射并不一定伴随着视觉质量的提高，至少对于AI来说是如此。然而，根据我们自己的非正式观察，我们认为投射和视觉质量之间的差异更可能发生在SGI中；即在我们看来，较强的SGI往往感觉更投射，而SGI有时也可能感觉非常视觉化，但仍发生在想象空间中。另一个支持这一解释的后续论据是观察到图8右下象限的数据点中，面部刺激的数据点比字母刺激更多。如果我们合理假设字母和面部的AI具有相似的投射和视觉质量（即字母和面部的RR分数相对于相似的基线），那么字母和面部刺激之间的RR分数差异确实表明了个体内部在自我生成的字母和面部想象之间存在真实差异。

总之，虽然我们承认这一讨论是探索性和推测性的，但我们的数据表明可能的体验情况比简单的投射与联想更为复杂。我们认为这在未来的视觉想象个体差异研究中非常重要。这包括对失象症的研究，我们需要准确了解这一群体在体验的哪个方面存在差异。例如，一些失象症患者是否可以在没有视觉质量的情况下体验投射？非失象症患者是否可能因为他们的视觉体验没有投射，或者因为他们的投射体验不是视觉化的，而认为自己没有真正的想象体验？

尽管研究结果表明我们的程序能够测量自我生成图像的一些变异，并且这种方法可能较少受到元认知解释和反应偏差的影响，但我们研究的一个主要局限性是它尚未证实我们的测量方法是否实际上比现有工具更准确。因此，未来研究的一个下一步是测试我们的程序是否能提供比现有方法更强、更一致的预测指标，以预测各种提出的视觉想象的行为和神经相关性。此外，还需要比较我们的方法在较长时间内的重测可靠性与其他方法。由于我们的样本主要是女性，还需要考虑性别差异；鉴于有关性别在残像感知（Hoyenga等人，1979年）和某些心理想象方面（Campos，2014年）的差异报告，这种不平衡可能很重要。未来的研究应该争取更平衡的样本，以检验性别是否调节了我们观察到的残像与自愿想象之间的关系。在未来的研究中，最初可以根据参与者的SGI是否被评定为比AI质量更强或更弱来简单分类他们。我们初步研究和主要研究结果的趋同也表明，基本方法不一定总是需要正式的实验室控制才能有用。我们实验室研究的练习试验和测试试验结果的相似性也表明，简短的一次性试验设计可能就足够了，尽管在长时间练习后检查结果是否发生变化是明智的。

我们程序的一个方面是要求对SGI质量在几个体验维度上进行评分。这是出于提高指令和评分精确度的考虑。我们选择的维度是探索性的，而且我们的研究样本量不足以可靠地确认许多维度之间的详细后验模式。这也是未来研究需要扩展的领域。大多数维度之间的强相关性可能表明，在未来的研究中可以简化程序，只需要在较强和较弱想象者之间进行粗略的划分。例如，可以要求参与者仅评估SGI的亮度和清晰度。另一方面，我们在第4.4节中对投射者-联想者区分的讨论提醒我们，仔细调整我们提出的问题对于全面理解个体体验差异非常重要。另一个需要进一步探索的变量是正在想象的刺激类型。在当前研究中，我们已经发现个体想象强度的广泛差异似乎可以推广到两种类型的刺激——面部和字母——它们的视觉处理已知会激活不同的算法和不同的神经回路（Tanaka & Simonyi, 2016）。然而，这些刺激之间的想象也存在差异。一个例子是，相对于AI，SGI通常被认为对面部刺激的评分更强。这种趋势在某些体验维度上尤为明显，例如图像的细节，可能是因为熟悉的面部SGI包含更多的内部细节。另一个例子是，RR分数与标准问卷测量之间的相关性对于面部刺激来说比字母刺激更大。面部是复杂的、具有个人意义的刺激，可能更充分地激发个体在想象能力上的差异。此外，问卷条目通常涉及与面部相比更类似于字母的复杂场景、人物和对象。研究设计不应假设不同刺激之间的等同性（另见McAvinue & Robertson, 2007）。未来的研究可以通过将复杂刺激（如人脸）的意象与比Mooney人脸引起的更复杂的残像进行比较来探索这些刺激。诱导出生动、详细且有色的人脸残像的刺激是完全可能的（例如，参见https://www.flickr.com/photos/dimitriparis/albums/72157627196731067/）。另一种更复杂的刺激类型是整个场景，其感知和记忆重构可能基于与单个物体不同的过程（Maguire & Mullally, 2013; Rubin, 2020）。整个场景的视觉意象可能依赖于这种特殊性（Beech & Allport, 1978; Stecher & Kaiser, 2024），并且可以与整个场景的残像进行比较；虽然这样的残像可能与单个物体的残像有一些不同的特性，但它们仍然是可以诱导出来的（Pelz & Hayhoe, 1995）。在创伤性闪回或社交焦虑等情况下，整个场景的残像可能特别适合作为侵入性意象的比较对象，也可以与要求参与者想象场景而非单个物体的工具（如VVIQ）进行比较。除了研究健康人群中正常或极端范围内的视觉意象个体差异（见第4.3节）之外，临床人群也是我们可以应用我们方法的另一个领域。由于自愿视觉意象在许多治疗方法中的重要作用（见第1节），以及其生动性可以预测非自愿侵入性意象（Arnold et al., 2025），而后者与许多形式的心理健康障碍有关，因此自愿视觉意象的变化在这里尤为重要。将我们的方法调整用于直接测量非自愿或侵入性意象是另一个值得探索的领域，尽管这更具挑战性，因为这些图像（按定义）不像我们当前研究的自愿意象那样容易控制。显然，视觉意象似乎是一个复杂的体验领域，其个体差异不太可能通过测量诸如生动性这样的构念来准确或完全捕捉。本研究提供了一种潜在的有益方法来探索这一领域，使用残像作为参考点，以一种能够敏感地反映不同刺激特征的方式评估意象体验的可分离维度。

作者贡献声明：
Marcin Czub：撰写——审阅与编辑、软件、资源、方法论、数据分析、概念化。
Mark Price：撰写——初稿、监督、项目管理、方法论、资金获取、数据分析、概念化。
Milton Gering：撰写——审阅与编辑、数据分析。
Thea M.M. Haugland：撰写——审阅与编辑、方法论、研究、概念化。

未引用的参考文献：
Behrmann et al., 1994; D'Argembeau and Van der Linden, 2006; Holmes and Mathews, 2010; Hirose and Hishitani, 2015; Hoyenga and Wallace, 1979; Lehmann, 2006; Marks, 1995; Monzel et al., 2024; Nabokov, 1955; Schooler and Engstler-Schooler, 1990; The jamovi project, 2024

利益冲突声明：
作者声明没有已知的可能会影响本文的财务利益或个人关系。

数据可用性和程序文件：
本研究涉及的数据文件和编程文件可在Open Science Framework仓库（https://osf.io/ne6k7/）免费下载。直接链接请参见https://osf.io/ne6k7/files/osfstorage。

热点排行