在沉浸式虚拟现实中购物：视觉、听觉和认知需求对心理负荷的影响

《Applied Ergonomics》：Shopping in immersive virtual reality: Effects of visual, auditory, and cognitive demands on mental workload

【字体：大中小】 时间：2026年05月10日 来源：Applied Ergonomics 3.4

编辑推荐：

　　萨尔瓦托雷·卢卡·库奇内拉（Salvatore Luca Cucinella）| 乔斯特·德·温特（Joost de Winter）| 亚历克斯·范登贝格（Alex van den Berg）| 比比·范登贝格（Bibi van den Berg）| 杜威·霍赫斯泰因（Douwe

　　萨尔瓦托雷·卢卡·库奇内拉（Salvatore Luca Cucinella）| 乔斯特·德·温特（Joost de Winter）| 亚历克斯·范登贝格（Alex van den Berg）| 比比·范登贝格（Bibi van den Berg）| 杜威·霍赫斯泰因（Douwe Hoogsteen）| 丹·普茨马（Daan Poutsma）| 弗洛里斯·范温格登（Floris van Wingerden）| 劳拉·马尔查尔-克雷斯波（Laura Marchal-Crespo）
荷兰代尔夫特理工大学认知机器人学系

**摘要**
随着沉浸式虚拟现实应用在娱乐、教育和专业培训中的日益普及，人们越来越关注其效果。虽然许多应用追求极致的真实性，但简化虚拟环境可能带来诸如减轻精神负担和提高对核心任务关注度等好处。然而，不同类型的需求对用户精神负担的具体影响仍不明确。

**研究目的**
本研究探讨了在沉浸式虚拟现实中，视觉、听觉和认知需求对用户在进行日常活动时精神负担的影响。

**研究方法**
24名参与者佩戴头戴式显示器（HMD）完成虚拟购物任务，即从货架上挑选10件商品，实验条件包括：视觉需求（移动的字符）、听觉需求（背景噪音）和认知需求（同时进行的算术任务），以及这三种需求的组合。研究通过测量心率、瞳孔直径以及参与者的自我报告来评估精神负担。

**研究结果**
认知要求较高的次要任务导致了最大的精神负担，显著高于听觉和视觉需求。例如，在1（低）到10（高）的评分体系中，参与者对移动字符任务的自我报告为4.40，背景噪音为5.00，算术任务为6.67，而三种需求组合为7.17。个体间存在差异，但这些差异被较高的个体间变异性所掩盖。

**结论**
在虚拟购物任务中，减少认知需求可能比减少与任务无关的视觉或听觉需求更有效地减轻精神负担。

**1. 引言**
头戴式显示器（HMD）不仅用于娱乐和游戏（如Artillery Intelligence, 2024; Statista, 2023所示），还广泛应用于各种专业领域，包括建筑设计（Hou et al., 2024）、体育训练（Faure et al., 2020; Pastel et al., 2023）、外科手术训练（Mao et al., 2021; Munawar et al., 2024）、恐惧症暴露疗法（Krijn et al., 2004; Spyridonis et al., 2024）以及神经康复（旨在恢复脑损伤后的功能；Langhorne et al., 2011; Palacios-Navarro and Hogan, 2021; Specht et al., 2023）。HMD相比传统2D屏幕在提供沉浸式体验方面具有优势，例如能增强用户的愉悦感和沉浸感（Newman et al., 2022）。Wenk等人（2022）发现，使用HMD时，参与者的动作更直接、更短且更流畅，这可能是由于立体视觉效果、减少的空间视觉转换需求以及更好的手眼协调能力。在康复领域，沉浸式虚拟现实的优势在于它能够模拟真实世界环境，使患者能够在无风险的情况下练习复杂技能（Saldana et al., 2020）。此外，这些任务的计算机化特性便于跟踪表现和任务进度（De Pasquale et al., 2024; Nath et al., 2022; Stanica et al., 2020）。关于沉浸式体验所需的真实程度仍存在争议（例如Gon?alves et al., 2022）。真实度指的是虚拟环境与真实世界的相似程度，包括听觉、视觉和触觉反馈，这些因素有助于模拟现实生活中的感知和环境特征（Melo et al., 2022）。虽然普遍认为虚拟环境越真实，学习效果越好，但证据表明真实度与学习迁移之间的关系更为复杂（Levac et al., 2019）。先前研究表明（Cucinella et al., 2025; Elghoul et al., 2022; Guadagnoli and Lee, 2004; Levin and Demers, 2021; Sweller, 2020; Van Merri?nboer and Sweller, 2005; Wiskerke et al., 2022），学习者不应过度受刺激，而应面临适当的挑战以达到最佳认知水平。在本研究中，我们使用“精神负担”一词来描述用户所承受的认知成本，该变量通过自我报告和生理指标进行量化（Hart and Staveland, 1988）。简化环境可能是提高培训效果的有效方法（参见Fisher et al., 2014; Dahlstrom et al., 2009）。例如，在学习驾驶时，去除视觉信息（如树木和建筑物）可能有助于减轻精神负担，使学习者更专注于保持车辆在路上这一核心任务，从而更有效地学习。然而，如何简化沉浸式环境以降低参与者的精神负担仍是一个未解决的问题。

理解不同任务需求如何影响精神负担对于设计根据用户需求调整环境复杂性和任务难度的虚拟现实系统至关重要。为了考察不同类型的辅助需求如何影响精神负担，参与者在沉浸式虚拟环境中进行了日常活动任务。选定的环境是超市的数字复制品，任务内容为购物。此前已有研究利用沉浸式虚拟现实评估认知功能（Ouellet et al., 2018），以及与日常生活工具性活动相关的认知和运动功能（Lewis et al., 2023）。本研究特意操控了听觉、视觉和认知需求，因为购物通常涉及这三种需求。具体而言，购物环境可能嘈杂且存在干扰因素（如其他人在场），同时记忆商品价格、花费金额或选择商品也需要认知努力。Wickens的多资源理论（2002）提供了一个预测这些需求如何影响表现的框架。该理论认为，当多种任务依赖相同类型的资源（如视觉或语言资源）时，多任务处理会变得困难。尽管研究表明背景噪音可能影响任务表现（Doggett et al., 2021），视觉复杂性可能降低视觉任务的效率（Ragan et al., 2015），但人类可以通过将注意力集中在主要任务上来减轻这些干扰。然而，在购物环境中，视觉和听觉目标可能与主要视觉任务（如寻找货架上的商品）竞争，但实际处理这些干扰并非必须，因为人类可以选择性地关注相关任务线索（Wickens, 2021）。不过，保持信息在工作记忆中本身就具有挑战性，可能干扰记忆和识别商品所需的核心处理资源。因此，与任务无关的视觉和听觉刺激对任务表现的影响较小，而强制性的认知任务则可能更具抑制作用。

**2. 材料与方法**
**2.1 参与者**
参与者通过口口相传的方式从代尔夫特理工大学招募，未获得报酬。所有参与者均签署了书面知情同意书。该研究获得了代尔夫特理工大学人类研究伦理委员会（HREC）的批准（批准编号2615）。样本量通过启发式方法确定，以实现四种实验条件的完全平衡（24种排列组合：4×3×2×1）。在测试所有24名参与者后，有3名参与者（编号2、4和5）的数据存在错误或不完整问题：参与者2的部分实验数据无法测量，参与者4的声音未开启，参与者5的一次实验数据缺失。为确保所有24名参与者都有完整数据，这些参与者被新招募的参与者替代。这些参与者年龄在20-25岁之间（12名女性，12名男性）。

**2.2 实验设置**
实验在实验室进行，空间足够大，参与者可以自由活动而不会碰撞到物体。房间门窗关闭且开灯，能透入自然光。实验设备包括HTC Vive Pro Eye头戴显示器（台灣HTC公司制造），视野范围为110°，双眼分辨率分别为1440×1600像素（合计2880×1600像素），以及HTC Vive追踪控制器。该显示器具备内置眼动追踪技术，瞳孔直径数据采集频率约为90Hz。虚拟环境使用Unity游戏引擎（Unity Technologies, USA）2021.3.11f1版本构建。通过SteamVR插件（版本2.7.3，Valve Corporation, USA）将HTC Vive与Unity软件连接。同时下载并安装了Tobii XR SDK和SRanipal SDK包以收集眼动数据（developer.vive.com和hub.vive.com）。购物商品（如洋葱、面包、牛奶盒）和角色头像（NPC Populator包）从Unity Asset Store获取。此外，还使用了两首作为听觉刺激的原声音乐；这些音乐是从Envato Elements商店（elements.envato.com）购买的。HTC Vive Pro Eye的耳机被用来播放这些听觉刺激。使用蓝牙连接的TMSi Porti 7设备（TMSi，荷兰）以1024 Hz的频率采集心电图（ECG）数据。电极放置采用了II导联配置。数据记录使用的是MATLAB（R2021b版本）。ECG记录和相关眼睛数据的处理分别使用不同的软件进行（ECG数据使用MATLAB R2021b版本，HTC Vive数据使用Unity）。通过同时手动启动记录来大致同步数据。运行Windows 10 64位版本的计算机在Unity编辑器中执行了这项任务。该计算机配备了32 GB的DIMM DDR4 RAM内存、NVIDIA GeForce RTX 3080显卡（NVIDIA Corporation，美国）以及3.70 GHz的AMD Ryzen 9 5900X十二核处理器（Advanced Micro Devices，美国）。

2.3. 虚拟购物任务
该任务要求参与者（1）从虚拟环境中的购物清单上读取十种商品，（2）按照清单上显示的顺序从货架上取下每种商品，（3）将商品放入购物车中，（4）收集完最后一件商品后大声说出“停止”，以便研究人员结束实验。参与者可以在一个可行走的区域内移动，该区域包括装有商品的货架、购物清单和购物车（见图1）。

2.4. 实验条件
实验包括四种不同的条件（详见表1）。

表1. 四种实验条件的概述：
- 条件：“人物”
- 多个人物（6男6女）在商店过道中行走，并在货架后面活动。十二个角色（6女6男）被放置在虚拟环境中。这些角色不会干扰参与者的任务，但他们位于货架后面和旁边的过道中。
- 条件：“噪音”
- 使用两种单声道音频片段：一种模拟繁忙超市的环境声（对话、门开关声等），另一种包含收银机的声音。超市环境声以非空间化的形式呈现，没有明确的空间位置；收银机声音则以空间化的形式呈现，位于参与者右侧大约4米处。
- 条件：“算术”
- 每次从货架上取下商品时，参与者需要心中倒数99，每次减去7，然后大声报出结果。这种任务对工作记忆和注意力有较高的要求，因为它需要个体在脑海中保持一个数字，进行重复的心理计算，并且需要长时间保持专注。
- 条件：“综合”
- 结合了前面的三种条件（人物、噪音和算术）。在算术任务中，参与者从101开始，每次取下商品时需要减去7。

2.5. 依赖性指标
针对每次完成的试验，计算了以下依赖性指标：
- 自报的心理需求和努力程度（1到10分）。每次试验后，使用NASA任务负荷指数（TLX）来评估心理需求。该指数包括以下六个项目：
- 心理需求：任务在心理上有多难？
- 身体需求：任务在体力上有多难？
- 时间需求：任务的节奏有多快？
- 表现：完成指定任务的成功程度如何？
- 努力程度：完成任务所需的努力有多大？
- 沮丧感：参与者感到多么不安全、沮丧、烦躁、有压力或烦恼？
参与者在这六个维度上进行了10分制的评分。本研究中仅评估了心理需求和努力程度两个项目，因为这两个项目涉及任务的心理或认知方面，这也是我们主要关注的焦点。
- 任务完成时间（秒）。每次试验的完成时间是从试验开始到将第十件商品放入购物车为止的时间。
- 瞳孔直径（毫米）。通过平均左右眼的瞳孔直径值，并在试验期间取平均值来计算平均瞳孔直径。
- 心率（次/分钟）。使用Sedghamiz（2014）开发的Pan-Tompkins QRS检测器实现，从ECG信号中提取心跳数据。Pan和Tompkins（1985）的方法是一系列信号处理步骤，用于识别ECG信号中的QRS复合波。每次试验的平均心率计算为检测到的心跳次数除以ECG记录的秒数。

2.6. 实验流程
参与者到达实验房间后，阅读并签署了同意书。随后，他们听取了关于实验如何进行的说明。具体来说，参与者被要求从超市货架上取下十件商品，并将它们放入右侧的购物车中，按照购物清单上的顺序进行。说明还解释了如何使用控制器，指出可以通过按钮抓取和释放物品。参与者被口头指示在整个实验过程中只使用右手，并将左手放在身体旁边以减少ECG记录中的干扰。此外，参与者被要求尽可能准确地快速完成任务，优先考虑准确性而非速度。同时，研究人员向参与者说明了安全事项，提醒他们可能会感到晕动，并告知他们如果感到不适可以随时停止实验。
在说明之后，参与者按照II导联配置将ECG电极连接到躯干。接着，他们戴上头显示器（HMD），并校准了设备中的眼动追踪器。参与者首先进行了5分钟的熟悉阶段，以适应虚拟环境和任务。他们面前展示了一个部分装满商品的货架，可以随时提问。然后他们进行了一次练习试验，在这次试验中不涉及人物、背景噪音或算术任务。将购物清单上的所有商品放入购物车后，他们取下了HMD并通过Google Forms完成了第一个NASA-TLX问卷。练习试验仅用于熟悉目的，不计入分析结果。
接下来，每个参与者依次在四种条件下进行了四次实验（人物、噪音、算术或综合），每种条件都进行了24种排列组合的平衡测试。在每次试验开始前，都会重新校准眼动追踪器。试验过程中，参与者不知道自己处于哪种条件。每次试验后，参与者会填写与所处条件相关的NASA-TLX问卷。最后，参与者完成了关于他们的体验、遇到的挑战以及任何不适感的口头问卷。整个实验（包括准备和问卷填写）每名参与者大约持续50分钟。接下来是主要实验，该实验包括四个平衡的条件，每次试验后都会完成NASA-TLX测试。在实验后的问卷阶段，参与者提供了定性反馈。所有时间均为近似值。

2.7. 统计分析
使用配对样本t检验比较了所有六种条件组合。所有分析均在MATLAB（R2024a）中完成。为了考虑多重比较，我们将临界α值降低到了0.05/6 ≈ 0.008。我们使用了Cohen's d作为常用的度量标准，它描述了相对于合并标准差sp的平均值差异（Cohen, 1969; Goulet-Pelletier and Cousineau, 2018）：
d = (M1 - M2) / sp
where sp = (n - 1) * (s1^2 + s2^2) / (2n - 2) = (2/3) * (s1^2 + 2/3 * s2^2)
其中s12是条件1的方差，s22是条件2的方差，n是样本大小（n = 24）。
请注意，尽管我们的实验采用了被试内设计，仍然可以解释Cohen's d。这个d值表示条件之间的差异大小，而不考虑个别参与者对条件变化的反应。

我们还使用了Cohen's dz，它与配对样本t统计量相对应，定义为平均值差异除以两个向量之间差异分数的标准差（Faul et al., 2007; Rosenthal, 1991）：
dz = (t_n - M_diff) / S_diff
Cohen's dz代表了描述差异大小的更优统计方法，因为它考虑了参与者在从一个条件转换到另一个条件时分数的变化情况。假设两个分数呈正相关（例如，在条件1中心率较高的参与者在条件2中的心率也可能较高），dz通常会比d更强。
因此，报告两种效应大小可以提供更全面的结果视图，其中dz表示参与者内部的标准化变化，而d则表示相对于两种条件的变异性。d值为0.2被解释为小效应，0.5为中等效应，0.8或以上为大效应（Cohen, 1969）。

3. 结果
表3展示了24名参与者的描述性统计（即均值和标准差），以及每个因变量的配对样本t检验结果。我们包括了效应大小（d），它描述了相对于合并标准差的平均值差异，以及与t统计量直接相关的被试内效应大小（dz）。
表3. 四种实验条件下四种因变量的均值、标准差（SD）和配对样本t检验结果，包括效应大小（Cohen's d和dz）。
任务完成时间
空白单元均值（SD）
字符噪音算术
字符 61.2秒（10.9）噪音 65.8秒
t = 3.08, p = 0.005 (d = 0.38, dz = 0.63)
算术 86.3秒（16.0） t = 9.27, p < 0.001 (d = 1.83, dz = 1.89)
t = 7.46, p < 0.001 (d = 1.38, dz = 1.52)
组合 87.6秒（18.3） t = 7.42, p < 0.001 (d = 1.75, dz = 1.52)
t = 5.81, p < 0.001 (d = 1.36, dz = 1.19)
t = 0.45, p = 0.658 (d = 0.08, dz = 0.09)

心率
空白单元均值（SD）
字符噪音算术
字符 101.5次/分钟（12.0）噪音 101.8次/分钟（12.1）
t = 0.42, p = 0.675 (d = 0.02, dz = 0.09)
算术 107.9次/分钟（14.8） t = 4.62, p < 0.001 (d = 0.47, dz = 0.94)
t = 4.33, p < 0.001 (d = 0.45, dz = 0.88)
组合 107.3次/分钟（14.4） t = 5.12, p < 0.001 (d = 0.44, dz = 1.05)
t = 5.18, p < 0.001 (d = 0.41, dz = 1.06)
t = ?0.44, p = 0.664 (d = ?0.04, dz = ?0.09)

瞳孔直径
空白单元均值（SD）
字符噪音算术
字符 4.79毫米（0.59）噪音 4.84毫米（0.62）
t = 2.19, p = 0.039 (d = 0.09, dz = 0.45)
算术 4.86毫米（0.61） t = 1.79, p = 0.086 (d = 0.12, dz = 0.37)
t = 0.39, p = 0.699 (d = 0.03, dz = 0.08)
组合 4.91毫米（0.59） t = 3.99, p < 0.001 (d = 0.20, dz = 0.81)
t = 1.81, p = 0.083 (d = 0.11, dz = 0.37)
t = 1.21, p = 0.238 (d = 0.08, dz = 0.25)

自我报告的心理需求与努力（1到10）
空白单元均值（SD）
字符噪音算术
字符 4.40（1.78）噪音 5.00（1.97）
t = 2.05, p = 0.052 (d = 0.32, dz = 0.42)
算术 6.67（1.31） t = 8.33, p < 0.001 (d = 1.45, dz = 1.70)
t = 4.77, p < 0.001 (d = 1.00, dz = 0.97)
组合 7.17（1.38） t = 10.23, p < 0.001 (d = 1.74, dz = 2.09)
t = 7.52, p < 0.001 (d = 1.28, dz = 1.53)
t = 2.50, p = 0.020 (d = 0.37, dz = 0.51)
注：配对样本t检验中统计显著差异（p < 0.05/6，对应于dz ≤ ?0.59或dz ≥ 0.59）用粗体表示。所有情况下配对样本t检验的自由度（df）为23。

3.1. 视觉、听觉和认知需求对因变量的影响
为了验证我们的假设，我们研究了视觉、听觉和认知需求如何影响任务完成时间、自我报告的心理需求与努力、心率和瞳孔直径，共四个实验条件。
对于任务完成时间、心率和自我报告的心理需求与努力，无论是单独的算术任务（算术条件）还是与其他需求结合的算术任务（组合条件），其得分都显著高于字符和噪声条件。组合条件下的瞳孔直径也显著大于字符条件。
在组合条件和算术条件之间，没有一个指标有显著差异，尽管自我报告的心理需求与努力显示出中等程度的正效应。此外，噪声条件导致任务完成时间显著增加，相比字符条件。
总之，结果支持我们的假设，即认知需求比视觉和听觉需求导致更大的工作负担。此外，我们的结果表明，听觉需求对任务完成时间的影响比视觉需求更强。虽然我们的重点是在心理工作负担上，但也观察到时间需求和挫败感的增加（见附录A），这表明算术和组合条件下的算术任务也提高了非认知方面的工作负担。

3.2. 效应大小
表3中的效应大小表明，一些因变量在标准效应大小（高d值）和配对效应大小（高dz值）方面区分了不同条件，而其他变量仅在被试内（高dz值但低d值）方面有差异。例如，瞳孔直径是对被试内变化敏感的指标（高dz值），但相对于总体合并方差而言效应较小（低d值）。这一点在图5的散点图中得到了体现，该图显示了组合条件和字符条件下参与者的得分分布。对于瞳孔直径（图5D），可以看出许多数据点位于对角线上方，表明大多数参与者在组合条件下的瞳孔比在字符条件下的瞳孔更大。然而，相对于个体差异的大小，这种效应较小；在箱线图（图6）中，条件之间的区别不太明显。

3.3. 实验后问卷
在实验后的问卷中（详见附录B），所有参与者都将算术和/或组合条件评为最困难的；组合条件被提及的次数最多（16/24），有四人提到算术，四人同时提到两者。24名参与者中有23人报告没有晕动症，有1人轻度体验到晕动症。指令大部分都很清晰（21/24的人报告完全清晰），大多数参与者没有注意到试验中的任何模式（21/24）。技术问题很少见，仅限于偶尔的对象交互问题（例如，难以捡起洋葱/韭菜、物品消失、购物车填充过快）和轻微的视觉伪影（例如，角部模糊）。总体反馈是积极的；一些参与者认为任务很有趣，建议包括改变产品或使其更加显眼，并澄清是否有意设置时间压力。

4. 讨论
4.1. 主要发现
在这项研究中，24名参与者在四种条件下执行了一个购物任务：视觉字符、听觉背景噪声、认知算术任务以及这三种元素的组合。结果显示，认知任务对完成时间、自我报告和心率有强烈影响，而瞳孔直径仅在组合条件与字符条件下有显著增加。以背景噪声形式的听觉需求也降低了任务表现，相比视觉需求而言。
我们的发现与多重资源理论（Wickens, 2002）一致，该理论认为当任务使用相同的资源池时会发生干扰。在我们的研究中，算术任务对中央处理资源造成了高负荷，与购物任务的认知要求（如阅读、记忆和搜索产品）直接竞争。相比之下，参与者在字符和噪声条件下的心理工作负担相对较低。他们可能只专注于主要任务，并过滤掉了这些额外的刺激，类似于注意力缺失的现象（Mack and Rock, 1998）。先前的研究也报告了类似的结果。Redlinger等人（2022）发现，在沉浸式VR任务中添加视觉游戏元素（如背景、3D深度元素）不会显著影响任务表现，当这些需求与任务执行无关时。另一方面，Fratini等人（2023）发现，当视觉和听觉需求与任务相关时，例如在复杂的交叉场景中，参与者需要监控多个元素以做出决策时，会感觉到更大的心理工作负担。也有证据表明，不同需求可以根据它们的感官模式更容易被忽略。一般来说，无关的听觉刺激可能难以忽略，并且即使它们不是任务所必需的，也可能干扰注意力和任务表现（Grenzebach and Romanus, 2022; Doggett et al., 2021）。这些发现表明，额外需求的影响不仅取决于其感官模式，还取决于它们与任务的相关性。
从设计角度来看，我们的结果表明，减少强制性的认知需求可能比减少非任务相关的视觉或听觉需求更有效地降低沉浸式VR中的心理工作负担。此外，我们的结果显示，听觉噪声对任务表现的影响更大（如完成时间延长），这可能是因为听觉需求更难过滤掉，即使它们不是任务所必需的。通常，虽然感官干扰会起作用，但与任务紧密相关的需求更有可能增加心理工作负担。
尽管如此，让用户接触更高水平的视觉和听觉需求仍可能对其表现产生负面影响，并导致生理活动的增加。如果确实如此，动态调整这些需求可以创建更适合用户能力的训练环境，从而降低过度负荷和任务脱离的风险。

4.2. 因变量的比较
除了提供关于视觉、听觉和认知需求的见解外，我们的发现还提供了关于不同因变量可用性的见解。任务完成时间是 easiest 获取的指标，因为它直接从模拟中提取出来。实施NASA-TLX也非常简单。这两个简单的指标也显示了条件之间的最强效果，这在标准效应大小（d）和被试内效应大小（dz）中都很明显。
生理指标，包括心率和瞳孔直径，需要专门的设备和复杂的程序。尽管出现了统计上显著的效果，但它们主要是在被试内部的，因此难以设定绝对阈值。例如，瞳孔直径达到或超过4.90毫米并不能单独表示“高心理工作负担”，也不能作为简化任务条件或提供额外用户支持的基础。相反，将这种方法应用于表现指标可能更有意义。例如，声称任务完成时间超过100秒表示表现缓慢是一个合理的结论。当然，这样的阈值仍然是特定于样本的，当前的平均表现分数不能直接推广到其他群体。老年人或患者（如脑损伤患者）执行这些视觉-运动任务的速度可能比当前的学生样本慢，表现还会根据损伤的严重程度和病理类型而有所不同。
解释生理指标的另一个挑战是实验过程中发生的生理漂移。虽然任务时间或自我报告工作负担的减少可以归因于学习效应，但生理变化往往更为模糊。按呈现顺序排序时，平均瞳孔直径在四次试验中稳步下降（4.93、4.85、4.84、4.78毫米）。虽然这种趋势可能反映了由于任务学习而减轻的工作负担（Sibley et al., 2011），但它也可能受到时间推移后的生理适应效应的影响。尽管存在这种变异性，瞳孔直径仍然足够敏感，能够揭示实验条件之间的统计学显著差异（见表3）。总结来说，虽然心率和瞳孔直径在参与者内部具有敏感性，但显著的个体间差异、亮度效应和顺序效应以及可能的测量混淆因素限制了它们在设定绝对阈值或驱动训练条件适应方面的实用性。相比之下，我们使用的其他测量指标，如任务完成时间和自我报告的心理负荷（NASA-TLX心理需求和努力），对于训练来说更为实用：这些指标易于收集，在我们的数据中显示出最强的效应，并且能更直接地转化为可操作的决策（例如，标记出表现缓慢或感知负荷较高的情况）。因此，在可以建立特定参与者基线的研究环境中，应该谨慎应用生理指标来追踪相对变化。

4.3. 局限性
本实验存在几个局限性：
- 我们的研究涉及一个沉浸式模拟环境，参与者需要执行搜索-挑选-放置的动作，这对于神经康复等目的非常重要。真实的购物任务还包括导航等额外活动，而缺乏已知会影响主观体验和任务表现的触觉反馈（Camardella等人，2023；Fr?hlich和Wachsmuth，2013；Kreimeier等人，2019；?zen等人，2022），可能会进一步将实验环境与现实世界购物区分开来。虚拟世界和现实世界之间的细微差异，如时间延迟和深度线索的减弱，也可能干扰了感知-行动循环（例如，Harris等人，2019）。未来的研究可以在实体模型中复制这项实验，以评估真实环境与虚拟环境之间的相似性和差异。
- 参与者在任务中的动作（例如抓取事件、注视目标）未被记录下来，这阻止了将其与瞬时心率或瞳孔直径联系起来。文献中表明，瞳孔直径对工作负荷的变化很敏感（Ahern，1978；Klingner，2010；Marquart和De Winter，2015）。未来的研究可以使用时间同步的生理测量方法来检查任务过程中的工作负荷变化，例如将货架上产品的视觉搜索与将其放入购物车这一动作进行比较。
- 尽管参与者面临听觉、视觉和认知需求，但其他类型的需求也可能部分地作为混淆变量。特别是，参与者的平均心率显著高于典型的静息心率，表明购物的体力需求可能起到了作用。例如，“组合”条件下的心率可能是因为参与者以较慢的速度完成任务，从而花费了更长时间。此外，算术任务还需要口头回答，这可能引入了一些额外的体力活动，以及预期的认知需求。然而，口头（发声）反应通常可以与空间任务同时进行，且干扰相对有限（Wickens，2002）。因此，在算术任务条件下观察到的较长完成时间不太可能是由发声本身引起的，而是由整体次要任务要求造成的。未来的研究应该区分次要算术任务的物理和认知组成部分的影响。此外，我们也意识到持续注意力、情绪状态和动机等因素可能会影响参与者的心率和瞳孔直径。
- 未来的研究可以改进环境中的亮度控制。移动的角色可能会通过改变注视点的亮度来影响眼球运动，从而影响瞳孔直径。尽管“组合”和“角色”条件使用了相同的角色刺激，但“组合”中的算术任务仍可能导致参与者转移视线（例如，看向明亮的购物清单）。未来的研究可以避免将明亮的产品放在货架上（参见De Winter等人，2021；Kun等人，2012，关于控制瞳孔测量中亮度变化的重要性），并避免使用在相对明亮背景下显示的购物清单。由于每次试验之间会取下头戴式显示器（HMD），未来的研究可以通过在无窗房间中进行实验来控制这些间隔期间的自然光线。
- 任务表现可能受到产品外观及其在货架上位置的影响。不明确的产品可能导致混淆，而身材较矮的参与者可能在处理较高货架上的物品时遇到困难。未来的研究应该通过标准化Unity中的虚拟摄像机位置并使用更独特的产品来解决这些问题。
- 我们的实验只包含了四种条件，而不是完全交叉的2×2×2因子设计中的八种可能组合。缺乏基线条件以及某些组合（例如，角色+算术）使得我们无法确定某种效应是由于视觉负荷单独引起的，还是由视觉和认知负荷的共同作用引起的（参见例如，选择性注意力和认知控制的负荷理论：Caparos和Linnell，2009；Lavie等人，2004）。后续研究应该使用更大的样本量来检验这些交互作用。此外，我们研究的另一个局限性是每一种视觉、听觉和认知需求都只引入了一个水平。未来的研究可以通过增加刺激的数量和复杂性来考察多个水平的视觉需求，例如，从静态图像逐步过渡到交互式数字标志或高度移动的角色。对于听觉需求，可以涉及从低背景噪音过渡到具有多个公告、背景音乐和顾客对话的更复杂听觉环境。
- 最后的一个局限性是样本由来自技术大学的健康学生组成。我们没有评估参与者之前的沉浸式VR体验或购物频率。这些背景因素可能会调节感知到的工作负荷（例如，通过新颖性或领域熟悉度），并且应在未来的研究中记录和控制这些因素。虽然虚拟环境对所有人来说都是新的，但可以假设参与者对数字技术的整体熟悉度相对较高。未来的研究应该包括更多样化的样本，包括具有不同认知能力和文化背景的成年人，并测量他们之前使用沉浸式VR的经验，以评估潜在的新颖性效应，这些效应已被证明会影响用户在IVR环境中的表现和满意度（Miguel-Alonso等人，2023）。如果这种环境用于神经康复，还应包括那些因脑损伤等原因而出现感觉过敏的患者（Thielen等人，2023）。

5. 结论
这项研究有24名参与者在沉浸式虚拟环境中执行购物任务，并测量了心率和瞳孔直径，结果表明，与视觉和听觉需求相比，认知次要任务对心理负荷和表现成本的贡献最大。此外，听觉需求对完成时间的影响大于视觉需求。调整现实感的水平可能有助于防止过度刺激，并帮助用户专注于当前的核心任务。根据目前的结果，在简化任务环境以减少心理负荷时，应优先减少认知需求，其次是听觉需求，最后是视觉干扰。生理测量指标（心率和瞳孔直径）显示的标准效应大小（d）小于任务完成时间和自我报告的心理需求和努力。因此，生理测量指标应该根据个体基线进行解读。

作者贡献声明：
Salvatore Luca Cucinella：写作 - 审稿与编辑、撰写原始草稿、监督、资源管理、项目管理、方法论、概念构思。
Joost de Winter：写作 - 审稿与编辑、撰写原始草稿、可视化、验证、形式分析、数据管理。
Alex van den Berg：监督、资源管理、概念构思。
Bibi van den Berg：软件开发、方法论、研究、概念构思。
Douwe Hoogsteen：软件开发、方法论、研究、概念构思。
Daan Poutsma：软件开发、方法论、研究、概念构思。
Floris van Wingerden：软件开发、方法论、研究、概念构思。
Laura Marchal-Crespo：写作 - 审稿与编辑、撰写原始草稿、监督、资源管理、方法论、资金获取、概念构思。

热点排行