自我报告与生理唤醒在衡量解释相关焦虑中的作用：来自眼动追踪的实验证据

《Japanese Psychological Research》：Self-Report and Physiological Arousal in Measuring Interpreting-Related Anxiety: Experimental Evidence Gleaned from Eye-Tracking

【字体：大中小】 时间：2026年05月10日 来源：Japanese Psychological Research 0.8

编辑推荐：

　　摘要本研究探讨了焦虑（通过自我报告和皮肤电反应（GSR）进行评估）如何影响中文-日语视译过程中的视觉注意力和表现。44名研究生完成了视译任务，同时记录了他们的输出结果、眼动轨迹和GSR数据。线性混合效应模型显示，在不同源语言复杂性和方向性条件下，自我报告的与口译相关的焦虑是对

　　摘要

本研究探讨了焦虑（通过自我报告和皮肤电反应（GSR）进行评估）如何影响中文-日语视译过程中的视觉注意力和表现。44名研究生完成了视译任务，同时记录了他们的输出结果、眼动轨迹和GSR数据。线性混合效应模型显示，在不同源语言复杂性和方向性条件下，自我报告的与口译相关的焦虑是对注意力和表现更强的、更一致的预测因素。较高的焦虑水平与较长的注视时长、更频繁的扫视动作以及较低的表现相关，尤其是在中文（L1）到日语（L2）的翻译中。相比之下，GSR与输出质量的相关性有限，且对眼动模式没有稳定影响。这些发现表明，自我报告的焦虑和自主神经系统激活捕捉了压力体验的不同方面，并可能在不同的处理层面起作用。这两种测量方法之间的部分分离进一步暗示，一些未经培训的口译员可能在认知上放大压力，超出了他们的生理反应。总体而言，该研究强调了在口译教育中整合情绪意识与自我调节训练与认知和语言技能发展的必要性。口译是一项在认知和情感上要求很高的双语活动，需要在时间压力下快速理解、持续更新记忆并进行跨语言重组（Henrard & Van Daele, 2017; Rinne et al., 2000）。根据Gile的努力模型（2009），口译员必须不断在听觉、记忆、表达和协调过程中分配有限的认知资源。焦虑是这一情境中的常见压力源，已被证明会干扰注意力控制和语言表达（Ferdowsi & Razmi, 2024; Timarová & Salaets, 2011; Zhao, 2022）。关于口译焦虑的研究主要依赖于任务后的自我报告测量，这些测量结果与表现和错误模式相关（Dong et al., 2013; Zhao et al., 2023; Zhao & Lin, 2025）。生理指标，如皮肤电反应（GSR），也被用来评估口译员在情绪或认知要求高的条件下的自主神经系统反应（Korpal & Jasielska, 2019; S. Li et al., 2022）。然而，这两种方法捕捉了情感体验的不同方面。从测量的角度来看，自我报告的与口译相关的焦虑反映了任务体验的回顾性评估，而生理唤醒提供了任务执行过程中的连续在线指标（Critchley, 2002）。心理学研究表明，回顾性的情绪报告主要基于任务评估和可获得的信念，因为直接访问即时情感状态的能力是有限的（Robinson & Clore, 2002）。因此，将这两种测量方法结合到一个统一的分析框架中，可以更直接地研究情感紧张如何与口译过程中的在线语言处理相关。重要的是，焦虑测量的解释和有效性不能脱离任务背景来考虑。口译中的认知负荷受到任务特征的强烈限制，如方向性和源语言复杂性（SLC），这些特征系统地调节词汇检索、监控和协调过程的需求（Liu et al., 2004; Setton & Dawrant, 2016; Song et al., 2023）。因此，不同的口译场景可能会产生不同类型的压力，这在主观评分和生理反应中可能不会以相同的方式体现。尽管如此，以往的研究很少在系统变化的任务条件下考察焦虑测量，也没有直接比较不同认知负荷水平下的主观和生理指标。因此，本研究采用了一种探索性的、以任务和测量为导向的方法，整合了双向中文-日语视译中的自我报告的与口译相关的焦虑、GSR、眼动追踪数据和表现数据。通过将焦虑测量置于系统变化的任务背景中，本研究旨在更细致地理解焦虑测量及其在口译中的功能相关性。

焦虑与口译及其认知机制

从认知心理语言学的角度来看，口译可以被视为口译员的心理表征与外部语言输入之间的动态信息交换过程。在口译的理论解释中，Gile（2009）的努力模型最具影响力，该模型将口译定义为四个相互关联的子任务的并行执行：倾听与分析、记忆、表达和协调。口译员所经历的总认知负荷是这些子任务之和。当源输入的复杂性或情绪压力的强度增加时，对任何这些组成部分的需求都会增加，可能导致整体处理需求超出口译员的认知能力，从而造成超负荷和表现下降。在这个认知框架内，情绪因素，特别是焦虑，可能会进一步加重处理负荷。焦虑通常表现为生理唤醒和心理紧张的增加，已被证明会损害认知效率和表现调节（Dong et al., 2013; Horwitz et al., 1986; Mussini & Di Russo, 2023）。鉴于口译需要快速理解、持续记忆更新和在时间压力下的实时重组，焦虑一直被认为是表现的主要障碍（Cho & Roger, 2010; Cooper et al., 1982; Ferdowsi & Razmi, 2024; Xing, 2025; Zhao, 2022; Zhao et al., 2023; Zhao & Lin, 2025）。认知-心理学理论进一步阐明了焦虑如何干扰信息处理的机制。注意力控制理论（Eysenck et al., 2007）认为，焦虑会削弱目标导向的注意力控制，并增加对刺激驱动处理的敏感性（Luo et al., 2017）。对于口译员来说，这种变化可能表现为难以保持对复杂句法或词汇结构的关注，以及更容易受到干扰性思维或无关线索的干扰。由此，自上而下的控制能力下降，从而减缓了理解和词汇检索的速度。此外，焦虑通过过度自我监控和侵入性认知消耗工作记忆资源，从而减少了维持和操作源信息所需的能力（Chiang, 2010; Dong et al., 2013）。综合这些发现表明，焦虑对口译表现产生了多方面的影响。它削弱了注意力控制，耗尽了认知能力，并扰乱了子任务的协调，最终影响了理解和表达阶段的效率与准确性。

关于口译焦虑的研究主要依赖于任务后的自我报告测量，这些测量评估了任务完成后的口译员感知到的压力和情绪紧张（例如，Dong et al., 2013; Xing, 2025; Zhao et al., 2023）。这些测量结果与表现和错误模式相关。例如，Dong et al.（2013）报告称，较高的焦虑分数与较低的表达表现相关，而后续研究将自我报告的与口译相关的焦虑与更多的词汇和句法错误以及错误监控和修复效率的降低联系起来（例如，Zhao et al., 2023; Zhao & Lin, 2025）。除了自我报告测量外，生理指标也被越来越多地用来研究焦虑。其中，GSR是一种广泛使用的交感神经系统活动的客观指标。GSR捕捉了由汗液分泌引起的皮肤电导变化，这种变化主要由交感神经控制的汗腺介导（Critchley, 2002），因此提供了自主神经系统激活的敏感在线测量（Bach, 2014）。先前的研究表明，无论是正面还是负面的情绪唤醒都会伴随着皮肤电导水平的升高（例如，Bensafi et al., 2002; Gomez et al., 2005）。在口译研究中，Korpal和Jasielska（2019）观察到口译员在处理情绪激动的语料时GSR水平较高，而S. Li等人（2022）记录了在模拟危机口译中GSR和心率的升高，尽管这些生理变化并不能一致地预测表达的准确性。重要的是，主观和生理发现之间的差异不应被解释为一种焦虑测量方式本质上比另一种更有效。相反，这些测量捕捉了焦虑的不同方面，它们在不同的时间和功能层面上起作用。自我报告工具主要反映了任务体验的回顾性评估（Robinson & Clore, 2002），而生理指标提供了任务执行过程中的连续在线信息（Bach, 2014）。因此，它们与口译行为的关联强度和性质可能取决于任务执行过程中的处理需求。这种区别突显了一个方法论问题，即在口译研究中很少系统地考虑获得这些测量的处理条件。大多数先前的研究要么考察了单一任务设置下的主观焦虑，要么考察了生理唤醒，留下了不同指标的功能相关性是否随处理需求而变化的问题。因此在同一实验框架内考察主观和生理测量，可以更全面地评估它们与口译员实时处理过程中的认知-情感负荷的关系。

口译中的认知和语言因素

视译对口译员的认知资源提出了独特的要求，因为它需要同时协调阅读理解和口头表达（Agrifoglio, 2004; X. Li, 2014）。口译员必须从书面输入中提取意义，在工作记忆中保持它，并将其尽可能快地重新表述为目标语言，这意味着理解和表达过程之间存在大量重叠（Ma, 2021; Su, 2025; Su & Li, 2019）。眼动追踪证据显示，视译涉及的注视频率和持续时间比普通阅读更多、更长，反映了更高的认知负荷（Jakobsen & Jensen, 2008）。视译中的认知负荷还受到任务相关限制的影响，如SLC。句法复杂性的增加和低频词汇项的存在已被证明会延长注视持续时间并提高处理需求，特别是在培训中的口译员中（Chmiel & Lijewska, 2019; Chmiel & Mazur, 2013）。在这种条件下，口译员通常需要更多时间来达到类似的表现质量，并可能在处理困难段落时策略性地减少对源文本的视觉关注，这种策略可能会影响准确性。除了语言复杂性外，方向性也是调节口译认知处理的另一个关键因素。向更熟悉的语言（L2到L1）口译通常允许更自动的词汇检索和更流畅的表达，而向不太熟悉的语言（L1到L2）口译则对词汇选择、句法规划和监控提出了更高的要求（例如，Setton & Dawrant, 2016; Song et al., 2023）。对话口译中的眼动追踪研究进一步表明，方向性影响注意力分配，口译员在L2表达过程中经常将视线从源文本上移开，可能是为了减少干扰并专注于信息构建（Tiselius & Sneed, 2020）。从资源的角度来看，SLC和方向性是重新分配认知资源到理解、记忆和表达中的任务变量（例如，Gile, 2009）。随着处理需求的增加，可用于监控和协调的资源减少，使得处理更容易受到情感因素（如焦虑）的影响。这一框架并不假设任务复杂性和焦虑之间存在直接的因果关系；而是任务需求决定了在处理过程中焦虑相关效应何时变得相关。因此，在不同认知负荷下考察焦虑指标为研究焦虑的组成部分及其在视译中的作用提供了理论基础。

问题和目标

以往的研究一致表明，焦虑与口译中的注意力控制和表现密切相关。基于自我报告测量的研究表明，较高的感知焦虑与较高的错误率和较低的处理效率相关（例如，Zhao et al., 2023; Zhao & Lin, 2025）。相比之下，生理学研究表明，在认知或情绪要求高的条件下进行口译伴随着自主神经系统的唤醒增强，尽管其与行为表现的关系因任务和背景而异（例如，Korpal & Jasielska, 2019; S. Li et al., 2022）。自我报告测量主要反映了口译员对任务体验的评估，而生理指标捕捉了任务执行过程中的在线自主神经系统激活。综合考虑这些测量方法，可以将焦虑视为一个多组分结构，而不仅仅是一个单一因素。此外，与焦虑相关的过程还受到任务需求的进一步影响。任务变量，如SLC和方向性，是口译中认知负荷和注意力控制的确定因素（Chmiel & Lijewska, 2019; Setton & Dawrant, 2016; Song et al., 2023）。随着处理需求的增加，可用的认知资源减少，这影响了焦虑在在线处理过程中对监控、协调和注意力调节的影响程度。尽管有这种理论意义，但在不同认知负荷条件下，焦虑的不同方面如何与口译过程相关仍不够明确。基于此，本研究采用了一种多模态方法，结合了双向中文-日语视译中的自我报告的与口译相关的焦虑、GSR、眼动追踪数据和表现数据。通过在不同SLC和方向性条件下考察焦虑指标，本研究旨在澄清焦虑如何与实时口译中的认知负荷相互作用，并为将情感因素纳入口译训练模型提供理论基础。具体研究问题如下：

RQ1. 主观焦虑和生理唤醒如何影响日语到中文视译中的源语言处理和目标语言表达表现？这种效应是否受到SLC的调节？
RQ2. 主观焦虑和生理唤醒如何影响中文到日语视译中的源语言处理和目标语言表达表现？这种效应是否受到SLC的调节？方法

参与者

共有44名在中国的一所外语大学攻读日语硕士学位的学生（34名女性，10名男性）参与了本研究。样本大小的确定基于几个考虑因素。首先，研究口译相关焦虑的实验通常涉及相对较小的样本量，通常在20到50人之间，这是由于任务的强度和耗时性以及后勤限制（例如，Deng & Zhu, 2016; Song et al., 2023; Zhao, 2022）。其次，为了减少与学习背景、语言熟练度和先前口译经验相关的变异性，参与者来自同一所大学，这确保了样本的更多同质性，并有助于控制潜在的混杂因素。第三，较小的、控制良好的样本允许更精确地测量在复杂任务（如双向视译）期间的认知和生理反应，否则参与者疲劳和任务复杂性可能会引入干扰。参与者的平均年龄为23.43岁（标准差=1.28岁），他们平均学习了5.55年的日语。所有参与者之前都通过了日语能力测试的N1级，这大致对应于欧洲语言共同参考框架的C1级。然而，在研究注册时，没有人接受过正式的口译培训或在日本居住过超过短期停留。表1展示了参与者自我评估的语言熟练度和报告的双语使用模式。根据P. Li等人（2020）改编的语言背景调查，我们评估了参与者的中文和日语能力（听、说、读、写）及其使用频率。结果显示，中文的熟练度和使用频率显著高于日语（t=9.24–19.04，df=43，ps<.001），表明所有参与者都是不平衡的双语者，他们的中日语双语能力尚未达到流畅切换的水平。

表1. 参与者自我报告的双语熟练度和语言使用频率

自我评估分数（分）
语言使用频率

中文（L1）
6.05（1.08）
5.91（0.98）
6.25（0.89）
5.73（1.02）
6.50（0.66）

日语（L2）
4.50（1.11）
4.16（1.08）
4.93（1.02）
4.25（1.14）
2.70（1.15）

注意：参与者在自我评估量表上将自己的能力从1分（非常差）到7分（优秀）进行评分，结果以平均值（标准差）呈现。语言使用频率的评分从1分（从不）到7分（总是）进行，反映了参与者使用每种学习语言的频率。结果以平均值（标准差）显示。L=听；R=读；S=说；W=写。每位参与者在完成实验后获得了50元人民币的报酬。本研究获得了庆应义塾大学伦理委员会的批准（申请编号：2025109），并且所有参与者都获得了书面知情同意。

实验设计

鉴于参与者是不平衡的双语者，且没有接受过正式的口译培训，预计他们的语言处理和认知策略会在不同口译方向上有所不同（Song et al., 2023）。特别是，口译到“较弱”的语言（L1到L2）通常比口译到“较强”或更熟悉的语言（L2到L1）对词汇检索、句子规划和注意力控制的要求更高。为了考虑这些方向特定的差异并避免效应混淆，分别为中文到日语和日语到中文的视译构建了单独的统计模型。这种方法能够更精确地检查焦虑如何影响每个方向上的口译表现。我们使用了线性混合效应建模，因为它能够适当地适应数据的层次结构，其中多个观察值嵌套在参与者内部。分析包括三个因变量。第一个是总访问时间，定义为从第一个注视点开始到指定区域内最后一个注视点结束的累积时间。第二个是源语言阅读期间的扫视次数，作为视觉注意力和认知负荷的实时指标。最后，第三个是口译输出质量，通过专家对口译表现的评分来评估产生的准确性和流畅性。固定效应包括生理唤醒（通过GSR表示）、主观焦虑（通过问卷自我报告）以及它们与SLC的交互作用。参与者作为随机截距纳入，以解释基线表现中的个体间差异。

材料

源语言材料

根据以往研究中的既定方法（Liu & Chiu, 2009; Liu et al., 2004），源语言材料的设计在复杂性上有所不同。低复杂性的材料关注大学生和研究生熟悉的话题，而高复杂性的材料涉及政治话题。这些材料选自一本教科书（Lin, 2019; Tan & Qiu, 2005）和一个新闻网站（https://japanese.cri.cn）。为了确保材料之间的一致性，文本被部分修改以达到统一的文本长度。所有日语文本的复杂性，包括从中文翻译的文本，是使用jReadability1进行评估的；对于中文文本，包括从日语翻译的文本，使用了中文可读性指数探索器3.0.2。实验中使用的材料的控制指标见表2。

表2. 源语言材料的控制指标

日语到中文条件
中文到日语条件

复杂性水平
材料1：低SLC
材料2：高SLC
材料3：低SLC
材料4：高SLC

话题
有效讲座学习技巧
北京-东京论坛的新闻报道
手机的便利性
迈向中日友谊

复杂性评分（M/SD）
2.18/1.19
3.18/1.77
1.96/0.88
3.43/1.71

jReadability分析结果
字符数量
547
562
528
566

每句平均单词数
22.40
35.90
23.77
43.88

难度等级评分
中高级
高级
中高级
高级

CRIE 3.0分析结果
字符数量
323
359
319
335

每句平均单词数
9.21
9.70
9.61
8.65

内容词密度
0.79
0.83
0.79
0.83

注意：源语言材料的中文翻译是使用CRIE 3.0进行分析的。源语言材料的日语翻译是使用jReadability进行分析的。M=平均值；SD=标准差；SLC=源语言复杂性。为了进一步验证复杂性操作的合理性，另一组28名高级日语学习者（与实验参与者不同）对这些材料进行了评估，他们在7点李克特量表上对词汇和语法复杂性、话题熟悉度和整体复杂性进行了评分（1=非常容易，7=非常困难）。单因素分析显示SLC的主效应显著[F（3, 27）=14.55，p<.001]。使用Scheffé方法进行的事后比较显示，高复杂性的文本被评为比低复杂性的文本难度更大。具体来说，材料2（日语到中文，更高复杂性）的复杂性评分高于材料1[日语到中文，较低复杂性；t(27)=3.00，p=.048]，材料4（中文到日语，更高复杂性）的评分也高于材料1[t(27)=3.60，p=.013]。同样，材料2被评为比材料3[中文到日语，较低复杂性；t(27)=4.00，p<.001]更难，材料4也被评为比材料3更难[t(27)=5.43，p<.001]。两个低复杂性文本之间没有显著差异[t(27)=1.44，p=.565]，两个高复杂性文本之间也没有显著差异[t(27)=1.49，p=.537]。这些发现确认了操作的有效性，确保了材料的适当区分并与研究目标一致。最后，为了平衡上下文语义连贯性和无笔记实验设计的限制，我们将源语言材料分成了五段或六段，每屏显示一段。

自我报告的口译相关焦虑材料

为了测量参与者的口译相关焦虑，本研究采用了Dong等人（2013）开发的经过验证的中文口译焦虑量表。该工具在口译研究中被广泛认可，因为它具有稳健的心理测量特性和在各种学习者群体中的适用性（例如，Xing, 2025; Zhao et al., 2023; Zhao & Lin, 2025）。它是通过多轮专家评审和项目改进开发的，确保了高内部一致性和强内容有效性。最终的工具包括20个项目，分别在5点李克特量表上评分（1=强烈不同意，5=强烈同意），涵盖了三个理论上的维度：(a) 感知任务难度（六个项目），涉及与口译任务相关的压力、挑战和情感负担（例如，“与其他课程相比，口译课让我感到更有压力”）；(b) 与服务相关的担忧（7个项目），捕捉在服务型口译环境中的表现担忧和对负面评价的恐惧（例如，“如果我在口译时意识到自己犯了错误，会负面影响我后续的输出质量”）；以及(c) 一般信心（7个项目），评估对口译能力的自我效能和积极预期（例如，“只要我努力工作，我相信我可以成为一名称职的口译员”）。重要的是，这个量表是专门为捕捉整个口译过程中经历的焦虑而设计的，而不仅仅是评估特质焦虑或自我评估的翻译能力。通过结合涉及任务压力、对表现的担忧和对能力的信心的项目，该量表提供了对学习者在口译过程中面临的情感和认知挑战的全面测量。

设备

眼动数据是使用Tobii Pro Nano眼动追踪器（Tobii AB，瑞典Danderyd）收集的，该追踪器安装在一台17.3英寸的DELL Precision 7770笔记本电脑显示器（Dell Technologies Inc.，美国德克萨斯州Round Rock）下方。实验界面和刺激呈现是在Tobii Pro Lab中编程和执行的，该软件还同步和控制了注视数据的收集。除了眼动追踪之外，还使用Shimmer3 GSR+设备（Shimmer Sensing，爱尔兰都柏林）实时监测生理唤醒，该设备在整个视译任务期间持续记录GSR。

实验程序

所有参与者都进行了标准的九点校准程序，以确保视觉显示器上的眼动追踪测量的准确性。校准成功后，参与者完成了四个视译任务。为了控制可能由于方向性（L1到L2 vs. L2到L1）和SLC（高 vs. 低）引起的顺序效应，任务呈现顺序使用拉丁方设计进行了平衡。每个任务之后都有一个自定节奏的休息时间，以最小化认知疲劳并保持整个会话的参与度。完成所有翻译任务后，参与者被要求完成一份自我报告的口译相关焦虑问卷，以评估他们在实验中的主观情绪状态。最后，他们填写了一份背景调查，收集了包括年龄、生物性别、中文-日语学习历史、之前的口译培训经验（如果有的话）以及对实验材料的熟悉程度等人口统计信息。整个实验过程大约持续了45-60分钟。

数据处理

由于技术问题，一名参与者的眼动数据未能成功记录，因此被排除在分析之外。此外，三名参与者的GSR数据也被省略了，因为他们在所有条件下的平均皮肤电导值<0.1 μS，表明传感器接触可能不佳。因此，最终的数据集包含了40名参与者的完整眼动和GSR数据。皮尔逊相关性分析显示，与口译相关的三个维度之间存在强烈的正相关关系，每个子量表与整体焦虑分数之间也存在正相关关系。相比之下，皮肤电反应（GSR）各组分之间的相关性为中等到弱，并且在不同的语言复杂性水平（SLC）下，自我报告的焦虑与GSR之间未发现显著相关性，这表明在视觉口译过程中主观焦虑与实时生理唤醒之间存在分离。表3展示了自我报告的焦虑测量值与GSR指数之间的描述性统计数据和相关性。

表3. 自我报告的焦虑测量值与GSR指数之间的描述性统计数据和相关性

| | 自我报告的焦虑 | GSR | |
|---------|-----------------------------------|-----------------|-----------------|
| 1 | 感知的任务难度 | 3.29 | 0.86 |
| 2 | 服务相关的担忧 | 3.88 | 0.66 |
| 3 | 总体信心 | 3.66 | 0.81 |
| 4 | 整体自我报告的焦虑 | 3.63 | 0.70 |
| 5 | GSR (JC-L) | 0.40 | 0.65 |
| 6 | GSR (JC-H) | 0.31 | 0.78 |
| 7 | GSR (CJ-L) | 0.53 | 0.97 |
| 8 | GSR (CJ-H) | 0.49 | 0.97 |

注：CJ-H = 中文到日文的高复杂性口译；CJ-L = 中文到日文的低复杂性口译；JC-H = 日文到中文的高复杂性口译；CJ-L = 日文到中文的低复杂性口译；M = 平均值；SD = 标准差。

*p < 0.05, ** p < 0.01, *** p < 0.001

**依赖变量的处理**
为了标准化源语言长度的变化（每个方向5-6页），将每项任务记录的总访问时间除以页面数量，以得出每页的平均访问持续时间，代表参与者的平均注意力分配。同样，通过将总眼跳次数除以页面数量来计算每页的平均眼跳次数，从而得到扫描频率的指标。口译输出质量的评估使用了杨（2005）提出的既定评分标准，该标准在以前的口译研究中因其有效性和可靠性而被广泛采用（例如，Han & Fei, 2021; Song et al., 2023）。三名日语教育专家根据该标准对输出进行了100分的评分，其中50分用于准确性（准确性、遗漏和误译），30分用于表达（流畅性和清晰度），20分用于语言使用（语法和词汇的适当性）。在开始全面评分之前，评估者详细了解了杨的评分标准。为了确保评估者之间的一致性，所有三名评估者独立评估了五名表现优异的参与者的输出，结果显示出强烈的正相关性（r = 0.76–0.82，df = 8，ps < 0.05）。对于数据集的其余部分，两名评估者独立评估每个输出，分歧通过三位评估者的共同讨论解决。评分后的分析确认了评分维度之间的高内部一致性，Cronbach's α系数分别为：准确性为0.70，表达为0.88，语言使用为0.88。此外，相关性分析显示两种源语言之间存在强烈的正相关，表明评估者之间有很高的共识：日文到中文的翻译（r = 0.82，df = 78，p < 0.001）和中文到日文的翻译（r = 0.89，df = 78，p < 0.001）。口译输出的最终分数是两名评估者分数的平均值。

图1展示了日文到中文视觉口译任务的平均访问持续时间、眼跳次数和输出分数，以及这些指标在不同复杂性条件下的变化情况。图2展示了中文到日文视觉口译任务的相关数据。

**研究问题1的结果**
我们进行了线性混合效应建模，以研究焦虑如何影响口译表现和视觉注意力。分析了三个因变量：平均访问持续时间、平均眼跳次数和口译输出分数。固定效应包括（a）自我报告的与口译相关的焦虑，（b）通过基线校正的GSR指数表示的生理唤醒，（c）语言复杂性（高 vs 低），以及（d）两个交互项：自我报告的焦虑 × 语言复杂性（SLC）和GSR × 语言复杂性（SLC）。由于自我报告的焦虑测量三个子量表之间的强相关性，我们使用总体焦虑分数作为统一的预测因子。自我报告的焦虑和GSR值都进行了标准化（z分数），以提高可比性和减少多重共线性。在模型估计之前，模型规范和选择遵循了标准的混合效应建模原则（Bates et al., 2015）。模型比较在R（R Core Team, 2024）中使用似然比测试进行，考虑了收敛性和模型可识别性。最初考虑了随机斜率，但由于每个参与者的观察数量有限以及收敛失败和模型结构无法识别，因此将其排除。因此，最终模型保留了参与者的随机截距作为最大支持的随机效应结构。所有模型然后使用GAMLj模块（Gallucci, 2019）在Jamovi中估计，基于lme4包。表4总结了研究问题1的分析结果。

**访问持续时间分析结果**
固定效应参数估计：
| 名称 | 估计值 | 标准误 | 自由度 | t值 | p值 |
|-----------|--------------|-----------------|-------|---------|---------|
| 截距 | 43.70 | 1.69 | 37.91 | <.001 |
| 语言复杂性（低） | ?14.96 | 1.30 | 36.56 | <.001 |
| 自我报告的焦虑 | 4.02 | 1.71 | 38.71 | 2.35* |
| GSR | ?1.90 | 1.02 | 54.81 | ?0.87 |
| 自我报告的焦虑 × 语言复杂性（低） | ?2.95 | 1.38 | 37.99 | ?2.13* |
| GSR × 语言复杂性（低） | 1.38 | 1.63 | 42.27 | 0.84 |
| 随机组分 | |-----------------|--------|---------|

**眼跳次数分析结果**
固定效应参数估计：
| 名称 | 估计值 | 标准误 | 自由度 | t值 | p值 |
|-----------|--------------|-----------------|-------|---------|---------|
| 截距 | 103.95 | 4.55 | 37.76 | <.001 |
| 语言复杂性（低） | ?32.86 | 2.96 | 36.26 | <.001 |
| 自我报告的焦虑 | 7.68 | 4.60 | 38.36 | 1.67 |
| GSR | 1.97 | 1.48 | 60.83 | 1.33 |
| 自我报告的焦虑 × 语言复杂性（低） | 1.17 | 1.49 | 36.56 | 0.79 |
| GSR | 2.79 | 3.45 | 61.84 | 0.81 |
| 自我报告的焦虑 × 语言复杂性（低） | 4.24 | 3.51 | 36.01 | 1.21 |
| GSR × 语言复杂性（低） | ?1.44 | 3.82 | 37.18 | ?0.38 |
| 随机组分 | |-----------------|--------|---------|

**输出分数分析结果**
固定效应参数估计：
| 名称 | 估计值 | 标准误 | 自由度 | t值 | p值 |
|-----------|--------------|-----------------|-------|---------|---------|
| 截距 | 79.68 | 0.88 | 37.83 | <.001 |
| 语言复杂性（低） | 4.21 | 0.54 | 36.50 | <.001 |
| 自我报告的焦虑 | ?2.05 | 0.89 | 38.14 | ?2.30* |
| GSR | ?1.20 | 0.54 | 62.99 | ?2.21* |
| 自我报告的焦虑 × 语言复杂性（低） | ?0.60 | 0.55 | 36.76 | ?1.07 |
| GSR | ?1.20 | 0.54 | 62.99 | ?2.21* |

**访问持续时间分析**
使用访问持续时间作为因变量的线性混合效应模型显示，语言复杂性（SLC）有显著的主效应 [F(1, 36.56) = 131.50, p < .001]，表明参与者在高复杂性文本上注视时间明显长于低复杂性文本。自我报告的与口译相关的焦虑也有显著的主效应 [F(1, 38.71) = 5.51, p = .024]，表明较高的焦虑水平与较长的总访问持续时间相关。生理唤醒的主效应在统计上不显著 [F(1, 54.81) = 3.49, p = .067]。重要的是，语言复杂性和自我报告的焦虑之间的交互作用显著 [F(1, 37.99) = 4.55, p = .039]。简单效应分析显示，在高复杂性条件下，自我报告的焦虑对访问持续时间有显著影响 [F(1, 51.21) = 8.68, p = .005]，但在低复杂性条件下没有显著影响 [F(1, 48.83) = 1.94, p = .171]。这些发现表明，焦虑显著损害了快速视觉处理能力，尤其是在高认知负荷的情况下。相比之下，GSR和语言复杂性之间的交互作用不显著 [F(1, 42.27) = 0.71, p = .404]。贝叶斯因子（Bayes Factors）用于GSR（皮肤电反应）和自我报告的焦虑在不同源语言方向上的比较

变量测量方法
日语到中文的视觉翻译日语到中文的视觉翻译
GSR 访问时长 0.88 0.49
眼跳次数 0.39 0.20
输出分数 0.59 1.49
自我报告的焦虑访问时长 2.93 32.43
眼跳次数 1.65 9.20
输出分数 0.62 2.28

注：贝叶斯因子（BF）小于1表示支持零假设（无效应）的证据，而大于1则表示支持备择假设（存在效应）的证据。根据Lee和Wagenmakers（2013）提出的解释标准，1到3之间的值表示备择假设的逸闻证据，3到10之间的值表示中等程度的证据，10到30之间的值表示强烈证据。在日语到中文的条件下，自我报告的焦虑与复杂度之间的交互作用产生的BF分别为2.57（针对访问时长）和2.38（针对眼跳次数），表明这是逸闻证据。为了进一步研究这种交互作用，在低复杂度和高复杂度条件下分别进行了后续的贝叶斯分析。在低复杂度条件下，贝叶斯因子为1.17；在高复杂度条件下为2.36。在眼跳次数方面，相应的贝叶斯因子分别为0.53和1.22。这些分析结果与之前的线性混合效应分析结果大体一致。具体而言，在大多数条件下，GSR的贝叶斯因子低于1，表明零假设（GSR对输入相关指标如访问时长和眼跳次数无可靠影响）有弱到中等程度的证据。然而，在日语到中文的条件下，输出分数的贝叶斯因子（BF=1.49）仅提供了逸闻证据，暗示GSR可能与翻译表现之间存在潜在的正相关。相比之下，自我报告的焦虑的贝叶斯因子几乎都大于1，特别是在日语到中文的方向上（例如，访问时长为32.43；眼跳次数为9.20），提供了中度到强力的证据。

**讨论**

**日语到中文视觉翻译中的焦虑影响**

在日语（L2）到中文（L1）的视觉翻译任务中，当参与者处理高复杂度的源文本时，较高的自我报告焦虑水平与较长的访问时长相关。尽管相应的贝叶斯因子主要落在1到3之间，仅表示逸闻证据，但这与之前的研究结果一致，即焦虑会降低在高认知负荷下的注意力效率（Dong等人，2013；Xing，2025；Zhao等人，2023；Zhao & Lin，2025）。综合来看，这些发现表明，当源语言的要求增加时，主观焦虑与较弱的在线处理效率有关。在注意力控制框架（Eysenck等人，2007）中，假设焦虑会消耗支持高效注意力分配的执行资源。在本研究中，对复杂输入的长时间视觉检查可能反映了补偿性处理，即焦虑的口译者投入额外努力以保持理解。重要的是，这种增加的处理努力并没有导致输出质量的明显下降，表明焦虑主要影响处理效率而不是最终的绩效结果。相比之下，由GSR指标的生理唤醒与眼动测量或输出质量没有显示出可靠的关联。这种分离表明，主观焦虑和生理唤醒涉及情感处理的不同组成部分。自我报告的焦虑反映了口译者对任务难度和感知压力的评估，而GSR主要反映了一般的自主神经激活。在中文到日语的视觉翻译中，由于这种语言对的结构和任务特性，自主神经激活可能不容易转化为可观察到的认知干扰。相同的汉字意味着拼写形式和语义激活之间的紧密耦合，促进了早期词汇访问（例如，Fei等人，2022；Song等人，2025）。这种模式减少了早期的解码需求，但可能将处理成本转移到了词汇选择和监控的后期阶段，尤其是对于不平衡的双语者。对于这样的口译者来说，视觉呈现的L2输入可以通过主导的L1快速激活概念表征，这与双语词汇处理的语义中介理论一致（Kroll & Stewart，1994；Matsumi等人，2012）。此外，视觉翻译中源文本的持续可见性减轻了工作记忆的需求，并支持了持续的监控（Gile，2009）。这些特征可能有助于稳定处理过程，使其不易受到高度生理唤醒的干扰。

**中文到日语视觉翻译中的焦虑影响**

在中文（L1）到日语（L2）的视觉翻译任务中，较高的自我报告焦虑水平与较低的注意力效率和不太稳定的输出表现相关。在不同的语境理解水平（SLC）下，报告较高焦虑的口译者表现出更长的访问时长和更频繁的眼跳，表明在视觉处理过程中注意力控制效率较低。这种fragmented gaze patterns（碎片化的注视模式）与焦虑相关阅读研究的结果一致（例如，Alrefaei等人，2024），可能反映了与任务相关担忧增加的工作记忆需求。这些结果也与早期将焦虑与翻译表现下降联系起来的报告一致（Ferdowsi & Razmi，2024；Timarová & Salaets，2011）。相比之下，生理唤醒在这个方向上显示出不同的模式。虽然较高的GSR水平与较低的翻译准确性可靠相关，但没有观察到对眼动测量的影响。重要的是，生理唤醒对眼跳次数的影响不到三分之一（BF=0.20），为零假设提供了中等程度的证据。这一结果表明，在中文到日语的视觉翻译过程中，自主神经激活并没有系统地调节眼动行为。一个合理的解释是，用母语理解源文本相对高效，即使SLC增加也不需要反复的视觉确认。相比之下，无论如何SLC如何变化，每个段落都必须映射到目标语言中的适当表达，这对外语中的词汇检索、构建和监控提出了持续的要求。因此，生理唤醒的变化更可能影响与输出相关的过程，而不是视觉输入。总体而言，自我报告的焦虑和生理唤醒都损害了我们的研究中的L1到L2翻译表现，尽管它们的影响在不同的处理阶段显现出来。自我报告的焦虑影响了与输入（阅读和理解）和输出（产生）相关的组件，而生理唤醒的影响在L2产生期间更为明显。尽管如此，鉴于视觉翻译涉及输入和输出的同步处理，这些效应不能完全分开。因此，目前的发现应该被解释为生理唤醒与输出相关过程之间的相对较强关联，而不是严格阶段特定的效应。与SLC的缺乏交互作用进一步表明，即使是相对简单的文本也可能对焦虑的口译者的认知能力造成负担。综合来看，这些发现表明，生理唤醒对表现的影响虽然较弱，但仍然是有害的。对于未经训练的口译者来说，缺乏系统的应对策略可能加强了焦虑与理解力和产生能力下降之间的关联。

**教学意义**

自我报告的焦虑和生理唤醒的不同效应对口译培训有几方面的启示。目前的发现表明，焦虑与视觉翻译过程中的注意力效率降低密切相关，尤其是在SLC增加和处理需求较高的情况下。这种关联在日语到中文的翻译方向上更为明显，而中文到日语的翻译则施加了更高的整体认知负荷，表明当任务需求接近或超过口译者的调节能力时，表现变得更加脆弱。在这种情况下，焦虑可能会给本已有限的注意力资源带来额外的压力。因此，培训课程应该逐步和系统地引入压力。从较简单的文本开始，逐步增加任务复杂性或时间压力，可以帮助学生在发展应对策略和韧性的同时体验可管理的焦虑。鉴于两种语言之间认知负荷的不对称性，教师还应指导学生了解任务特征如何影响处理需求。这些发现还表明，未经训练、不平衡的双语者可能高估了他们实际焦虑水平的影响。鉴于生理激活与表现的关联比自我报告的焦虑较弱，将口译紧张视为本质上有害的观念本身可能会加剧表现中断。鼓励学习者反思感知压力与实际压力之间差异的教学实践，例如通过比较自我报告和生理指标，可能有助于减少关于焦虑的错误信念，并支持自我效能感的培养。

**结论、局限性和未来方向**

**结论**

本研究显示，在双语视觉翻译中，自我报告的与口译相关的焦虑与处理指标和表现结果的一致性更强，而不是生理唤醒。较高的主观焦虑与较长的访问时长、更频繁的眼跳和较低的输出准确性相关，表明认知负荷增加。相比之下，GSR仅在中文到日语的翻译方向上提供了其与输出表现关联的逸闻证据。回到这项研究的核心问题，目前的发现表明，在这种实验背景下，自我报告的焦虑与中文到日语视觉翻译过程中可观察到的认知处理指标更为相关。然而，这种模式不应被解释为有效性的优越证据。相反，它表明主观和生理测量可能捕捉到与口译相关焦虑的不同组成部分，这些部分可能不同地影响处理效率。有两种解释可以解释这种模式。首先，认知评估，如担忧和失败恐惧，可能比躯体唤醒更直接地损害表现；其次，口译者可能高估了自己的生理压力，这放大了感知的焦虑并导致了更大的干扰。这些发现强调了不仅关注生理调节，还关注口译者如何解释和应对自己的焦虑的重要性。

**局限性和未来方向**

应该注意这项研究的几个局限性。实验是在受控的实验室环境中进行的，参与者是学生口译者，且仅关注视觉翻译。在更自然的背景下（如连续口译或同时口译）以及涉及专业口译者的进一步研究，可以帮助澄清专业知识和水任务类型如何塑造焦虑效应。另一个问题是语言熟练度。不太熟练的双语者通常会经历更强的与口译相关的焦虑，目前尚不清楚语言熟练度如何与焦虑相互作用以影响表现。由于没有标准化的工具来评估中文和日语之间的口译相关熟练度，未来的研究将受益于采用更直接的听力 và nói能力测量方法，以更准确地了解参与者的言语背景。此外，GSR是唯一包括的生理测量指标。补充指标，如心率变异性，可以提供更广泛的压力反应视图，并揭示认知和生理方面的焦虑如何在口译过程中相互作用。最后，尽管Interpreting Anxiety Scale（Dong等人，2013）提供了与口译相关的焦虑的全面评估，但其中一些项目并不完全符合视觉翻译的特点。开发特定于任务的测量方法并将其与生理指标结合起来，可能有助于更精确地捕捉瞬间的焦虑。展望未来，研究应侧重于将理论见解转化为教育实践，评估干预措施在口译培训中的有效性，并探索连接理论和实践的框架。

**利益冲突**

作者声明与本手稿无关的利益冲突。

1. jReadability系统是一个在线工具，用于评估日语文本的易读性（https://jreadability.net/en-portal.html）。它分析词汇、句法和话语层面的特征以生成易读性得分。详情请参见Hasebe和Lee（2015）。
2. Chinese Readability Index Explorer 3.0（CRIE 3.0）是一款基于词汇、句法和语义特征评估中文文本易读性的软件工具（http://www.chinesereadability.net/CRIE/?LANG=ENG）。详情请参见Chen等人（2020）。
3. 支持本研究的原始实验数据和补充材料已存放在Open Science Framework（OSF）中，并可在以下链接公开获取：https://osf.io/zsvyr/overview?view_only=23277ed61cac4f94bce958444b355c87。
4. 由于本研究关注GSR和自我报告的焦虑对视觉翻译的影响，参与者的言语熟练度被视为一个潜在的控制变量。所有参与者都是同一大学项目中的高级日语学习者，并且已经通过了JLPT N1级考试；然而，JLPT主要评估接受技能，且自获得证书以来的时间在参与者之间有所差异。此外，目前还没有标准化和广泛验证的测试来评估中文-日语双语口译能力。根据Song等人（2024）的研究，参与者提供了他们在中文和日语的听力、口语、阅读和写作方面的自我评分，平均得分被用作整体的双语能力指标。额外的分析检查了（a）双语能力与焦虑测量之间的关联以及（b）在线性混合效应模型中包含能力作为控制变量的效果。这两项分析均未显示出对焦虑指标或主要结果有显著影响。详细结果报告在补充材料S2中。

热点排行