在通用人工智能(GenAI)交互中解码动态情感价值:来自协变量依赖马尔可夫链的见解
《Frontiers in Psychology》:Decoding dynamic emotional valence in GenAI interactions: insights from covariate-dependent Markov chains
【字体:
大
中
小
】
时间:2026年05月11日
来源:Frontiers in Psychology 2.9
编辑推荐:
摘要
引言:在人机交互过程中,用户的情感价值状态会动态演变,然而现有研究对于AI输出的质量与这些即时情绪价值转变之间的关联提供的洞察有限。
目的:本研究旨在通过提出一个依赖于协变量的马尔可夫链模型来填补这一空白,以期探讨AI响应的质量如何与用户情绪价值的转变相关联。
方法:我们对
摘要
引言:在人机交互过程中,用户的情感价值状态会动态演变,然而现有研究对于AI输出的质量与这些即时情绪价值转变之间的关联提供的洞察有限。
目的:本研究旨在通过提出一个依赖于协变量的马尔可夫链模型来填补这一空白,以期探讨AI响应的质量如何与用户情绪价值的转变相关联。
方法:我们对大学生进行了AI辅助学术写作实验,并分析了886组交互序列。
结果:研究显示,AI响应的质量对用户情绪价值状态的转变具有显著的极化效应:高质量的响应能够稳定并强化积极的情绪价值,而低质量的响应则倾向于引发情绪恶化。此外,还分析了基于情绪稳定性的群体差异。
讨论:这项研究为理解人机对话中的情绪动态提供了新的视角,并为构建情感适应性强的GenAI系统提供了实证支持。
1 引言
情绪是一个人对当前事件的即时反应,是影响人机交互的最重要因素之一(Lottridge等人,2011年)。目前大多数关于人机交互情绪的研究都采用经典情绪理论作为情绪分类的框架,例如六种基本情绪理论(Ortony,2022年)和情绪维度模型(Reisenzein,1994年)。这些经典情绪分类理论已广泛应用于需要情感计算支持的各类研究中。尽管这些情绪分类模型占据主导地位,但基于情境依赖性和构建的情绪识别近年来也受到了越来越多的关注。认知评估理论认为,情绪并非直接由情境本身引起,而是由个体对情境的主观解读、评价和判断所驱动(Rummel和Feinbero,1988年)。它强调了个体情绪状态的复杂性。例如,先前的研究(Cowen和Keltner,2020年)实证表明,在观看视频或听音乐等特定情境下,特定的情绪是独特的。同样,学习科学的研究也确定了九种特定于课堂和考试情境的学习情绪(Pekrun和Linnenbrink-Garcia,2012年)。认知评估视角强调主观解读,自然地引出了研究情绪动态的必要性,因为交互是一个不断变化的情境和随后评估的连续过程。随着人机协作的日益复杂,传统的静态情绪快照已不足以全面捕捉用户体验。研究正转向对情绪动态的持续跟踪和建模,特别是在强调持续交互的情境中。这种转变体现了以人为中心的理念,旨在创造更加支持和响应性的交互环境(Ma等人,2024年)。教育领域是研究此类情绪动态的关键背景。学习过程本身是一项涉及高情感投入、目标导向和认知挑战的活动。情绪一直是影响人机交互环境中学习者学习成果的核心因素。积极情绪可以显著提升学习者的动机、参与度和创造力,从而改善他们的学业表现(Li等人,2020年;Oriol等人,2016年)。近年来,教育研究越来越重视情绪因素的重要性,并致力于通过情绪识别和干预来提升学生与系统之间的互动质量,以满足学生的个性化学习需求(Salloum等人,2025年;Vistorte等人,2024年)。例如,Dake和Gyimah通过分析在线学习系统中学生生成的大量文本反馈,有效地识别和理解了学习者的情绪和态度,从而为提高教学质量提供了支持(Dake和Gyimah,2023年)。随着生成式人工智能(GenAI)的兴起,学习正在转变为一种以人机对话为中心的个性化、交互式过程(Chou等人,2022年)。在人机交互中,触发学习者认知评估的主要刺激是AI输出的质量。AI输出的质量,包括其相关性和可靠性,作为即时、情境特定的刺激,会引发学习者情绪价值的变化及其后续的认知重新评估(Hu和Shao,2025年)。与传统系统不同,人机对话涉及实时的、连续的反馈循环(Luo等人,2026年;Luo等人,2025年)。正如认知评估理论所建议的那样,对话中的即时反馈循环与情感极性转变密切相关,反映了用户对GenAI响应是否有助于或阻碍其目标的即时评价(Roseman和Smith,2001年)。因此,如果不考虑AI响应的质量作为情绪价值转变的关键关联因素,就无法理解人机交互中的情绪动态。然而,尽管GenAI响应质量在塑造学习者即时评估中起着核心作用,现有研究很少探讨AI输出质量的变化如何与实时交互中的情绪价值转变相关联。一个缺口是,许多人机交互研究使用自我评估量表进行评估,缺乏对这些情绪和认知过程变化的细致测量和理解(Wu和Liu,2025年;Wu等人,2025年)。此外,主流研究往往关注GenAI不同呈现形式对用户最终结果的影响,而缺乏对学习者与GenAI之间动态交互过程的详细深入探索。例如,研究经常使用量表来探索各种类型GenAI反馈对学习者的影响(Guo和Wang,2025年;Zou等人,2025年),而不是专注于GenAI与学生之间实时交互过程中的反馈细节和行为。准确测量动态情绪的能力对于支持GenAI辅助环境中的个性化学习和策略实施至关重要。这不仅有助于我们构建更具适应性和同情心的教育系统,通过识别和响应学生的情绪变化来优化学习体验,还能为改进教学策略和内容提供可靠的数据驱动见解(Ma等人,2025年)。为了填补这一空白,本研究探讨了GenAI输出质量的变化与学习者在学术写作任务中的情绪变化之间的关联,重点关注情绪价值,这是人机协作中情感评估的最基本维度(Shuman等人,2013年)。我们将情绪价值映射为三个维度:积极、消极和中立,并在本文中将之概念化为情绪状态。该研究在GenAI辅助的学习环境中对大学生进行了调查,探讨了人机对话中每一步的情绪动态,捕捉每次AI响应如何影响学习者的后续情绪价值。我们开发了一个依赖于协变量的马尔可夫链模型,将情绪价值转变视为受之前AI响应质量影响的时变事件。情绪转变作为学习者情感状态演变的依赖行为指标,而AI响应质量则被视为一个关键交互协变量,预期会调节特定情绪转变的概率。我们使用多项式逻辑回归来拟合该模型,统计量化了AI响应质量对特定情绪价值转变概率的动态调节效应。为了为该模型建立坚实的实证基础,我们进行了以学术写作任务为重点的GenAI辅助学习实验。我们采用了混合方法设计,整合了多维数据收集(对话日志、屏幕记录和回顾性访谈),并收集了881组连续交互记录(包括之前的情绪状态、AI响应的质量以及下一个情绪状态)。我们将用户情绪价值划分为三个核心状态:积极、消极和中立,这些状态是通过将用户的提示和访谈文本结合在一个经过微调的大型语言模型上计算得出的。AI响应质量使用涵盖五个关键维度的多维构念进行定义(相关性、可靠性、透明度、公平性和批判性),并通过人类专家共识进行评估和分类。最后,为了消除异质性(个体间的固有差异)的影响,我们评估了用户的情绪稳定性,并使用数据驱动的分组方法(SVD和K均值聚类)对参与者进行分组以进行针对性分析。通过整合这些分析方法,本文提供了一个动态视角,全面理解人机交互因素如何影响学习者的情绪变化。总之,我们提出以下问题:
RQ1:人机交互过程中情绪状态转变的模式是什么?
RQ2:在人机交互中,AI的响应如何影响不同情绪稳定性群体的情绪状态转变?
RQ3:这些研究结果对设计适应性情绪支持和教学干预措施在人机交互环境中的意义是什么?
通过研究这种连续交互情景中的细致情绪动态,本研究为设计更加人性化和适应性强的人机交互系统及情绪支持策略提供了坚实的理论和实践基础。
2 文献综述
2.1 情绪在人机交互中的作用
一系列新兴研究表明,情绪因素对于建立有效、自然且令人满意的协作关系至关重要。已有大量证据表明,情绪是影响人机交互质量和行为意图的关键因素(Kolomaznik等人,2024年),强调了“社会情感属性”(如信任、同理心和默契)在增强人机协作中的重要性,认为这些因素是有效互动的基石。Yao等人发现,考虑情绪可以更全面地考虑交互的各种因素,而不仅仅是理性的信任评估(Yao等人,2024年)。另一项研究进一步表明,理解情绪是涉及多个人和AI系统的“混合团队”有效协作的关键(Ferrada和Camarinha-Matos,2024年)。这表明情绪的影响不仅限于单个人与AI之间的交互,还扩展到涉及多方合作的复杂生态系统。此外,人机交互中的情绪反馈循环会改变人类的认知和判断。Glickman和Sharot的研究揭示了这种反馈循环如何影响人类的感知、情绪和社会判断,甚至可能导致判断偏差(Glickman和Sharot,2025年)。他们还呼吁在设计AI系统时不仅要考虑AI如何响应人类情绪,还要考虑AI的输出如何反过来塑造人类的认知过程。这种反馈循环的重要性在更复杂的协作环境中也得到了体现。Dang等人研究了认知和社会情感互动如何共同作用,改变他们的认知并促进混合现实环境中的人机协作学习成果(Dang等人,2025年)。这进一步表明,AI在协作中的作用不仅是提供信息,还包括与人类情绪状态互动以提高协作效率和结果。因此,这为将AI响应质量作为协变量纳入本研究的人机交互框架提供了理论基础。
2.2 学习情感分析
情感分析作为一种有效的数据挖掘技术,在学习分析领域得到越来越广泛的应用,并已成为一个活跃的研究主题。该技术可以自动识别、提取和量化文本中的主观情感,为教育工作者和机构提供了改进教学质量、优化课程设计和提升学习体验的见解。众多综述研究表明,情感分析在教育领域具有巨大潜力(Altrabsheh等人,2013年)。一项调查还表明,教育机构已大规模投资于开发情感分析工具,以处理和分析学生反馈数据(Shaik等人,2023年)。通过分析这些数据,教育机构可以了解学生的满意度、情绪和观点,从而做出更明智的决策(Pooja和Bhalla,2022年)。教育情感分析的研究方法正在不断变化和发展。一些研究主要依赖人工智能方法,例如使用机器学习对远程教育课程材料进行情感分析,以评估学生的感知(Osmano?lu等人,2020年)。近年来,随着深度学习技术的发展,研究人员开始利用深度神经网络模型分析文本数据以提高分析准确性(Kastrati等人,2021年;Shuqin和Raga,2024年)。鉴于传统学习情感分析通常提供情绪的静态快照,并缺乏对情绪动态变化的深入理解,一系列研究开始探索其时间序列分析。通过分析和随时间跟踪,研究人员可以更全面地捕捉和理解学生在学习过程中的情绪演变、模式和趋势。时间序列下的情绪检测方法分为侵入式和非侵入式两类。侵入式方法通常要求用户佩戴特定设备以直接测量生理信号,这些信号被视为情绪的客观指标。这种方法可以提供一定程度的准确数据,但可能会给用户带来不适或影响他们的自然行为。例如,Mikuckas等人使用心电图信号间隔的时间序列来识别学生的情绪(Mikuckas等人,2014年)。非侵入式方法通过观察用户的外部行为或数字痕迹来推断情绪,包括使用图像、文本和设备交互信息,而无需用户佩戴任何特殊设备。这种方法通常更加自然,也更容易在现实环境中应用。例如(Shou等人,2023年)提出了一种基于课堂时间序列图像的情绪分析方法,通过分析一系列连续的课堂图像来全面描绘学生的情绪状态。这种方法可以更全面地反映课堂上的真实情绪动态。
2.3 人机交互过程建模
心理模型是理解人机交互的重要理论基础。它们指的是用户对系统内部运作和逻辑的内部表征或信念。优秀的人机交互设计旨在帮助用户建立稳定、完整且易于理解的心理模型,使他们能够有效预测系统输出、解决问题和完成任务。因此,建模交互过程在很大程度上是探索用户如何构建、调整和应用心理模型。一种常见的方法是使用交互后的调查来评估用户的总体满意度和最终情绪状态,以推断用户的心理模型状态。例如,Du和Reynolds等人使用长期控制实验来探索人工智能中介的交互动态如何随着时间改变学习动机(Du和Reynolds,2025年)。Jasin等人收集了学生的定性访谈和自我报告数据,记录他们在交互过程中的情绪、体验和观点(Jasin等人,2023年)。然而,这些方法存在一些局限性。例如,它们只能捕捉用户的主观感受或最终状态,且准确性可能受记忆偏差的影响。为了解决这些局限性,交互行为和操作日志分析已成为主流方法。例如,滞后序列分析可以用于理解可视化中的交互序列(Pohl等人,2016年),机器学习和序列分析可以用来分析用户情绪和认知的动态变化(Ma等人,2025年)。这些方法实时记录每个用户在系统中的动作、模式和时间,将心理模型的形成和演变转化为定量指标,以便后续建模和分析。然而,这些现有方法往往基于简单的序列统计,难以准确捕捉用户在各种因素(包括分类变量和协变量)影响下的心理模型状态的动态变化。在此基础上,本文进一步提出了依赖协变量的马尔可夫链模型。其核心优势在于,通过直接将协变量纳入模型,可以更准确地建模和描述人机交互的动态演变及其背后的驱动因素,解决了传统方法在描述动态和影响因素方面的潜在不足。
3 方法论
本节介绍了所提出的实验性和依赖协变量的马尔可夫链模型,以及一些满足模型前提条件的分析。
3.1 实验设计
在模拟的人机对话环境中进行受控实验,观察人工智能响应质量对用户情绪状态的动态影响至关重要。实验设计应确保任务与现实世界交互场景高度相似,使用户在与人工智能交互时能够产生自然的情感反应。这需要任务设计足够灵活、开放和复杂,要求不同的用户在非特定的人工智能环境中完成多轮对话以实现他们的目标。这样就可以观察到连续交互过程中情绪状态的动态变化。本研究设计了一个学术写作任务,在实验环境中招募参与者单独完成任务。我们设计了一个对话任务,并随机分配给参与者一个对话式人工智能系统来完成一系列实际任务(具体场景和要求见附录A)。实验结束后,我们收集了多维交互数据,并对参与者进行了半结构化访谈。实验结束时,所有参与者都收到了一份小礼品表示感谢。本研究获得了澳门理工大学的伦理委员会批准(伦理批准编号:HEA006-FCA-2025,批准日期为2025年6月6日)。
3.2 前测问卷和分组分类方法
情绪稳定性是五因素人格模型(McCrae和Costa,2008年)的一个核心维度,指的是个体在压力下保持心理稳定和适应力的能力。与短暂的情绪不同,情绪稳定性是一种稳定的人格特质,决定个体如何感知和应对外部挫折。在人机交互的背景下,情绪稳定性高的人倾向于将系统错误视为可管理的技术问题,而情绪稳定性低的人可能会将同样的错误视为对其情境控制的威胁,从而引发更剧烈的情绪波动。情绪稳定性使用Chaturvedi和Chander提出的情绪稳定性量表进行评估,该量表包括五个维度:悲观与乐观、焦虑与平静、攻击性与容忍度、依赖性与自主性、冷漠与同理心(Chaturvedi和Chander,2010年)。为了消除个体差异对结果的影响,我们将参与者分成了不同的组。我们没有简单地使用问卷分数的总和或预设的标准来分组,而是采用了一种数据驱动的探索性方法。具体来说,我们使用了Luo等人(2025年)提出的无监督学习分组方法。这种方法的核心优势在于它能够基于数据的内在结构进行分组和特征提取,而不受先验理论假设的限制。该方法首先使用奇异值分解(SVD)将高维数据投影到低维子空间,以捕捉数据中的最大方差,从而用少量的主成分总结原始维度中的大部分信息。这种方法在心理学和人格研究中被广泛接受(Buss和Finn,1987年;Eysenck,1964年)。与简单地平均原始维度相比,这种综合方法根据数据方差自动确定每个维度的贡献权重,避免了主观设置的争议性。此外,它还通过减少噪声和冗余维度的干扰,增强了分类结果的可解释性,并通过基于方差贡献生成可解释的判断区间来提高分类结果的可解释性(Tripathy等人,2022年;Wang等人,2023年)。最终,K=2的选择是通过评估聚类稳定性和SVD降维后的肘部方法确定的,这揭示了数据中的明显结构。
3.3 实验和分析过程
所有参与者首先签署了知情同意书并完成了前测问卷。实验开始前,参与者接受了标准化培训,包括(1)30分钟的系统操作介绍,解释人工智能系统的功能和用途;以及(2)10分钟的样本对话练习,以确保参与者熟悉交互过程。在实验过程中,用户与不同的人工智能系统进行了多轮对话以完成任务场景。在获得受试者同意后,我们记录了整个过程中的数据:包括用户输入和人工智能响应的完整对话日志,以及学生在系统上工作的屏幕记录。实验结束后,研究团队与每位参与者进行了刺激回忆访谈。通过观看屏幕记录数据,要求用户根据与GenAI的问答数据和最终总结报告描述每个交互节点的操作过程和主观情绪体验。实验的最大持续时间为4小时。参与者可以在实验过程中的任何时候退出。
3.4 人工智能响应质量和用户情绪的确定
本研究的核心是量化人工智能响应质量与用户情绪状态之间的动态关系。为此,我们操作化了这两个关键变量。图1展示了这两个变量处理方法的流程。图1显示了不同维度数据流的编码和向量化过程。我们定义质量ZtZt为一个多维复合构念,反映了用户在特定对话轮次中对生成式人工智能输出的基于上下文的多维认知评估。因此,这个概念不是一个单一的技术指标。我们借鉴了人机交互和大规模对话系统评估领域的评估框架和设计原则(Chang等人,2024年;Tam等人,2024年;Woodgate和Ajmeri,2024年),通过五个核心维度来捕捉用户对交互的感知价值:相关性和帮助性、公平性、透明度、可靠性以及批判性和责任感,如表1所示。
表1 维度 描述 关键评估标准
1. 相关性和帮助性 评估响应是否直接解决了用户的查询意图,并提供了实际有用的内容。与用户当前的查询和上下文相关。提供的信息或解决方案具有启发性。在推进任务或解决问题方面取得可见进展。
2. 公平和包容性 评估响应是否避免了歧视性、偏见性或排斥性内容。不存在与性别、种族、文化等相关的刻板印象或偏见。使用中立和包容的语言。
3. 可靠性和安全性 评估响应的事实准确性和逻辑一致性及其潜在的危害性。信息的准确性及其可验证性。逻辑连贯性和内部一致性。避免生成有害、危险或不道德的内容。
4. 透明度和可解释性 评估人工智能在其响应中披露其本质和背后推理的程度。明确其作为人工智能系统的身份。能够提供其输出的推理、来源或理由。避免将其呈现为一个不可争议的黑色盒子权威。
5. 批判性和责任感 评估响应是否展示了批判性思维和对自身局限性的负责任态度。能够识别用户查询或其自身知识中的潜在缺陷、假设或局限性。承认不确定性、信心水平和知识边界。提供纠正机制,并在需要时指导用户进一步获得帮助。这是一个预先构建的评估人工智能响应质量的指南。
在本研究中,ZtZt被定义为形成性构念,因为任何一个维度(如透明度或可靠性)的任何变化都会直接影响整体质量状态。这意味着维度是概念的“定义特征”,而不是其“表示”。此外,形成性指标之间的高相关性通常不是必需的。在人工智能交互中,一个高度“相关”的响应可能会因为“可靠性”不足(如幻觉问题)而导致整体质量下降。每个维度捕捉了质量的不同方面,不能互相替代,这与形成性测量的特点一致。此外,从逻辑上讲,正是这些评估维度的分数“结合”形成了当前的质量水平,而不是一个潜在的、看不见的“质量特征”主导这些维度的表现。因此,采用形成性逻辑更符合评估大规模对话系统的实际情境。我们选择了专家注释作为人工智能响应质量的核心评估方法,这种方法源自以人为中心和解释主义的设计和评估哲学:三名不了解实验假设的研究助手独立地对对话日志中的每个人工智能响应进行了分割和初步清理。随后,一个由两名人机交互专家和一名语言学家组成的小组独立地对每个人工智能响应进行了分类。从解释主义的角度来看,对“质量”的理解是社会构建的,源于评估者之间的对话和共识构建(McKay等人,2024年)。因此,在独立评分之前,我们组织了一次引导性讨论。我们没有向专家小组提供“高质量”或“低质量”的预定义抽象定义。相反,我们鼓励专家根据具体的响应示例阐述他们个人认为高质量或低质量的回复,并分享他们的判断依据。值得注意的是,通过讨论,专家们的观点趋于一致,反映了他们对“质量”这一概念的共有的、直观的核心定义。最初的校准可靠性(Cohen’s k = 0.72)证实了这一共识的有效性。在独立评分阶段,专家们根据我们确定的五个维度全面评估每个AI响应,并直接将其分类为高、中或低。当三位专家对分类结果有不同意见时,他们会重新考虑该响应,直到达成最终共识。这种基于专家共识的全面评分方法避免了关于每个维度主观权重的争议,并确保了分类结果的稳健性和可解释性。
为了更客观地捕捉用户的即时情绪状态,我们采用了基于自然语言处理的情感计算方法。我们使用了两种类型的情感输入:用户在对话中输入的文本提示以及回顾性访谈中的情感叙述。通过结合这两种类型的文本,我们可以更全面和深入地了解用户的全部情绪状况。这种测量不仅提高了情感分析的可靠性,还使我们能够更准确地将对情绪变化与特定的AI交互时刻对应起来。我们使用了卡迪夫大学NLP团队开发的cardiffnlp/twitter-roberta-base-sentiment模型(Barbieri等人,2020年)。该模型是在大量Twitter数据上微调的RoBERTa的变体,能够将输入文本直接映射到三个离散的情感维度:负面、中性和正面。尽管该模型已经在大量社交媒体数据上进行了微调,但考虑到我们对话和访谈的独特语言风格和情感表达,我们对其进行了进一步的微调。
基线模型在我们特定的教育研究语料库上的准确率最初为84.2%。经过手动标注的金标准数据集的微调后,模型的性能提高了14.5%,最终准确率达到了96.4%。为了提供全面的评估,我们进一步报告了整体平均精度为0.95、召回率为0.96和F1分数为0.96。这种高精度,特别是在区分‘中性’和‘正面’学术反思方面,确保了我们用于马尔可夫链分析的情绪价值数据的稳健性。在10%的验证集测试中,准确率提高了14.5%。经过讨论后,两名教育技术专业的博士生手动标注了50篇情感文本,并将其用作训练集,以使模型更好地适应我们研究语料库的表达风格。表2展示了这些映射的示例,图2展示了微调情感分数的一个例子。
在我们的模型中,中性状态被定义为一种非极化的认知处理状态。这种操作化基于D’Mello和Graesser(2012年)关于学习期间情感的理论模型,该模型识别出一种功能上不同于积极或消极的认知参与状态,而是代表着专注的任务信息处理。从经验上讲,处于这种状态的学习者往往表现出持续的任务行为、平衡的提示表述以及语言中缺乏情感标记,这与我们在中性标记对话中观察到的文本模式一致。虽然这个类别可能包含多种微妙的心理差异,但在本研究中,它的主要功能是代表认知参与,即用户专注于学术写作的逻辑和任务要求,而情绪价值没有显著变化(Huang等人,2024年)。通过将中性作为这种基线,我们可以更有效地隔离与GenAI响应质量相关的转变。这使得模型能够识别出任务专注参与转变为极化情绪价值状态(正面或负面)的转折点,从而量化AI输出与情绪价值转变之间的统计关系。
关于将AI响应质量操作化为有序变量(高、中、低),本研究旨在在保持统计简洁性的同时保留心理意义。其主要理论基础来自CDMC框架的要求。为了进一步验证三级有序分类的构念有效性,我们进行了单向方差分析(ANOVA),检查了五个评估维度之间的差异。结果证实,三个质量级别(低、中、高)在所有五个维度上都有显著差异(所有F > 937,所有p < 0.001),效应量很大。事后Tukey HSD比较确认了有序结构:低 < 中 < 高(所有p < 0.001)。低、中、高的综合得分分别为1.85(标准差SD = 0.54)、3.08(标准差SD = 0.61)和4.26(标准差SD = 0.49),这提供了强有力的实证证据,证明三类分类能够捕捉到心理上有意义且在统计上不同的AI响应质量水平。
虽然相关性、可靠性等维度在理论上较为复杂,但用户在实时互动中的感知通常通过“总体评分”和“阈值效应”来体现。通过专家共识将这些方面整合到有序类别中,有助于过滤掉细粒度测量噪声,从而提高模型检测突然情绪变化的能力。高评分者间可靠性(Cohen’s k = 0.72)进一步验证了这种方法的有效性,突显了我们分类方案的科学严谨性和可重复性,尽管需要必要的统计简化。
为了模型化AI质量与情绪状态转变之间的关系,我们使用了对数线性模型,通过多项式逻辑回归将协变量纳入转移概率矩阵。使用有序缩放确保了参数估计的稳健性,并增强了不同质量水平下边际效应的可解释性。
3.5 人机交互建模框架
根据认知理论,情绪变化的触发因素是“对当前事件的评估”,而不是历史因素的累积(Ellsworth, 1991; Watson and Spence, 2007)。每个对话回合可以被视为一个独立的刺激-反应事件。在我们的实验背景下,这个刺激是AI在每个对话回合中生成的特定响应。基于此,本研究采用了人机交互情感转移框架。该框架的核心是情绪状态链:先前情绪状态 → AI响应质量 → 下一个情绪状态,这假设特定的AI响应与随后的情绪状态之间存在序列关系,以量化状态变化。我们采用了时间对齐的原则,并将用户情绪的每次变化视为一个状态转换节点。我们排序了所有学生输入的提示词,将所有不重复的、修改过的提示词作为情绪节点,并从回顾性访谈中提取了这些提示词的描述,并将它们纳入同一情绪状态中。
用户的整体情绪轨迹可能会受到历史累积的影响,但我们的模型专注于量化每个AI响应的即时、直接影响。这种简化使我们能够清晰地隔离AI质量与情绪价值转变之间的关联,从而更有效地回答我们的研究问题。此外,我们的人机交互模型将内部状态与外部干预分开,允许我们将AI响应质量视为外生(或准随机)处理效应,以便后续分析。
图3提供了一个示例,说明了这种序列依赖性。在当前情绪状态节点t,用户的交互数据输入了一个使用特定分析的请求,而同时的访谈数据显示用户的当前情绪状态是困惑。这个响应影响了用户的情绪状态。最后,在下一个情绪状态节点t+1,人机交互数据显示下一步是执行特定分析,而用户在回顾性访谈中的描述转变为最初的信任感。
3.6 协变量依赖的马尔可夫链
为了解决人机交互的动态复杂性,我们的CDMC模型明确纳入了三个核心心理现象:惯性、互动和适应。首先,情绪惯性通过一阶马尔可夫属性来捕捉。尽管模型假设下一个状态Xt+1仅依赖于当前状态Xt和协变量Zt,但这并不意味着忽略历史。相反,Xt起到了心理纽带的作用,总结了所有先前互动的累积效应。数学上,惯性通过自转移概率直接建模,表示在没有足够干扰性刺激的情况下情绪状态持续的基线倾向。其次,互动动态通过转移矩阵相对于协变量Zt的条件性来体现。通过建模P(Xt+1|Xt,Zt),该框架将每个对话轮次描述为一个离散的刺激-评估-响应循环。AI响应的质量Zt作为一个实时情境刺激,积极改变了状态转换的概率,反映了用户如何根据AI表现动态调整他们的情绪轨迹。第三,通过引入情绪稳定性作为调节协变量来解决适应问题。这允许模型估计不同人格特征如何影响对状态转换的抵抗或敏感性。此外,我们对一阶假设的依赖在理论上基于认知评估理论(Lazarus, 1991),该理论认为情绪是由个体对当前环境变化的即时评估驱动的。
原始的马尔可夫模型假设:给定当前状态Xt,下一个状态Xt+1的条件分布与所有先前的状态X0:t?1无关,如方程1所示。
P(Xt+1|Xt,Xt?1,…)=P(Xt+1|Xt)
如方程2所示,对于协变量依赖的马尔可夫模型,其属性是在给定当前状态St和当前协变量Zt的情况下,下一个状态St+1的条件概率与历史状态St?1…,St?1…和历史协变量Zt?1无关。
P(Xt+1|Xt,Zt,Xt?1,Zt?1,…)=P(Xt+1|Xt,Zt)
方程3显示了系统在当前Xt和AI响应质量Zt下转移到状态kk的概率。线性预测通过MLR的softmax函数转换为概率分布。
P(Xt=j|Xt?1=i,Zt)=exp(αij+βijZt)∑k∈{N,U,P}exp(αik+βikZt)
提出的CDMC模型明确解决了内部心理状态与外部技术刺激之间的相互作用。k∈{N,U,P}表示下一时刻的可能情绪状态(负面、中性、正面)。截距αij包含了用户内在的情绪基线和惯性,代表了与AI表现无关的固有转换倾向。相反,斜率βij量化了AI响应质量Zt作为情境调节因素的边际影响,即AI响应质量Zt提高一个单位对从状态ii转移到状态jj的对数几率的影响。
为了实证评估一阶假设在CDMC框架内的合理性,我们将一阶规范与 additionally 条件于倒数第二状态的二阶扩展进行了比较。一阶CDMC的AIC值为1,418.16,BIC值为1,504.20(18个自由参数;log-L = ?691.08;N = 880个转换),而二阶CDMC的AIC值为1,433.18,BIC值为1,685.33(54个自由参数;log-L = ?662.59;N = 788个连续三元组)。AIC和BIC都支持一阶模型。特别是BIC的差异(+181.1)根据常规阈值(>10)表明,二阶模型的额外36个参数并没有提供足够的预测增益来证明其包含的必要性。
4 结果
共有46名来自亚洲两所大学的本科生参与了研究,他们分别处于第一到第三学年。学生们共同参与了886组交互序列数据,产生了761分钟的屏幕录像和493分钟的音频访谈数据。样本包括26名男性(56.5%)和20名女性(43.5%)。在学科背景方面,近一半的参与者来自科学和工程领域(45.7%,21名学生),其余分布在工商管理(30.4%,14名学生)以及人文学科和社会科学(23.9%,11名学生)。
如图4所示,基于情绪稳定性的两个簇的得分也有显著差异(Mann–Whitney U = 167.2,p = 0.000)。为了确认这两个群体的心理可解释性,我们进行了事后分析,比较了它们在情绪稳定性量表各个维度上的得分。为了验证这两个群体的心理测量相关性,我们将我们的结果与Chaturvedi和Chander(2010年)建立的规范基准进行了对照。该规范研究确定,在大学生群体中,情绪稳定性的最低阈值为181分(平均值M=187.08,标准差SD=12.79)。在我们的研究中,由数据驱动算法识别的低稳定性群体的平均得分为171.4分,明显低于规范阈值。
图4显示了基于SVD-K-means算法的不同情绪稳定性群体的三维图。独立t检验显示,这些群体在所有维度上存在显著差异(p<0.001),包括焦虑与平静以及攻击性与宽容性,效应量都很大。这些结果(见表3)表明,SVD-Kmeans程序成功地捕捉到了情感调节的质变。
表3
维度 低稳定性群体 高稳定性群体
Cohen’s d值 总分
171.4 ± 9.2 192.7 ± 8.4 2.42 <0.001
悲观主义 vs 乐观主义 33.5 ± 3.5 40.8 ± 2.9 2.27 <0.001
焦虑 vs 平静 32.1 ± 3.2 41.5 ± 2.8 3.12 <0.001
攻击性与宽容性 31.5 ± 4.1 40.2 ± 3.5 2.28 <0.001
依赖性与自主性 34.2 ± 3.8 39.5 ± 3.2 1.51 <0.001
冷漠 vs 同情 40.1 ± 4.2 30.7 ± 3.1 2.54 <0.001
图5展示了所有时间序列数据中不同情绪状态和AI反应的比例,同时还包括了一个Kissan图,显示了整体变化。图中的矩形节点代表“积极”、“中立”和“消极”三种情绪状态,而连接它们的线条代表情绪转换。图表中的箭头指出了状态转换的方向。线条的粗细直接反映了情绪转换的频率,而线条的颜色则揭示了促进转换的AI反应的质量(绿色表示高质量,黄色表示中等质量,红色表示低质量)。例如,如果从“中立”到“消极”的黄色线条较粗,这意味着在中等质量的AI反应下,用户情绪从中立变为消极的情况更为常见。相反,如果从“消极”到“积极”的绿色线条较粗,则表明高质量的AI反应在改变消极情绪方面非常有效。
4.1 不同用户群体的情绪状态转移矩阵结果
正如我们在提出的链式框架中所假设的,AI反应的质量与不同情绪稳定性群体的情绪价值转移模式密切相关。对于情绪稳定性低和高的群体,AI反应质量与情绪转换模式有显著关联。在情绪稳定性低的群体中,次优的AI反应与情绪价值下降的概率显著相关。当用户接触到低质量的AI反应时,他们倾向于进入或保持消极的情绪状态。具体来说,从非极化的中立状态转变为消极状态的概率为88.46%,而转变为积极情绪的概率则很低(1.92%)。中等质量的AI反应似乎在某种程度上缓解了这一趋势;虽然从中立到消极的转换仍然很高(72.22%),但向中立或积极状态的转换有所增加,表明情绪价值有所稳定。相比之下,高质量的AI反应与积极情绪状态的转变相关。在这种情况下,从中性状态转变为积极状态的概率达到88.0%,而保持在消极情绪状态的可能性降至7.02%。
4.2 多变量逻辑回归下的推断分析结果
在进行情绪状态转换的推断分析之前,我们进行了两个关键的验证步骤以确保模型选择的严谨性。首先,我们使用卡方独立性检验来验证AI反应质量是否显著影响情绪转换。初步结果显示AI反应质量与用户的下一个情绪状态之间存在显著相关性(p<0.001,卡方统计量:435.26,自由度:16)。这为AI反应质量作为核心预测变量提供了统计支持。
由于初始状态在之前的时间点是缺失数据,因此在执行多变量逻辑回归之前将其删除了。我们使用了多名义逻辑回归模型来预测状态转换。表4和表5显示了AI质量与用户当前情绪状态对情绪转换的联合影响。情绪状态的基线参考类别被设置为“中立”,AI反应质量的参考类别被设置为“高”。Beta系数表示相对于基线参考类别的对数几率变化。
表4
Xt+1 = 消极 β SDzp |z| CI下限 CI上限 Sig
Xt = 中立 0.757 2 0.389 1.945 0.052 ?0.006 1.52?
Xt = 积极 ?0.934 6 0.373 ?2.507 0.012 ?1.665 ?0.204*
Zt = 低 3.501 9 0.604 5.802 2.319 4.685***
Zt = 中等 0.652 2 0.491 1.331 0.183 ?0.308 1.612
常数 ?1.186 0.47 ?2.525 0.012 ?2.107 ?0.265*
表5
Xt+1 = 积极 β SDzp |z| CI下限 CI上限 Sig
Xt = 中立 1.013 0.462 2.192 0.028 0.107 1.919
Xt = 积极 0.440 0.490 0.898 0.369 ?0.521 1.4
Zt = 低 2.056 10.648 ?3.175 0.001 ?3.325 ?0.787**
Zt = 中等 ?4.424 3 0.518 ?8.536 0 ?5.44 ?3.408***
常数 1.239 7 0.302 4.110 0.648 1.831***
表5显示了低情绪稳定性群体在不同AI反应质量ZtZt下的情绪转换矩阵图。
对低情绪稳定性群体的多距离逻辑回顾分析结果表明,AI反应质量是情绪价值转移的重要预测因子。多项回归结果显示,低质量的AI反应对情绪价值的转移有显著负面影响。与高质量的AI反应相比,低质量的AI反应与情绪价值下降的对数几率显著增加(β=?2.0561,p=0.001),并且与情绪价值上升的对数几率显著减少(β=?2.0561,p=0.001)。这些结果表明,低质量的AI交互显著导致了情绪价值的下降。中等质量的AI反应并没有显著预测情绪价值的下降(β=0.6522,p=0.183),但与情绪价值上升有显著的负相关性(β=?4.4243,p<0.001),表明中等质量的AI性能主要通过抑制情绪价值的恢复来起作用。
与低情绪稳定性群体相反,高情绪稳定性的参与者表现出更强的情绪韧性。结果显示,无论是低质量的还是中等质量的AI反应,都没有显著预测情绪向消极状态的转变(低质量AI反应:p=0.751;中等质量AI反应:p=0.089)。这与低情绪稳定性群体的结果形成鲜明对比,表明这类群体更能应对和容忍次优的AI交互。这从统计上证实,高稳定性的个体在面对次优AI时不太可能偏离非极化的状态。然而,AI质量仍然是促进情绪向积极方向转变的重要因素。
5.1 情绪转移模式高度依赖于AI反应的质量
我们对交互序列的分析显示,AI反应作为关键信息刺激,与随后的情绪价值转变方向密切相关。转换矩阵表明,所有交互序列都表现出明显的两极分化趋势。这也意味着AI反应的质量与是否保持中立基线状态或向极端情绪状态转变密切相关。当AI反应质量高时,转换主要表现为向积极情绪的上升转变,表现为从消极到积极的概率较高,并且积极情绪状态得以稳定维持。这表明高质量的AI反应可能起到情绪稳定剂的作用。相反,低质量的AI反应与情绪价值下降相关,用户更频繁地从非极化的中立状态转变为消极状态。这种两极分化模式最好用控制价值理论(Pekrun, 2006)来解释。用户持续评估收到的信息质量:当AI输出被视为无效或错误时,可能会被解释为情境控制的丧失,从而导致情绪向消极方向转变(例如,沮丧或焦虑)。相比之下,高质量的AI反应提供了有价值、准确的信息,增强了他们对信息获取过程的控制感和能力感,这与更积极的情绪价值相关(Kohnke和Moorhouse, 2025)。
值得注意的是,我们的结果显示,对于高稳定性的用户来说,次优的AI反应仍然显著阻碍了向积极情绪的转变(β=?1.8193,p<0.001)。这清楚地表明,即使对于情绪稳定性高的用户来说,要达到快乐和满足等情绪状态,仍然需要高质量、高期望的AI反应来提供新的控制感和价值。
5.2 情绪稳定性作为信息容忍度的调节因素
本研究将情绪稳定性确定为影响信息刺激(AI质量)与情绪转变之间关系的关键因素。通过将这一特征从动态交互序列中分离出来,我们提供了个体差异如何影响对次优信息容忍度的经验证据。根据规范比较,本研究中的低稳定性群体在心理上属于弱势群体。对于低情绪稳定性群体,低质量的AI反应与情绪价值下降的概率较高相关。回归分析(表4)表明,低质量的AI显著增加了这些用户向消极情绪转变的可能性。相比之下,高情绪稳定性的用户表现出更高的情绪韧性。如表5所示,无论是低质量还是中等质量的AI反应都不足以显著预测向消极情绪的转变。
对于高情绪稳定性的参与者,中立状态是稳定的。面对低质量的AI时,这些用户有78.05%的概率保持中立状态而不是转变为消极情绪。这表明高情绪稳定性的个体具有更高的阈值。高情绪稳定性的用户倾向于采用积极的情绪调节策略,如认知重构(Brockman等人,2017)。他们可以重新评估人工智能系统的错误或类似反应,将这些视为可接受的外部系统限制,而不是自身行为或能力的失败证据。这使他们能够更好地应对和容忍次优的互动。这种认知策略有效地防止了负面情绪的产生,从而保持了相对积极的情感状态(Wolgast等人,2011年),使他们能够更好地应对和容忍次优的互动体验。相比之下,对于情绪稳定性较低的用户群体来说,中立基线非常不稳定。由于缺乏缓冲机制,即使是中等质量的人工智能反应也会显著抑制从中立到积极的情感转变,实际上将这些用户困在一个非积极的循环中。这表明,虽然高稳定性用户将中立状态作为缓冲,但低稳定性用户却将其视为一个容易导致情绪恶化的脆弱转折点。
5.3 对教育者和系统设计师的启示
鉴于这些特点,我们建议课程设计者和人工智能开发者应将情感支持和控制感的维持作为基因人工智能辅助学习环境的核心设计目标。为了保持学习者的控制感和价值感,人工智能系统不仅应提供答案,还应提供简短的解释或操作步骤,帮助学习者理解人工智能是如何得出答案的。这种透明度有助于学习者修正他们的心理模型,并减少因不可预测的人工智能行为而导致的情境控制丧失。此外,由于不同情绪稳定度的用户对基因人工智能支持的学习过程可能有不同的需求,系统还应该集成实时情绪识别工具,并为不同情绪稳定度的用户提供个性化干预。例如,对于情绪稳定性较低的用户,可以采用更简化的问题、逐步提示或用更支持性的语气重新表述的答案。这种即时反馈机制有助于在学习者情绪恶化初期恢复其情境控制,从而提高他们的学习效率。对于情绪稳定性较高的学习者,系统可以侧重于培养创造力和反思能力,帮助他们发展更高层次的认知技能,如批判性思维。
在人工智能辅助学习的时代,情绪稳定性作为一种关键学习能力的重要性可能被低估了。因此,我们还建议教育者和教师在使用基因人工智能工具时,不仅要关注技术操作或认知内容,还要积极培养学生的情绪调节策略。例如,可以通过鼓励学生将错误归因于技术缺陷而非个人不足,或者通过公开讨论和反思课堂上具有挑战性的人工智能互动实例,来提高学生对互动质量变化的耐受性,并保持他们的学习兴趣。
6 限制
本研究使用协变量依赖的马尔可夫链来探索具有不同情绪稳定性的学生在与人工智能互动学习中的情感动态,为研究基因人工智能辅助学习中的互动过程提供了新的视角。然而,本文仍有一些 limitations。首先,本研究的结果受到样本特征和情境的限制,可能不足以概括不同学科之间的基因人工智能互动模式。其次,样本主要由亚洲大学的本科生组成,这可能限制了其在不同文化背景、教育水平和非正式学习环境中的普遍性。为了确保马尔可夫转移矩阵的统计效力和收敛性,我们将复杂的情感体验简化为三种核心情感极性(积极、中立和消极)。这种简化可能会导致精细的情感细微差别被合并到更广泛的类别中,从而可能高估报告的转换概率。此外,将情绪稳定性作为人格特质进行测量和操作化存在一定的心理测量学限制,而使用K均值聚类对这一连续的人格变量进行离散化可能会掩盖更微妙的特质效应差异。还可能忽略其他重要变量,导致结果不稳定。
为了确保马尔可夫转移矩阵的统计效力和收敛性,我们将复杂的情感体验简化为三种核心情感极性(积极、中立和消极)。这种简化可能会导致精细的情感细微差别被合并到更广泛的类别中,从而可能高估报告的转换概率。仅凭情感值可能不足以全面反映情感状态。未来的研究应该探索更细致的多维模型。此外,本研究的统计基础基于马尔可夫性质,主要关注的是时刻间的情感转移模式。这种缺乏纵向数据的设计可能低估了累积效应的重要性,例如学生在长期基因人工智能互动周期中的持续改进和能力提升。最后,在自然环境中,用户之前的情绪状态可能会影响他们的提示质量,进而影响人工智能的输出质量,形成反馈循环。虽然我们的刺激回忆程序将参与者的回忆固定在屏幕录像和互动日志上,这在很大程度上减轻了纯回顾性自我报告中普遍存在的自由回忆偏差,但并没有完全消除对模糊情绪状态的事后重新评估。有两种特定形式的偏差值得结合当前发现进行考察。首先是结果一致性重新评估。成功完成学术写作任务的参与者可能会系统地将之前中立或模糊的对话重新解释为更积极的,而遇到持续困难的人则可能会相反。在我们的转移矩阵中,这将表现为在高质量人工智能响应之后,积极情绪的概率出现定向膨胀。第二个问题是线索质量的混淆。在自然互动环境中,用户之前的情绪状态可能会影响后续线索的表述质量,从而影响人工智能输出的质量。这种双向反馈循环意味着人工智能响应的质量不能完全独立于用户的情绪轨迹,我们建模的时间序列可能低估了用户通过自身情绪状态共同构建互动质量的程度。未来的研究应采用更受控的实验设计,例如随机分配预定义的人工智能响应质量条件,以便更清楚地分离这一双向路径。
7 结论
本研究打破了传统研究中关于学习者情感值的静态视角,重点关注基因人工智能辅助学习环境中情感值的动态变化。它成功地揭示了人类-计算机互动中情感状态转变的复杂模式和关键影响因素。通过将人工智能响应质量这一核心互动因素作为马尔可夫链模型中的协变量,我们从统计上模型化了人工智能响应质量与情感值转变概率之间的关联,并区分了具有不同情绪稳定水平的学习者之间的敏感性差异。这种方法论创新为未来的动态人类-计算机互动研究提供了新的分析范式。我们的发现表明,人工智能响应的质量是用户情感值的重要预测因素。具体来说,人工智能响应质量与极性情感转变有关:高质量响应与向积极情感状态的上升转变相关,而低质量响应则经常与向消极情感状态的下降转变相关。我们敦促相关人工智能系统的设计应将情感支持作为核心原则。此外,教育者应积极培养学生的情绪调节策略,以确保具有不同表现和个人特征的学习者能够获得高质量的人工智能辅助学习体验。展望未来的研究,有必要进一步分解和量化人工智能响应质量的潜在组成部分。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号