《International Journal of Human-Computer Studies》:Culture, emotions, and power dynamics in AI email communication
编辑推荐:
本研究通过跨文化众包测试发现,LLM生成的邮件在清晰度上优于人类撰写,但未显著提升接收者行动意愿。情感感知(如信任)和权力关系(上下级)是主要影响因素,文化因素不显著。未来AI应优先增强信任与情感表达。
玛丽娜·波卢帕诺娃(Marina Polupanova)| 马里奥斯·康斯坦丁尼德斯(Marios Constantinides)| 丹妮莱·奎尔奇亚(Daniele Quercia)
诺基亚贝尔实验室咨询部(Nokia Bell Labs Consulting),华盛顿州贝尔维尤(Bellevue, Washington, United States)
摘要
大型语言模型(LLMs)在提升写作任务方面展现出了显著的能力。然而,LLMs在具体改善电子邮件沟通效果方面的有效性尚不明确,这主要是因为电子邮件沟通依赖于多种复杂因素,包括权力动态、文化背景和情感细微差别。为了了解使用LLMs撰写电子邮件的有效性,我们进行了一项众包研究,共有266名参与者参与,他们对两组电子邮件进行了清晰度评估,并评估了收到这些邮件后采取行动的意愿:一组电子邮件由人类撰写,另一组由LLM生成。这些电子邮件基于四种使用场景,包括数据收集与分析请求、工作量估算以及会议或活动组织,涵盖了发送者和接收者之间权力水平相同或不同的情况,并遵循了项目管理的最佳实践。研究发现,平均而言,LLM生成的电子邮件在表达任务方面更为清晰,但并未显著提高接收者采取行动的意愿。实际上,当接收者是下属时,或者当接收者认为请求可信且值得重视时,采取行动的意愿反而会增加。我们的众包方法使我们能够理解AI生成文本在电子邮件沟通中的有效性,研究结果表明,未来的AI辅助创新应优先考虑培养沟通者之间的信任、感激和尊重——这些因素即使在AI系统变得更加先进或接近超人类能力的情况下,仍将是合作的关键。
引言
有效的电子邮件沟通在工作场所一直至关重要。麦肯锡的研究表明,花7-8分钟来提升电子邮件的清晰度和语法可以将其生产力提高多达30%(McKinsey, 2012)。在电子邮件中清晰地阐述任务可以确保接收者能够理解并无误解地采取行动,而模糊不清的表述可能导致冗长的澄清过程或错误的行动(Sappelli et al., 2016; Lampert et al., 2008; Cohen et al., 2004)。这一原则不仅适用于电子邮件沟通:在众包研究中,不明确的任务指示促使人们开发出帮助工作者有效理解和执行任务的系统,从而在最小依赖请求者提供信息的情况下保持高质量的结果(Manam and Quinn, 2018)。
近期生成式AI的进步为工作场所的电子邮件沟通带来了新的动态。大型语言模型(LLMs),如GPT-4,越来越多地被用于撰写或完善专业邮件。这些工具通常被认为能够提高邮件的流畅性和清晰度,尤其是对于非母语者、缺乏写作经验的人或职场新人(Cambon et al., 2023; Dell’Acqua et al., 2023; Dhillon et al., 2024)。然而,它们的使用也引发了关于真实性和情感细微差别的担忧。一些研究发现,接收者可能认为LLM生成的邮件不真诚或不真实(Hohenstein et al., 2023a; Hoque et al., 2024),而另一些研究则指出人们常常难以区分AI生成的内容和人类撰写的文本,并依赖有缺陷的启发式方法来进行判断(Jakesch et al., 2023)。此外,Kadoma等人(2023)观察到,尽管AI生成邮件的风格对感知到的包容性没有显著影响,但感到更被包容的参与者报告了更高的自主性和归属感,尤其是在少数群体成员中。
在沟通中使用生成式AI不仅仅是技术层面的问题;它改变了作者身份、意图和人际关系的本质。Constantinides等人(2025)提出了“混合工作”(blended work)的概念,强调了人机协作如何重塑用户的控制感、真实性和身份认同。随着生成式AI逐渐融入日常沟通工作流程,其对人际关系以及用户如何引导、信任或重新解读这些关系的影响需要更深入的实证研究。
除了写作质量外,有效的电子邮件沟通还高度依赖于人际动态(例如权力关系、文化期望和情感基调)。由上级或能力更强的员工撰写的电子邮件可能与同等级别的同事撰写的电子邮件被解读的方式不同(DeWall et al., 2011)。同样,不同文化中的电子邮件风格在正式程度、直接性和情感表达方面也存在差异(Holtbrügge et al., 2013; Meyer, 2014)。此外,电子邮件中情感的表达和解读方式可能导致误解;(Byron, 2008)发现员工常常认为电子邮件中的情感内容比实际意图更为消极或中性。
尽管之前的研究已经考察了LLM生成邮件的语言清晰度和流畅度,但关于这些邮件在激发接收者采取行动方面的效果如何,以及情感框架的微妙差异如何影响接收者的动机,以及哪些提示策略可以帮助AI作者更有效地传达人际意图等方面,了解甚少。为了解决这些空白,我们做出了两项主要贡献:
- 我们进行了一项跨文化的众包研究(n = 266),比较了人类生成和LLM生成的电子邮件,评估了消息来源、感知到的情绪、文化契合度和权力动态对接收者对邮件清晰度和行动意愿评分的影响(第4节)。
- 我们发现,虽然LLM生成的电子邮件比人类撰写的更清晰,但清晰度本身并不能预测接收者采取行动的意愿(第5节)。相反,感知到的情感基调是最强的预测因素,权力动态起次要作用,而文化契合度则没有影响。此外,通过主题分析,我们发现了与特定情感解读(例如信任与厌恶)相关的表达策略,并这些策略影响了接收者的行动意愿。
我们的发现为人类与AI沟通以及具有文化意识的AI设计的相关研究做出了贡献(第6节)。
相关研究
尽管LLM在工作场所的应用日益广泛,但人们对AI生成邮件在不同文化和组织层级中的解读方式仍知之甚少。我们的研究基于三个相互交叉的领域:媒介沟通中的情感感知、工作场所话语中的文化和权力不对称性以及LLM提示工程。这些领域为AI增强型消息传递提供了丰富的可能性,同时也揭示了我们研究中解决的未解决矛盾。
作者立场声明
我们身处21世纪的西方国家,作为主要从事学术和行业研究的作者进行写作。我们的团队由一名女性和两名来自南欧和东欧的男性组成,具有多元的种族和宗教背景。我们的综合专长涵盖人机交互(HCI)、普适计算、软件工程、人工智能、项目管理和电信等多个领域。
方法论
先前的研究表明,当办公室工作人员使用AI辅助时,常规办公任务的效率可以得到提升(Dell’Acqua et al., 2023; Cambon et al., 2023),但AI在电子邮件沟通中的帮助程度以及权力动态、文化和情感在这一过程中的作用尚未得到充分研究。为了解决这一空白,我们着手探讨权力动态、文化和情感因素是否与有效的电子邮件沟通相关。
结果
在进行任何分析之前,我们使用Shapiro-Wilk正态性检验检查了变量的正态性,发现任务清晰度和行动意愿均不符合正态分布。因此,我们采用了非参数的Mann-Whitney U检验来比较两组连续变量的值,并使用非参数随机森林模型对连续变量与分类变量集合进行回归分析。
主要发现
我们收集了46封人类生成的和8封LLM生成的电子邮件,并将其展示给266名参与者,让他们评估邮件的清晰度以及参与者愿意采取行动的程度。与之前的研究一致,我们发现LLM生成的电子邮件被评为更清晰。然而,这种清晰度的提升并未增加接收者采取行动的意愿。相反,我们的数据显示,行动意愿主要受到其他因素的影响。
结论
我们进行了一项众包研究,共有266名参与者参与,探讨了LLM在电子邮件沟通中的作用,特别是邮件中表达的任务的清晰度和接收者执行任务的意愿。研究发现,LLM生成的电子邮件在表达任务方面更为清晰,但在激发接收者采取行动方面不如人类撰写的电子邮件有效。发送者和接收者之间在文化和情感上的一致性并不重要;相反,权力水平的差异以及发送者所感知的情感是影响行动意愿的关键因素。
玛丽娜·波卢帕诺娃(Marina Polupanova): 负责写作——审稿与编辑、初稿撰写、方法论研究、数据整理。
马里奥斯·康斯坦丁尼德斯(Marios Constantinides): 负责写作——审稿与编辑、初稿撰写、项目监督、方法论研究、概念构建。
丹妮莱·奎尔奇亚(Daniele Quercia): 负责写作——审稿与编辑、项目监督、项目管理、概念构建。
<声明竞争利益>
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。声明竞争利益>