大型语言模型的输出是否表现出对算法的排斥现象?以GPT-3.5为例的案例研究
《International Journal of Industrial Ergonomics》:Do large language model outputs exhibit algorithm aversion? A case study using GPT-3.5
【字体:
大
中
小
】
时间:2026年03月24日
来源:International Journal of Industrial Ergonomics 3
编辑推荐:
本研究探讨大型语言模型(LLMs)在人类决策者中的双重偏见:人类对算法工具的排斥(算法偏见)及LLMs对人类专家的偏好(AI-AI偏见),并通过对比不同决策目标(人类中心与机器中心)下的公平性、信任等评估,揭示两者如何协同影响人机协作模式。
刘祖宏|何晓涵|谢玉斌|周荣刚
北京航空航天大学经济与管理学院,中国北京
摘要
现有研究表明,大型语言模型(LLMs)在处理由人工智能生成的内容时,往往比处理人类生成的内容表现出更强的偏好倾向。相反,在特定情境下,人类决策者更倾向于选择人类专家而非算法工具或人工智能——这种倾向通常被称为“算法厌恶”(algorithm aversion)。尽管已有研究描述了LLMs中的各种偏见,但很少有研究在统一的分析框架内同时探讨LLMs对人类的偏见以及人类自身的算法厌恶现象。本研究采用人机协作视角,超越了单纯关注人类对算法工具态度的局限,通过公平性、信任度、喜好度和实用性评分等指标,分析了GPT-3.5生成的输出结果在以人类为中心和以机器为中心的不同决策目标下的偏好模式,从而全面考察了这一现象。研究结果表明,在以人类为中心的决策任务中,GPT-3.5对算法工具的信任度评分较低;而当决策目标转向以机器为中心时,其信任度评分有所提升。在人类参与者方面,他们表现出类似的决策方法偏好,并且在AI的偏好与人类偏好一致时对其评价更为积极。这些发现为人工智能社会科学这一新兴领域提供了新的见解,有助于理解人类与AI在决策过程中的偏见共性与差异。
引言
人机协作日益成为常态(Chen和Barnes,2014;Cheng和Jiang,2022;He等人,2026)。基于大型语言模型(LLMs)的生成式人工智能(generative AI)利用大量人类数据集来生成原创内容(Lund和Wang,2023;Shan和Li,2025)。以OpenAI的ChatGPT为例,生成式AI在推出后迅速获得了超过1亿活跃用户(Hu,2023)。在与人类协作时,LLMs凭借其先进的语言处理能力能够理解情境并有效传达信息(Shankland,2023)。这些进展表明,在许多人机协作框架中,人类不再是唯一的决策主体,因为AI已经开始作为独立的决策者发挥作用(Sebo等人,2020)。因此,人类决策者和AI决策者之间的态度可能会影响人机协作中的信任、评估和协调模式(Xie等人,2025),最终影响用户对AI的接受度和使用情况(McNeese等人,2018;Zhang等人,2019;Hong和Curran,2019;Mao等人,2020;Lichtenthaler,2020)。
行为学和心理学的大量实证研究(Dietvorst等人,2015;Mahmud等人,2022)表明,在涉及人类专家和算法工具的二元决策情境中,人类决策者常常对算法工具表现出系统性偏见——这种现象被称为“算法厌恶”(Sharan和Romano,2020;Berger等人,2021;Mahmud等人,2022)。先前的研究认为,这种抗拒源于人们对算法身份标签的认同感缺失,导致一些研究认为人们普遍对算法工具持有系统性负面态度(Chu和Liu,2023;Mariadassou等人,2024)。与此同时,人工智能社会科学领域的研究(Xu等人,2024)指出,基于LLMs的AI生成的结果也可能对人类决策者存在系统性偏见,这被称为“AI-AI偏见”(Laurito等人,2025)。关于这些偏见的研究采用了不同的概念化方式:一些观点将基于LLMs的AI决策过程视为人类态度的模拟器(Gao等人,2025),研究其反应是否类似于人类判断(De Paoli,2025;Colombatto等人,2025),同时也发现了一些显著局限性(Gao等人,2025);另一些观点则将LLMs视为自主决策者,研究其输出是否表现出系统性偏见,包括社会偏见(Kotek等人,2023;Navigli等人,2023)和身份相关偏见(Laurito等人,2025)。尽管关于LLMs是否具有内在态度存在争议,但其输出层面的偏见仍可能被人类用户解读为有意义的信号,从而影响协作决策中的信任、接受度和协调性。本研究基于人机协作视角,将基于LLMs的AI视为自主决策者,探讨其生成的输出是否对人类决策者存在系统性偏见。此外,这一视角还将算法厌恶研究扩展到将AI也视为决策过程中的积极参与者。
“自我偏见”(myside bias)的概念表明,个体倾向于以符合自身先前态度的方式评估证据(Stanovich等人,2013)。先前的研究表明,在需要高度个性化以满足人类特定需求的任务中,个体常常基于“人类专家更适合这类任务”的信念而拒绝使用算法工具(Castelo等人,2019;Mahmud等人,2022;Qin等人,2025)。然而,人机协作越来越多地涉及更加客观和结构化的以机器为中心的任务,在这些任务中算法工具的表现通常优于人类决策者(Wang等人,2018;Ogunmolu等人,2025)。在本研究中,我们使用“决策目标”一词来指代任务是主要面向人类需求(以人类为中心)还是面向机器优化(以机器为中心)。决策目标的差异可能会影响人们对算法工具和人类专家的偏好(Jeklic,2023)。在以机器为中心的情境下,算法能力尤为重要,因此算法厌恶和AI-AI偏见可能更为显著。因此,本研究将算法厌恶和AI-AI偏见视为人机协作中自我偏见的体现,并将算法厌恶的范围扩展到以机器为中心的任务领域。
根据社会反应理论,人类在将AI作为另一决策主体的协作框架中,往往会无意识地应用社会规则和规范(Lv等人,2022),与AI互动的方式类似于人与人之间的互动(Konya-Baumbach等人,2023)。同时,许多AI产品被设计成具有社会性和拟人化特征,鼓励用户通过类似人类的社会逻辑与之互动(Wang等人,2023;Zhang等人,2026)。尽管基于LLMs的决策者没有真实的情感或态度,但人们仍可能从它们的输出中推断出某种立场或态度线索(Youn,2021;Wang等人,2023;Yanxia等人,2024)。这些感知到的立场会显著影响人机协作的信任、协调性和整体模式(Fang等人,2023)。这表明,仅研究人类对算法工具的偏见不足以全面理解人机协作的复杂性。还需要探讨AI决策者是否以及如何通过其决策传达特定的态度或偏好,以及这些动态如何共同塑造人机协作的框架。
基于这些考虑,本研究有三个主要目标:首先,探讨基于LLMs的决策者在涉及算法工具和人类专家的二元决策情境中是否对人类专家存在系统性偏见;其次,扩展关于算法厌恶的现有研究,探讨决策目标如何影响人类决策者和基于LLMs的决策者对算法工具和人类专家的偏好;第三,将算法厌恶和AI-AI偏见置于统一的解释框架中,探讨人类如何从经验、能动性和价值等维度评估表现出偏见的AI(见图1)。
基于人机协作视角,本研究超越了以往主要孤立研究算法厌恶和基于LLMs的AI偏见的做法,将这些现象整合到一个共同的决策框架中,探讨它们在不同任务情境中的表现。
研究片段
LLMs作为决策者与输出偏见
越来越多的研究表明,AI决策者在其输出中可能反映出系统性的社会偏见(Domanski,2019)。这些偏见通常源于有偏的训练数据和制度环境,导致算法复制了现有的社会偏见(Kordzadeh和Ghasemaghaei,2022)。AI决策者可能会复制人类判断中的歧视性模式,例如在算法辅助招聘情境中(Cowgill和Tucker,2019;Noy和Zhang,2023)。
研究1
研究1的目的是初步探讨当决策目标以人类需求为导向时,作为决策者的LLMs是否会在决策过程中产生算法厌恶倾向。
我们选择GPT-3.5作为代表性的基于LLMs的决策者,原因有几点:首先,GPT-3.5是一个成熟、稳定且被广泛研究的大型语言模型,在以往的行为学研究中得到了广泛应用。
研究2
研究2通过问卷调查探讨了当决策目标从以人类为中心转变为以机器为中心时,人类的算法厌恶倾向是否减弱。本研究采用了与研究1相同的方法论,向GPT-3.5提出了与人类参与者相同的问题。
研究3
研究3进一步探讨了在决策目标分别为以机器为中心和以人类为中心的情况下,AI倾向于“信任人类专家”或“信任算法工具”对人类用户接受度的影响。研究基于GPT-3.5在面对以机器为中心的任务时对算法工具表现出更高信任度的发现。
讨论
通过这三项研究,本研究通过系统地改变决策者和决策目标,探讨了人机协作中的态度动态。总体而言,研究结果表明,人类决策者和基于LLMs的决策者(GPT-3.5)在多个维度上表现出结构化的评估模式,包括感知的公平性、信任度、喜好度和实用性,这些都取决于任务的特点,特别是任务是以人类为中心还是以机器为中心。
结论
通过多研究设计,本研究以GPT-3.5为案例,探讨了人机协作决策中的自我偏见。在三项研究中,人类参与者和GPT-3.5生成的输出在人类专家和算法工具之间的二元选择中表现出系统性的、依赖于任务特征的偏好差异,以机器为中心的任务与较低的算法厌恶倾向和更强的算法工具依赖性相关。AI决策者表达的态度
作者贡献声明
刘祖宏:撰写——审稿与编辑、初稿撰写、验证、资源收集、方法论设计、数据分析、概念化。何晓涵:撰写——审稿与编辑、初稿撰写、资源收集、方法论设计、调查、数据分析、概念化。谢玉斌:撰写——审稿与编辑、资源收集、方法论设计、调查、数据分析、概念化。周荣刚:撰写——审稿与编辑、验证、监督
伦理声明
北京航空航天大学经济与管理学院的人类研究伦理委员会批准了所有研究。所有参与者均签署了知情同意书。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本研究得到了国家自然科学基金(NSFC,项目编号:92582204)和“国家人类因素工程重点实验室基金会”(项目编号:2025-JCJQ-LB-091-10W)的支持。此外,还得到了北京未来区块链与隐私计算高级创新中心的资助。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号