人工智能能否反映公众意见?通过使用大型语言模型(LLMs)复制Hainmueller和Hopkins的移民实验所得到的证据

《Computers in Human Behavior》:Can AI Reflect Public Opinion? Evidence from Replicating Hainmueller and Hopkins’ Immigration Experiment with LLMs

【字体: 时间:2026年03月05日 来源:Computers in Human Behavior 8.9

编辑推荐:

  大型语言模型在多属性政策决策中是否能准确反映公众意见,通过复现Hainmueller & Hopkins(2015)移民联合实验,研究发现LLMs在六个属性层达成高至完全一致性(文化关联度低),但决策结果层与人类一致性仅略超随机水平。

  
陈雅静|雷明|刘展宇|唐曼|谢杰
湖南大学商学院,长沙,410082,中国

摘要

本研究通过复制Hainmueller和Hopkins(2015)的移民联合实验,评估大型语言模型(LLMs)是否能够准确反映多属性政策决策中的公众意见。我们使用GPT(5.1)和Qwen(Max)来评估LLM与人类决策的一致性,通过两级一致性框架检查了九个移民属性的属性级偏好逻辑和结果级决策一致性。分析揭示了两个关键发现:首先,LLM在九个属性中的六个属性上达到了高到完全一致的结果。值得注意的是,所有六个高一致性的属性都与文化关联较小,而所有三个低一致性的属性都涉及文化敏感维度。其次,尽管在属性级别上具有一致性,LLM与人类最终选择结果的一致性仅为轻微,几乎不高于随机选择,这表明高属性级别的一致性并不能保证准确的结果级别预测。这些发现对于使用LLM来推断公众偏好的实践者具有重要的启示意义。

引言

人工智能正逐渐深入公共部门的决策过程,从一个辅助工具转变为直接的决策参与者。2025年2月,深圳市政务服务与数据管理局正式宣布,第一批12名AI公务员完成了岗前培训,并开始在福田区政府服务中心工作,负责咨询和指导、初步文件审查以及智能审批等核心政府事务。在移民管理领域,AI的应用也在加速发展。2025年12月,美国公民与移民服务局(USCIS)宣布在乔治亚州亚特兰大建立了一个专门的移民审查中心(USCIS Vetting Center),该中心将利用包括人工智能在内的尖端技术对移民申请和请愿进行更全面的补充审查。这些举措标志着AI从政策咨询工具向具有执行权力的决策代理的演变。
为了确保AI做出的公共决策符合公民的利益,探索AI是否能够准确反映公众意见已成为一个紧迫且关键的问题。过去的案例已经揭示了AI系统中存在的偏见。例如,奥地利公共就业服务局(AMS)的算法根据求职者的特征进行分组以优化资源分配,但给女性、老年人、有健康问题的人以及非欧盟求职者分配了不公正的低分数(Ruschemeier和Hondrich,2024)。在当今的生成式AI时代,以大型语言模型(LLMs)为代表的生成式AI技术面临着诸多偏见挑战。这些LLMs在海量文本数据上训练,掌握了人类的语言模式、认知逻辑和价值判断,使它们能够在特定提示下表现出类似人类的决策行为(Horton,2023;Koralus和Wang-Ma?cianica,2023;Schramowski等人,2022;Vaswani等人,2017)。然而,在这一过程中,训练数据中的偏见和奖励模型设计的缺陷导致了系统性偏见(Germani和Spitale,2025)。因此,在AI被广泛用于公共决策之前,了解LLM是否能够准确模拟和反映真实的公众意见至关重要。
当前的研究比较了LLM与人类在公共决策和判断上的一致性。综合这些研究发现,我们观察到一个值得注意的现象:即使在类似的场景中,当评估不同的属性时,LLM的决策偏好和判断与人类的一致性也存在显著差异。以涉及人员评估和选择的决策为例,Bisbee等人(2023)发现LLM在对待不同社会群体身份标签属性的情感倾向上与人类高度一致。然而,Hartmann等人(2021)发现LLM在政党归属属性的偏好上与人类存在显著差异。这表明:现实世界的公共决策涉及复杂的多属性权衡,仅通过单一属性来评估LLM与人类在公共决策和判断上的一致性可能会得出矛盾的结论。因此,为了准确评估LLM是否能够反映公众意见,一个重要的前提是恢复公共决策的多属性权衡性质。
对于多属性决策,理论上存在两个关键层次:属性级偏好形成和整体级决策聚合(Keeney和Raiffa,1993)。在第一层次,决策者为每个属性维度形成评估;在第二层次,决策者将这些分散的属性偏好整合为全面的判断(Payne等人,1993)。以总统选举为例,选民需要同时考虑候选人的多个维度,如政治立场、执政经验、教育背景和年龄。选民不仅为每个属性维度形成偏好,还决定赋予每个属性的权重,最终通过某种聚合机制将其整合为支持或反对的决策结果。基于此,本研究提出了两个具体的研究目标:
  • 首先,明确LLM与人类在涉及多属性权衡的公共决策中不同属性上的偏好一致性;
  • 其次,明确LLM与人类在涉及多属性权衡的公共决策结果上的一致性。
  • 为了实现这些目标,本研究使用LLM复制了Hainmueller和Hopkins(2015)的移民选择实验。该实验采用联合实验设计,定义了移民申请者的多个属性(如教育水平、语言能力、原籍国、工作经验等),为每个属性随机设置值并将其组合成移民档案,要求公众在不同档案中进行选择,从而推断公众对不同属性及其相对权重的决策偏好。实验的设计使其能够捕捉属性级偏好和整体级决策结果,为本研究提供了理想的基准。同时,如上所述,移民审批已成为AI在公共决策应用中的一个重要场景,因此选择移民决策作为研究主题具有现实紧迫性。通过系统地比较LLM和人类在这个多属性权衡场景中的决策模式,本研究将为理解AI是否真正能够代表公众意见提供更精确和全面的实证证据。

    相关文献

    相关工作

    本节回顾了与本研究相关的两篇文献。首先,我们研究了公共决策中的多属性权衡问题。其次,我们调查了LLM与人类在决策和判断上一致性的比较研究。以下小节对这些文献流进行了详细回顾。

    方法论

    本节概述了研究的方法论框架。首先,它介绍了原始的移民实验,这是一个基础且被广泛复制的实验设计,在联合实验的方法论研究中经常被用作基准。其次,详细说明了如何使用LLM对该实验进行模拟,包括提示的构建、候选人档案的生成以及模型响应的提取。

    结果

    在展示详细的一致性分析之前,我们首先比较了三个组之间的平均边际成分效应(AMCE)估计值:原始Hainmueller和Hopkins(2015)实验中的人类参与者、Qwen模拟的参与者和GPT模拟的参与者。图2显示了所有九个属性维度上的AMCE比较结果,每个属性内的等级按照人类偏好排名排序。如图所示,Qwen和GPT都表现出系统性的

    讨论

    随着人工智能在公共部门决策过程中的日益应用,了解AI是否能够准确反映公众意见变得既紧迫又关键。确保AI做出的公共决策符合公民利益的关键在于明确AI在模拟人类政策偏好方面的能力和局限性。本研究调查了大型语言模型是否能够准确反映多属性政策中的公众意见

    作者贡献声明

    陈雅静:撰写——初稿、软件开发、方法论、概念化。刘展宇:撰写——审阅与编辑、可视化、形式分析。雷明:撰写——初稿、形式分析、数据整理。谢杰:撰写——初稿、软件开发、数据整理。唐曼:监督、项目管理、调查、资金获取、概念化

    未引用的参考文献

    Dillion等人,2023;Li等人,2024;Piao等人,2025;Qwen团队,2024b;Ward和F.Hutton,1994。

    利益冲突声明

    ? 作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号