健康还是口味？探究人类与大型语言模型在食物选择决策上的模式

《Appetite》：Health or Taste? Investigating Food Decision-Making Patterns in Humans and Large Language Models

【字体：大中小】 时间：2026年02月21日 来源：Appetite 3.8

编辑推荐：

　　价值决策与自我控制机制在LLMs与人类中的对比研究。该实验比较了GPT-4o和Gemini 1.5 Pro与126名中国大学生在健康与味道权衡决策中的表现，发现LLMs显著更重视健康属性且自我控制能力更强，而人类更倾向味道。研究揭示了LLMs决策机制与人类价值权衡及自我控制脑区（如DLPFC）的功能相似性，但属性权重差异显示其尚未完全复刻人类决策过程。

刘敏琪 | 黄建平

中国苏州苏州大学心理学系

摘要

大型语言模型（LLMs）越来越多地被用于模拟人类的决策过程，然而它们在模拟涉及健康和口味等竞争属性的基于价值的食品决策方面的能力仍不明确。本研究比较了两种代表性多模态LLM（GPT-4o和Gemini 1.5 Pro）与人类参与者（N = 126名中国大学生）在食品决策任务中的决策模式。人类参与者完成了一个经典的基于价值的食品决策任务，他们首先对60种食品在主观健康性、美味度和偏好方面进行评分，然后根据这些评估做出决策。LLM被指令根据人口统计数据和评估数据来模拟参与者的决策。结果显示，GPT-4o在食品决策中赋予健康属性的权重显著高于人类参与者，而人类参与者更重视口味。与GPT-4o相比，Gemini对这两种属性的权重都较低。两种LLM在自我控制方面的成功率都高于人类。在所有参与者中，口味权重与自我控制呈负相关，而健康权重与自我控制呈正相关。这些发现表明，尽管LLM缺乏情感和身体体验，但它们的食品决策模式部分反映了与人类自我控制相似的机制。然而，属性权重的差异表明LLM尚未完全复制人类的决策过程。这些发现为机器心理学这一新兴领域以及AI辅助饮食干预的发展提供了见解。

引言

在日常生活中，食品选择是一种典型的基于价值的决策形式，通常涉及即时奖励（例如，口味）和延迟利益（例如，健康）之间的权衡。先前的研究表明，个体通过整合主观评估、环境线索和内部动机来评估竞争属性的总体价值（Sznycer, 2022）。行为研究进一步表明，食品选择不仅仅是属性权重的简单问题，而是一个受情境因素和个人状态影响的动态过程。

具体来说，当强调健康信息时，个体更可能优先考虑营养属性（Enax等人，2016），而在饥饿或情绪波动的状态下，他们倾向于选择高热量、高刺激性的食物（Garlasco等人，2019）。在健康和口味冲突的情况下，做出健康选择通常需要更强的自我控制（Lim等人，2023）。研究表明，引入参考项目（例如，放纵性食物），这些项目不是选择的一部分，可以增加对中等健康选项的偏好（例如水果酸奶）。这种现象被称为“反向放纵效应”，表明对比框架和情境信息在塑造饮食决策中的重要作用（Sullivan等人，2019）。计算建模结果进一步支持了这些行为发现；例如，漂移-扩散模型（DDM）表明，在饥饿状态下，个体更快地积累高热量食物的证据，并采用更低的决策阈值，反映了生理状态对基于价值的选择的动态影响（Garlasco等人，2019）。

神经科学发现表明，这一过程主要由眶额皮层（OFC）调节，其中外侧OFC负责营养含量等理性评估，而内侧OFC在整合情感、动机和目标导向信息方面起关键作用（Clithero & Rangel, 2014; Suzuki等人，2017）。在人脑中，自我控制通常由背外侧前额叶皮层（DLPFC）支持，后者调节腹内侧前额叶皮层（vmPFC），在抵抗即时诱惑时增加长期目标（例如，健康）的权重（Hare等人，2009）。

从进化角度来看，人类对高热量食物的偏好被认为是一种适应性机制，可以在资源稀缺的环境中增加生存机会（Birch, 1999; Drewnowski, 1997）。然而，在现代社会中，这种机制可能导致对不健康饮食的过度依赖。总体而言，食品选择是一个复杂的认知过程，需要个体整合和权衡多个属性。虽然人类依靠直接的感觉体验来做出判断，但大型语言模型（LLMs）基于从文本数据中得出的语言关联来推断偏好。尽管缺乏感觉模式，LLMs在模拟人类认知和决策方面近年来取得了显著进展。从仅限于基本文本生成的工具发展而来，这些模型现在能够解决复杂的认知任务，如代码合成（Chen等人，2021）、数学推理（Drori等人，2022）和少量样本学习（Brown等人，2020）。最近的系统，如GPT-4o和Gemini 1.5 Pro，在专业基准测试和百万令牌长上下文推理方面展示了人类水平的性能（Gemini团队，2024; Open AI，2024）。这些进步重塑了人机交互（HCI），并促使研究人员通过心理和行为科学框架来研究LLM的行为（Wei等人，2022; Shanahan，2024）。

随着LLMs开始表现出可以使用心理结构进行分析的行为，新兴的“机器心理学”领域（Hagendorff，2023）提出了一种新的研究范式：将LLMs视为心理研究中的参与者，类似于人类参与者。基于这一基础，研究人员开始应用心理理论，如双过程决策框架（Kahneman，2003），来分析LLM输出中表现出的行为模式。双过程理论区分了快速、直觉的“系统1”和较慢、分析的“系统2”（Wei等人，2022; Brady等人，2024）。LLMs通过预测下一个可能的令牌来生成输出，通常类似于“系统1”思维（Hagendorff等人，2023）。然而，在给予结构良好的提示时，它们可以产生多步骤推理，表明“系统2”处理（Wei等人，2022）。早期的LLMs（例如，GPT-1和GPT-3）更依赖于启发式捷径（Binz & Schulz，2023; Chen等人，2024; Suri等人，2024），而更先进的模型如GPT-4则表现出更深的推理能力，包括思维链提示和结构化逻辑等功能。

这种双过程视角在研究LLMs在基于价值的决策任务中的表现时尤其相关，这些任务通常涉及平衡竞争目标。广泛的行为和神经认知研究表明，此类决策激活了大脑中的价值评估机制，并受到情绪、自我控制和文化因素的影响（Hare等人，2009; Suzuki等人，2017）。然而，与人类不同，LLMs缺乏身体体验和情感处理能力，这限制了它们通过情感和身体体验来评估和平衡价值的能力，从而提出了一个重要问题：在模拟的决策情境中，它们如何优先考虑健康和口味等价值。

尽管缺乏身体体验，LLMs越来越多地被评估为心理学、医学和伦理学领域的决策代理（Jiang等人，2025; Omiye等人，2023; Glickman & Sharot，2025）。然而，越来越多的证据表明，它们的输出可能包含系统性偏见，这引发了重要的担忧。先前的研究表明，LLMs在不同应用领域可能表现出各种类型的偏见，例如在医学、文化和社会认知领域（Hou等人，2024; Khandelwal等人，2023; Kotek等人，2023; Manvi等人，2024）。

先前的研究表明，当被要求提供评估或偏好时，LLMs通常会生成符合规范或“理想化”标准的响应。例如，在道德困境中，它们的判断往往稳定且不受情境变化的影响，这与受情绪调节和情境依赖性推理影响的人类决策者形成鲜明对比（Rehman等人，2025）。这种对比突出了一个关键的研究领域：实证评估LLMs在多大程度上可以复制类似人类的价值表示、决策冲突和情境灵活性模式。

近年来，多模态LLMs，如GPT-4和Gemini 1.5 Pro，在基于视觉的推理任务上取得了实质性进展。GPT-4可以整合复杂的视觉输入并产生社会敏感的解释，包括准确的面部动作识别和情感推断（Lu等人，2024; Yang等人，2023; Santavirta等人，2024）。尽管现实世界的食品选择通常涉及多种感官模式，但人们往往依赖视觉信息（如颜色、形状和份量）来评估和做出关于食品的决策（Suzuki等人，2017）。这些判断不仅反映了了对即时奖励的偏好，还反映了放纵和健康导向目标之间的调节。更广泛地说，最近的工作表明，LLMs可以根据情感和风险相关的情境调整它们的响应，并在复杂的视觉判断任务中表现出一致的性能（例如面部匹配和社会感知），进一步支持了它们适用于研究视觉呈现的食品选择中的基于价值的决策（Zhao等人，2024; Kramer，2025; Santavirta等人，2024）。

Lim等人（2023）发现，尽管参与者能够识别与健康相关的信息，但他们的食品选择往往受口味驱动。只有当冲动控制有效激活时，才会出现以健康为导向的决策。这些发现表明，健康与口味的相对权重不仅决定了偏好结果，也是调节能力的关键指标。

综合来看，具有视觉理解和情境推理能力的LLMs似乎表现出与人类决策过程相似的行为模式。因此，本研究旨在探讨LLMs在基于价值的食品决策中的表现，特别是在面对健康和口味这两个冲突因素时。具体来说，我们的研究旨在探讨LLMs是否可以根据给定的食品偏好模拟不同人类参与者的食品决策模式。因此，我们提出了H1和H2：

在食品决策任务中，LLMs将赋予健康更高的权重，而人类则更倾向于口味。

与人类类似，LLMs的自我控制成功率将与口味权重呈负相关，与健康权重呈正相关。

基于行为决策理论，这项研究有助于更广泛的理论转变：将LLMs视为不仅仅是文本生成器，而是其行为可以系统地被检查、量化和解释的计算实体。

部分片段

参与者

遵循Yeadon等人（2024）的方法，他们进行了一项涉及人类和两种大型语言模型的比较研究，样本包括103名同意参与的学生。我们从苏州大学的心理学学生群体中招募了参与者。共有126名中国本科生（61名男性，65名女性；M = 19.1岁，SD = 1.06）参与了这项实验。没有数据被排除在分析之外。所有参与者都是右撇子，具有正常或

结果

进行了一项单因素方差分析（ANOVA），以代理类型（人类、GPT-4o、Gemini 1.5 Pro）作为组间因素，口味权重（food_b1）、健康权重（food_b2）和自我控制比例（food_proportion）作为因变量。如图2A所示，代理类型对口味权重有显著的主效应，F(2, 375) = 33.6，p < 0.001，η² = 0.15。事后Tukey检验表明人类和GPT-4o之间没有显著差异（M_human = 0.69，M_GPT = 0.64，p = 0.131，95% CI =

发现总结

这些结果表明，GPT-4o赋予健康的权重显著高于人类，并表现出更高的自我控制水平。尽管人类和GPT-4o在口味权重上没有显著差异，但Gemini与两者都有显著不同。这突显了LLMs在决策模式上的差异，增加了越来越多的证据表明LLMs在不同领域的表现可能存在显著差异（Omar等人，2025）。鉴于训练数据的差异

CRediT作者贡献声明

刘敏琪：撰写——原始草稿、方法论、形式分析、数据管理。黄建平：撰写——审阅与编辑、监督、概念化

未引用参考文献

Dillion等人，2023；Khandelwal等人，2024；Motoki等人，2024；Motoki等人，2024；OpenAI，2024。

数据可用性

数据将根据请求提供。

伦理声明

本研究已获得中国某大学的伦理委员会批准，并按照《赫尔辛基宣言》中规定的伦理标准进行。

利益冲突

无。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系，这些可能会影响本文报告的工作。

致谢

本研究得到了国家自然科学基金（授权号32471128）的支持，该基金授予了黄建平。有关本文的评论应发送给黄建平教授，邮箱：jphuang@suda.edu.cn。

摘要

引言