在日常生活中,食品选择是一种典型的基于价值的决策形式,通常涉及即时奖励(例如,口味)和延迟利益(例如,健康)之间的权衡。先前的研究表明,个体通过整合主观评估、环境线索和内部动机来评估竞争属性的总体价值(Sznycer, 2022)。行为研究进一步表明,食品选择不仅仅是属性权重的简单问题,而是一个受情境因素和个人状态影响的动态过程。
具体来说,当强调健康信息时,个体更可能优先考虑营养属性(Enax等人,2016),而在饥饿或情绪波动的状态下,他们倾向于选择高热量、高刺激性的食物(Garlasco等人,2019)。在健康和口味冲突的情况下,做出健康选择通常需要更强的自我控制(Lim等人,2023)。研究表明,引入参考项目(例如,放纵性食物),这些项目不是选择的一部分,可以增加对中等健康选项的偏好(例如水果酸奶)。这种现象被称为“反向放纵效应”,表明对比框架和情境信息在塑造饮食决策中的重要作用(Sullivan等人,2019)。计算建模结果进一步支持了这些行为发现;例如,漂移-扩散模型(DDM)表明,在饥饿状态下,个体更快地积累高热量食物的证据,并采用更低的决策阈值,反映了生理状态对基于价值的选择的动态影响(Garlasco等人,2019)。
神经科学发现表明,这一过程主要由眶额皮层(OFC)调节,其中外侧OFC负责营养含量等理性评估,而内侧OFC在整合情感、动机和目标导向信息方面起关键作用(Clithero & Rangel, 2014; Suzuki等人,2017)。在人脑中,自我控制通常由背外侧前额叶皮层(DLPFC)支持,后者调节腹内侧前额叶皮层(vmPFC),在抵抗即时诱惑时增加长期目标(例如,健康)的权重(Hare等人,2009)。
从进化角度来看,人类对高热量食物的偏好被认为是一种适应性机制,可以在资源稀缺的环境中增加生存机会(Birch, 1999; Drewnowski, 1997)。然而,在现代社会中,这种机制可能导致对不健康饮食的过度依赖。总体而言,食品选择是一个复杂的认知过程,需要个体整合和权衡多个属性。虽然人类依靠直接的感觉体验来做出判断,但大型语言模型(LLMs)基于从文本数据中得出的语言关联来推断偏好。尽管缺乏感觉模式,LLMs在模拟人类认知和决策方面近年来取得了显著进展。从仅限于基本文本生成的工具发展而来,这些模型现在能够解决复杂的认知任务,如代码合成(Chen等人,2021)、数学推理(Drori等人,2022)和少量样本学习(Brown等人,2020)。最近的系统,如GPT-4o和Gemini 1.5 Pro,在专业基准测试和百万令牌长上下文推理方面展示了人类水平的性能(Gemini团队,2024; Open AI,2024)。这些进步重塑了人机交互(HCI),并促使研究人员通过心理和行为科学框架来研究LLM的行为(Wei等人,2022; Shanahan,2024)。
随着LLMs开始表现出可以使用心理结构进行分析的行为,新兴的“机器心理学”领域(Hagendorff,2023)提出了一种新的研究范式:将LLMs视为心理研究中的参与者,类似于人类参与者。基于这一基础,研究人员开始应用心理理论,如双过程决策框架(Kahneman,2003),来分析LLM输出中表现出的行为模式。双过程理论区分了快速、直觉的“系统1”和较慢、分析的“系统2”(Wei等人,2022; Brady等人,2024)。LLMs通过预测下一个可能的令牌来生成输出,通常类似于“系统1”思维(Hagendorff等人,2023)。然而,在给予结构良好的提示时,它们可以产生多步骤推理,表明“系统2”处理(Wei等人,2022)。早期的LLMs(例如,GPT-1和GPT-3)更依赖于启发式捷径(Binz & Schulz,2023; Chen等人,2024; Suri等人,2024),而更先进的模型如GPT-4则表现出更深的推理能力,包括思维链提示和结构化逻辑等功能。
这种双过程视角在研究LLMs在基于价值的决策任务中的表现时尤其相关,这些任务通常涉及平衡竞争目标。广泛的行为和神经认知研究表明,此类决策激活了大脑中的价值评估机制,并受到情绪、自我控制和文化因素的影响(Hare等人,2009; Suzuki等人,2017)。然而,与人类不同,LLMs缺乏身体体验和情感处理能力,这限制了它们通过情感和身体体验来评估和平衡价值的能力,从而提出了一个重要问题:在模拟的决策情境中,它们如何优先考虑健康和口味等价值。
尽管缺乏身体体验,LLMs越来越多地被评估为心理学、医学和伦理学领域的决策代理(Jiang等人,2025; Omiye等人,2023; Glickman & Sharot,2025)。然而,越来越多的证据表明,它们的输出可能包含系统性偏见,这引发了重要的担忧。先前的研究表明,LLMs在不同应用领域可能表现出各种类型的偏见,例如在医学、文化和社会认知领域(Hou等人,2024; Khandelwal等人,2023; Kotek等人,2023; Manvi等人,2024)。
先前的研究表明,当被要求提供评估或偏好时,LLMs通常会生成符合规范或“理想化”标准的响应。例如,在道德困境中,它们的判断往往稳定且不受情境变化的影响,这与受情绪调节和情境依赖性推理影响的人类决策者形成鲜明对比(Rehman等人,2025)。这种对比突出了一个关键的研究领域:实证评估LLMs在多大程度上可以复制类似人类的价值表示、决策冲突和情境灵活性模式。
近年来,多模态LLMs,如GPT-4和Gemini 1.5 Pro,在基于视觉的推理任务上取得了实质性进展。GPT-4可以整合复杂的视觉输入并产生社会敏感的解释,包括准确的面部动作识别和情感推断(Lu等人,2024; Yang等人,2023; Santavirta等人,2024)。尽管现实世界的食品选择通常涉及多种感官模式,但人们往往依赖视觉信息(如颜色、形状和份量)来评估和做出关于食品的决策(Suzuki等人,2017)。这些判断不仅反映了了对即时奖励的偏好,还反映了放纵和健康导向目标之间的调节。更广泛地说,最近的工作表明,LLMs可以根据情感和风险相关的情境调整它们的响应,并在复杂的视觉判断任务中表现出一致的性能(例如面部匹配和社会感知),进一步支持了它们适用于研究视觉呈现的食品选择中的基于价值的决策(Zhao等人,2024; Kramer,2025; Santavirta等人,2024)。
Lim等人(2023)发现,尽管参与者能够识别与健康相关的信息,但他们的食品选择往往受口味驱动。只有当冲动控制有效激活时,才会出现以健康为导向的决策。这些发现表明,健康与口味的相对权重不仅决定了偏好结果,也是调节能力的关键指标。
综合来看,具有视觉理解和情境推理能力的LLMs似乎表现出与人类决策过程相似的行为模式。因此,本研究旨在探讨LLMs在基于价值的食品决策中的表现,特别是在面对健康和口味这两个冲突因素时。具体来说,我们的研究旨在探讨LLMs是否可以根据给定的食品偏好模拟不同人类参与者的食品决策模式。因此,我们提出了H1和H2:
H1
在食品决策任务中,LLMs将赋予健康更高的权重,而人类则更倾向于口味。
H2
与人类类似,LLMs的自我控制成功率将与口味权重呈负相关,与健康权重呈正相关。
基于行为决策理论,这项研究有助于更广泛的理论转变:将LLMs视为不仅仅是文本生成器,而是其行为可以系统地被检查、量化和解释的计算实体。