编辑推荐:
本文探讨了决策过程中频率效应在损失最小化情境下的表现,挑战了传统强化学习模型(如Decay模型)的预测。研究发现,在损失情境中频率效应并未逆转,而是通过相对价值加工模型(如PVPE-Decay模型)和不确定性规避模型(Delta-Uncertainty模型)得到更好解释。这项工作揭示了人类在损失决策中采用情境依赖性策略,为理解风险决策的认知机制提供了新视角(涉及RL模型、PVL框架等专业概念)。
【模型形式化部分】
所有八个模型都通过计算任务中每个选项的期望值(EV)来运作。这些期望值被代入公式1所示的softmax规则中,以确定每个模型在试验t时选择每个j选项的概率:
P(Cj,t) = eβ?EVj,t/ ∑1N(j)eβ?EVj,t
根据Yechiam和Ert(2007)的研究,β = 3c- 1;c ∈ (0,5),其中c是调节选择偏向的逆温度参数。当c接近0时选择更随机,反之当c增大时选择更偏向最高期望值选项。
我们将模型集分为具有两个自由参数的基础模型和具有四个参数的扩展模型。第一个基础模型是Delta模型,它假设每个j选项在每次试验t中的期望值根据公式2更新:
EVj,t+1= EVj,t+ α?(rt- EVj,t)?Ij
其中Ij是指示变量(选择j时为1,否则为0),α是学习率参数。
下一个基础学习模型是Decay模型。该模型通过衰减参数(A)调整期望值,所有选项每轮都会衰减,只有被选选项会因奖励值而增加:
EVj,t+1= EVj,t?(1 - A) + rt?Ij
我们提出的第一个新模型是Decay-Win模型。这个基础双参数模型假设奖励是相对于情境加工的,通过公式4跟踪近期平均奖励:
AVt+1= AVt+ A?(rt- AVt)
该模型仅使用结果效价(特别是正性结果)指导选择。如果当前奖励高于平均值,则按公式5更新期望值(Ij=1),否则不增加期望值。Decay-Win模型在增益和损失条件下都预测对高频选项的偏好。
最后一个基础模型Decay-Loss模型采用与Decay-Win相反的策略,跟踪每个选项提供"损失"(低于平均奖励)的频率。如果当前奖励低于平均值,则按公式6更新期望值(Ij=1):
EVj,t+1= EVj,t?(1 - A) - 1?Ij
【扩展模型】
我们还拟合了四个基础模型的扩展版本。PVL-Delta模型是Delta模型的扩展,包含两个额外参数,通过公式7将结果转化为主观效用(ut):
ut= { rtγif rt≥ 0; -λ|rt|γif rt< 0 }
其中形状参数γ(0≤γ≤1)决定效用函数形状,损失厌恶参数λ(0≤λ≤5)调节损失与增益的权重。
PVL-Decay模型同样使用公式7计算效用,但通过衰减规则更新期望值:
EVj,t+1= EVj,t?(1 - A) + ut?Ij
第三个扩展模型PVPE-Decay模型是Decay-Win和Decay-Loss模型的扩展,这两个简单模型都是其特例。该模型使用相对奖励(rt- AVt)计算主观效用:
ut= { (1 - wL)?(rt- AVt)γif (rt- AVt) ≥ 0; wL|rt- AVt|γif (rt- AVt) < 0 }
该模型包含损失与增益的权重参数wL(0≤wL≤1),当wL=0, γ=0时退化为Decay-Win模型,当wL=1, γ=0时退化为Decay-Loss模型。
最后,Delta-Uncertainty模型通过跟踪每个选项的方差(不确定性)来扩展基础Delta模型。不确定性值通过公式12更新:
UVj,t+1= UVj,t+ α?[(rt- EVj,t)2- UVj,t]?Ij
不确定性估计值通过公式13计算后,通过权重参数wUnc从期望值中减去,产生最终Q值(公式14),用于softmax选择。
总结而言,Delta、Decay、PVL-Delta、PVL-Decay和Delta-Uncertainty模型都假设对每个选项提供的增益或损失进行绝对、情境无关的加工,而Decay-Win、Decay-Loss和PVPE-Decay模型假设相对加工,即选项结果相对于所有选项的整体平均奖励进行加工。
【模型模拟】
我们在修改自Don等人(2019)的任务中模拟了每个模型,包含增益和损失两种条件。四个选项A-D的均值奖励在增益任务中为[0.65, 0.35, 0.75, 0.25],在损失任务中为[-0.35, -0.65, -0.25, -0.75]。训练阶段包含100次AB试验和50次CD试验,测试阶段评估关键CA试验的选择偏好。
模拟结果显示,Delta和PVL-Delta模型在两个条件下都预测对更高奖励选项C的偏好。Decay和PVL-Decay模型在增益条件下预测更少C选择(更多A选择),但在损失条件下预测更多C选择——即Decay模型预测增益条件下的频率效应和损失条件下的反转频率效应。Decay-Win模型在两个条件下都预测频率效应,而Decay-Loss模型在两个条件下都预测反转频率效应。PVPE-Decay和Delta-Uncertainty模型预测A和C选择大致相等,因为前者能灵活模拟Decay-Win和Decay-Loss模型,后者能通过不确定性权重调节预测。
【实验1】
在实验1中,我们在上述两种条件下运行参与者,检验他们在损失条件下是否显示Decay模型预测的反转频率效应,还是在两种条件下都显示相似的频率效应(在测试阶段偏好更频繁奖励的选项)。
【实验2】
实验2包含两个损失奖励结构的条件:训练阶段AB和CD试验相等的控制条件,和类似实验1的频率条件。在控制条件下,我们预测人们会在CA测试试验中显示对选项C的偏好。
【实验3参与者】
由于实验3的时间限制,我们计划在每个条件下运行约100名参与者。最终样本为203名参与者,控制条件97名,频率条件106名。控制条件中女性70名、男性26名、其他1名;频率条件中女性78名、男性27名、其他1名。
【总体讨论】
我们的实验结果不支持Decay模型关于损失条件下频率效应反转的预测。在实验1和3中未发现反转频率效应,在实验2的损失条件下发现了与实验1增益条件方向一致的适度频率效应。虽然Decay模型正确预测了实验1增益条件下的频率效应,但在损失条件下表现很差。跟踪相对增益数量的Decay-Win模型提供了最佳的定性预测,而更复杂的PVPE-Decay和Delta-Uncertainty模型提供了最佳定量拟合。
【结论】
我们检验了Decay模型关于损失条件下频率效应反转的预测。该模型的预测仅在增益结构下得到支持;在损失条件下模型表现很差。我们在实验1的增益条件和实验2的损失条件下发现了频率效应。跟踪相对增益提供的Decay-Win模型提供了最佳的定性预测,而更复杂的PVPE-Decay模型(包含相对奖励加工和损失/增益权重)以及Delta-Uncertainty模型(包含不确定性跟踪)提供了最佳定量拟合。这些发现表明,人们在损失最小化决策中采用相对加工策略,将较小损失视为相对增益,特别是在涉及成本最小化的熟悉情境中。