Human curriculum learning of a cue combination task(线索组合任务中的人类课程学习)

《Nature Human Behaviour》:Human curriculum learning of a cue combination task

【字体: 时间:2026年05月06日 来源:Nature Human Behaviour 15.9

编辑推荐:

  摘要 人类在将问题分解为部分时通常学得更好,但这一现象在计算层面尚未得到解释。本文研究不同的训练课程如何帮助或阻碍经典概率性线索组合任务的学习。通过“分而治之”方式、一次呈现一个线索的训练课程,有助于后期在涉及多个线索的测试试次中表现更好。这种效应可由一种混合

摘要 人类在将问题分解为部分时通常学得更好,但这一现象在计算层面尚未得到解释。本文研究不同的训练课程如何帮助或阻碍经典概率性线索组合任务的学习。通过“分而治之”方式、一次呈现一个线索的训练课程,有助于后期在涉及多个线索的测试试次中表现更好。这种效应可由一种混合学习框架捕获,该框架在两种不同的学习策略之间进行仲裁:一种是边际更新(marginal updating)过程,其独立为每个线索分配功劳;另一种是联合更新(joint updating)过程,其根据线索的共同存在在多个线索之间分配功劳。研究人员利用该理论生成新的“偏态分布”多线索课程,这些课程应当能够(或不应当)成功促进人类学习。理论预测准确,表明我们可以利用学习的计算见解来加速人类的概率学习。
一、研究背景与意义
决策通常需要整合来自多个来源的信息,例如医生需综合多种可观察症状来诊断疾病。心理学、神经科学和统计学领域已对此进行了广泛研究,并从描述性和规范性角度对其有了深入理解。在经典的“天气预测任务”中,几何形状(线索)提供关于结果将是“晴天”还是“雨天”的独立证据。每个线索被赋予一个权重(weight of evidence, WOE),多个线索同时出现时,奖励概率由各线索WOE之和决定。尽管我们已知人类和动物能近似最优地整合信息,但对人类如何学习与每个证据源相关的适当权重却知之甚少。目前,认知科学缺乏关于特定课程为何能成功或失败促进生物智能体学习的、普遍的、基于计算的理论。值得注意的是,标准的深度学习系统很少受益于时间结构化的训练机制,这使我们缺乏模型来模拟和理解生物课程学习。因此,本研究旨在提供这样一个理论,探索训练课程的呈现方式如何帮助或阻碍参与者学习每个线索的权重,并利用计算见解设计能加速人类学习的新课程。
本研究发表在《Nature Human Behaviour》期刊,其重要意义在于首次为人类在概率性线索组合任务中的课程学习效应提供了计算层面的理论解释,并利用该理论成功预测和设计了能有效提升学习效果的新训练方案,为理解人类学习机制和优化教育实践提供了新的见解。
二、主要技术方法
研究主要基于在线行为实验,通过Prolific平台招募18-30岁、无神经精神病史的参与者。实验采用改编版的“天气预测任务”,参与者需根据呈现的几何形状线索预测天气(晴/雨)。每个线索被分配一个WOE值,映射到选择右侧选项的奖励概率。训练阶段提供反馈,测试阶段不提供。研究共进行了6项实验,比较了不同的训练课程:单一课程(一次一个线索)、并行课程(一次三个线索)、偏态分布课程(偏向极端或温和的WOE组合)、理想化并行课程(确定性反馈)以及递增/递减课程。研究人员通过逻辑回归恢复参与者的主观WOE,并采用基于感知机学习规则的混合学习计算模型(包含边际更新、联合更新及混合策略)对参与者的试次间选择行为进行建模和比较,以揭示不同课程影响学习的认知机制。
三、研究结果
1. 单例效应:分而治之策略的学习益处
实验1结果显示,在训练阶段,单一课程(一次一个线索)的学习速度快于并行课程(一次三个线索)。更重要的是,这种优势持续到无反馈的测试阶段,即使在涉及一、二、三个独特线索的试次上,单一课程组的准确性也均高于并行课程组。这被称为“单例效应”,表明“分而治之”策略能更有效地促进线索组合任务的学习。主观WOE分析也证实单一课程组学习了更大的权重值。
2. 单例效应的稳健性及替代解释的排除
实验2和3独立重复了单例效应。实验2还发现,单一课程训练的优势不仅体现在训练过的三线索组合上,也泛化到未训练过的新组合。实验3通过增加一个涉及新线索集的后续单例训练任务,排除了动机差异作为主要解释。此外,反应时分析和计算建模参数比较也支持了学习策略差异而非动机或注意衰减是主要驱动因素。研究人员还通过新的组合任务“Pointer”验证了单例效应可推广到加法运算等不同的学习情境。
3. 计算建模:一种混合学习机制
为解释单例效应,研究人员提出了一个混合学习框架,将学习者建模为一个感知机。该框架假设学习者在多线索试次中,会在两种更新策略间仲裁:边际更新(独立将结果归因于每个呈现的线索)和联合更新(基于所有线索的整合证据来分配功劳)。边际更新认知成本低但学习精度可能受损;联合更新更精确但计算成本更高。混合模型引入参数γ来动态权衡两种策略。模型比较显示,两种混合自适应模型(基于预测误差距离或WOE标准差的“混合s.d.模型”)比单一策略模型(纯边际或纯联合)能更好地拟合行为数据。模型分析表明,单一课程条件下,学习者在多线索试次中更多地采用了联合更新策略,而这与更高的测试准确率相关。控制联合更新使用比例后,条件间的表现差异消失,表明策略使用的差异是驱动单例效应的关键。
4. 设计新课程以改善或阻碍学习
基于混合学习框架,研究人员预测:如果训练课程的结构能让边际更新更有效,参与者应能习得更准确的线索权重。他们通过计算搜索,生成了两种新的并行课程:偏态高课程(更多包含极端WOE总和的组合)和偏态低课程(更多包含温和WOE总和的组合)。实验4验证了这些预测:偏态高课程的表现与单一课程相当,并显著优于标准并行课程;偏态低课程则表现最差。这表明可以利用计算理论来识别能加速学习的新课程。
5. 理想化并行训练无法改善学习表现
之前研究表明,提供确定性反馈的“理想化”训练可以促进对噪声信号的学习。然而,混合学习框架模拟预测,在当前的线索组合任务中,将反馈理想化(根据WOE总和的正负号决定奖励)不会提升表现。实验5证实了这一预测:理想化并行训练的表现并未优于标准并行训练,且仍显著差于单一课程训练。
6. 递增与递减课程间无学习差异
直觉上,“由简入繁”的递增课程(线索数从1到2到3)可能更有优势。然而,混合学习框架模拟预测递增与递减课程(线索数从3到2到1)的表现无差异,且两者均与单一课程表现相当,优于并行课程。实验6结果与预测一致:递增、递减和单一课程产生了可比的学习表现,三者均优于并行课程。
四、讨论与结论
讨论:本研究阐明了人类课程学习的一个简单案例,即从分而治之策略中受益。研究人员提出了一个计算框架,该框架通过一种在两种不同学习策略间动态仲裁的混合学习机制来解释这种效应。从资源理性的角度看,学习者会权衡学习策略的收益与认知成本,在资源约束下选择预期效用最大化的策略。本研究发现,当联合更新的精度优势超过其相对于边际更新的额外努力时,学习者会更依赖联合更新,而课程结构系统地影响了这种权衡。该框架还有潜力整合注意力偏置、学习率衰减等其他因素,作为一个灵活的理解多维度环境中适应性学习的通用框架。然而,当前研究是在计算层面阐述的。未来工作应探究课程效应在神经层面的实现方式,以及这些机制如何与更广泛的注意、记忆和控制认知系统相互作用。此外,分而治之策略的益处能否推广到子成分存在非线性或上下文依赖交互的其他学习形式,以及学习者如何在分解性和整合性策略间切换,是未来研究的重要方向。
结论:研究表明,不同的训练课程通过改变替代学习策略的相对收益和成本,使学习者偏向策略空间的不同区域。从资源理性的角度来看,学习者会权衡学习策略的好处与其认知成本,在资源约束下选择预期效用最大化的策略。研究发现,当联合更新的精度优势超过其相对于边际更新的额外努力时,学习者会更依赖联合更新,并且课程结构系统地影响了这种权衡。该框架因此有助于解释为什么某些课程比其他课程更有效,并为设计能改善学习结果的训练方案提供了原则性基础。总之,我们的研究为人类课程学习提供了一个计算解释,并展示了如何用它来设计能改善学习的新训练方案。展望未来,利用机器学习方法设计新的、数据驱动的训练课程,可能超越单纯的理论预测,加速人类和人工智能的学习。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号