受人类情感和注意力机制启发的自主车辆决策编码方法:以车道变换时机优化为例
《Accident Analysis & Prevention》:Human-inspired emotion and attention encoding for autonomous vehicles’ decision-making: a lane-change timing optimization case
【字体:
大
中
小
】
时间:2026年03月16日
来源:Accident Analysis & Prevention 6.2
编辑推荐:
自动驾驶车辆在混合交通环境中进行车道变换时面临多车辆协调和风险判别难题,本研究基于认知心理学与神经科学理论,构建了融合情绪与注意力编码的决策框架。通过情感效用模型(EUM)量化驾驶员风险偏好与决策弹性,提出人类化车道变换决策算法(HLD),在3129个真实驾驶数据驱动的仿真场景中验证,该算法在3σ安全准则下实现99.8%的换道成功率,显著优于传统保守策略。
韩天元|刘婷玉|鲍琼|沈永军
东南大学交通学院,中国南京东南大学路2号,211189
摘要
在混合交通环境中,自动驾驶车辆(AV)的变道需要与周围多辆车进行协调,这带来了重大挑战。不当的变道时机可能导致交通事故,因此当前的AV倾向于采取保守策略,尤其是在繁忙的高速公路上。然而,灵活可靠的变道往往是至关重要的,有时甚至是不可或缺的;否则,它不仅会降低效率,还可能引起交通中断。为了解决这个问题,我们借鉴了认知心理学和神经科学的研究成果,提出了一个情绪和注意力编码框架,使AV能够以类似人类的方式变道。具体来说,基于认知能量理论、衰减理论和前景理论,我们构建了驾驶员在多种风险刺激下的生理唤醒、主观体验、注意力分配和情绪效用的神经编码过程。我们引入了一个情绪效用模型(EUM)和一个类似人类的变道决策(HLD)方法,以帮助AV自适应地优化变道时机。最后,我们使用基于3,129个变道片段的数据驱动模拟来评估我们的方法。结果表明,在3西格玛规则下,HLD的变道成功率超过了99.8%,变道时机与真实驾驶员的行为非常吻合,安全性更高。这一成功主要归功于EUM能够根据风险的相对紧急性自适应地调整权重,从而更好地平衡整体效用和个体风险。此外,这一案例研究的成功将为AV在其他复杂任务和场景中的决策提供启示。
引言
自动驾驶车辆(AV)的变道是一个复杂的操作,需要协调周围多辆车的相对运动(Zhu等人,2022年)。在繁忙的高速公路上,这尤其具有挑战性,因为不当的变道时机可能会扰乱交通流甚至导致碰撞(Ma等人,2023年)。目前,AV在变道时需要保持更大的领先距离和滞后距离(Ali等人,2024年),它们的灵活性和可靠性远不如人类驾驶员。因此,它们被迫采取保守策略,避免变道以减少交通冲突。然而,这可能导致驾驶效率低下,使乘客变得不耐烦,并可能引发传统车辆的更具攻击性的行为(Liu等人,2020年;Li等人,2023年)。此外,未来AV和人类驾驶的车辆将在混合交通环境中共存很长时间。两者之间的行为差异和信息障碍使它们的互动更加复杂(Lee等人,2019年;Zhang等人,2023年),进一步增加了AV变道的难度。
实际上,人类驾驶员在变道时愿意接受短暂且可管理的风险(Chen等人,2019年;Shangguan等人,2022年)。主动变道不仅提高了驾驶效率,有时也是防止严重交通拥堵或连锁中断所必需的。与AV相比,人类驾驶员在与传统车辆的互动和协调方面表现更出色,因为他们有更一致的风险评估和思维模式(Matthews和Campbell,2009年),这使得他们更容易产生同理心并接受对方的行为(Lee等人,2021年)。因此,与人类驾驶员的差异是AV在混合驾驶场景中难以变道的基本原因(Li等人,2023年)。当当前的人工智能无法应对这些挑战时,开发者会从人类驾驶员的认知过程中寻找灵感。
仿生神经建模通过模拟生物信息的流动和编辑,有助于增强机器在复杂现实世界环境中的感知、行动和学习能力。其基本原理是模仿生物信息的循环和编辑,以阐明环境刺激下感知和行为之间的交互耦合(Pfeifer等人,2007年;Bartolozzi等人,2022年)。神经科学认为,情绪增强了认知处理能力,是人类适应和生存的心理工具。情绪会根据环境刺激选择性地调动神经资源,帮助驾驶员迅速检测和优先处理威胁和危险(Barbot和Carrasco,2018年;G?nül,2024年)。总之,情绪使驾驶员能够更迅速地对风险做出反应,确保驾驶决策的灵活性、效率和可靠性(Vuilleumier和Huang,2009年;Frenkel等人,2023年)。相反,情绪系统的受损可能导致驾驶员因忽视风险而采取冒险的驾驶行为(Sabek等人,2024年)。
因此,通过结合情绪和注意力编码来模拟驾驶员的心理过程,并开发类似人类的变道决策算法,有望提高AV在高度复杂和不确定的混合交通环境中的适应性,从而实现灵活、高效和可靠的变道。
关于类似人类变道决策的先前研究主要遵循两种范式。第一种范式侧重于从驾驶员那里学习行为特征,旨在从真实世界数据中获取知识和技能。最具代表性的方法是基于深度学习和逆强化学习。前者通常用于模拟自动驾驶测试场景中的背景车辆,而不是直接应用于AV本身。例如,(Dong等人,2025年)利用HighD自然驾驶数据集,结合扩散模型和Transformer,训练了一个名为Transfusor的类似人类的变道轨迹生成算法。后者难以学习,需要高质量的数据,透明度和泛化能力较差,目前缺乏足够的可靠性。例如,(Nan等人,2024年;Chen等人,2025年)首先筛选了轨迹集,应用神经网络学习类似人类的奖励函数,然后在逆强化学习框架内开发了类似人类的变道算法。然而,所提出的算法仅适用于简单场景,并需要额外的硬性约束来防止碰撞。此外,(Yang等人,2021年;Dai等人,2023年)最初基于多项式拟合开发了变道轨迹规划算法,随后使用模拟驾驶数据校准参数,从而实现了类似人类的变道。
第二种范式涉及模仿驾驶员追求利益和避免损失的认知特征,通过建模驾驶员偏好来指导行为决策。最具代表性的方法是基于博弈论和强化学习。前者通常构建一个包含安全性、效率和舒适性的收益函数,以求解均衡解并做出变道决策。然而,大多数这类现有算法只涉及两个参与者,忽略了其他周围车辆的影响——例如Stackelberg博弈(Yu等人,2018年;Hang等人,2021年;Zhao等人,2024年;Pan等人,2026年)和非合作场景下的动态博弈(Hang等人,2023年)。这种限制的原因是难以将多辆车的交互利益整合到一个统一的框架中。因此,基于博弈论的算法需要额外引入规则来评估相对于当前车道中的领先车辆和相邻车道中的目标领先车辆的安全条件。相比之下,强化学习可以通过稀疏奖励来评估不同车辆之间的交互利益,尽管这使得学习过程更具挑战性。例如,(Lu等人,2023年)结合了认知地图和强化学习提出了一个类似人类的变道决策算法,而(Fang等人,2025年;Sun等人,2025年)提出了基于深度强化学习的多车辆交互变道决策算法。重要的是要强调,马尔可夫决策过程是强化学习的理论框架,它在计算预期回报时遵循期望效用理论。这一理论忽略了情绪和注意力等因素引入的心理偏见的作用,这与驾驶员寻求确定性和规避风险的特点不符(Ostermair,2022年)。
目前,越来越多的人认识到结合心理因素对于提高AV的适应性至关重要。例如,(Yang等人,2025年)结合了累积前景理论和社会价值取向,提出了一个与跟随车辆互动的算法,平衡了变道效率和安全性。(Lu等人,2025年)提出了一个基于神经科学的认知编码方案,通过计算类似人类的行为信念,帮助AV做出更安全和更道德的决策。(Jiang等人,2022年)分析了情绪如何影响变道决策中的风险倾向的机制,引入了后悔理论。(Li等人,2022年)建议AV可以通过感知乘客的情绪(如恐惧或愤怒)并相应地调整策略来提高行为决策的适应性。
总之,情绪和注意力是使人类能够适应不确定环境的关键心理工具。然而,现有的关于类似人类变道的研究对驾驶员的心理原理关注不足。尽管这些研究在某种程度上表现出类似人类的特征,例如相似的运动模式,但它们在提高AV在繁忙交通中变道的可靠性和灵活性方面的有效性仍然有限。因此,通常仍然需要额外的安全保障。
与之前关注行为决策类似人类的研究不同,本文专注于驾驶员的心理认知过程。我们认为,适应不确定环境的能力是人类相对于机器的最显著优势之一,因此更值得AV学习和模仿。本研究的三个主要贡献总结如下。
(1) 在认知心理学和神经科学的背景下,结合衰减理论、认知能量理论和前景理论,我们提出了一个用于类似人类发展的AV的情绪和注意力编码框架。
(2) 以变道为例,构建了一个动态和适应性的情绪效用模型(EUM)。该模型解释了为什么驾驶员在决策中表现出高度适应性。
(3) 我们证明了EUM的单峰函数属性,并提出了一种计算效率高、灵活且可靠的人类似人类变道决策(HLD)算法。该算法旨在确定最小化风险并减少交通流中断的最佳变道时机。
部分摘录
情绪和注意力的编码模型
情绪和注意力是通过人类进化磨练出的核心心理机制。它们通过个体的欲望和需求进行调节,适应性地选择和处理外部信息,是导航不确定环境的重要工具。需要注意的是,与日常对情绪的理解不同,心理学将情绪定义为包含三个组成部分:生理唤醒、主观体验和外在表达。
用于变道的情绪驱动效用建模
在驾驶过程中,情绪会根据环境刺激选择性地分配注意力资源,使驾驶员能够迅速检测和优先处理威胁和危险。基于提出的情绪和注意力编码模型,我们运用启发式推理来建模变道的认知过程,旨在使AV能够以类似人类的灵活性和可靠性执行变道。
基于EUM的AV变道时机优化
由于跟随距离(dcp、dtp和dtf)可以根据车辆之间的相对速度ri、v(ri)、π(ri)表示为时间t的函数,U也可以视为时间依赖的函数。因此,通过优化来确定最佳变道时机变得可行。
测试和结果分析
基于真实世界数据的模拟是验证自动驾驶决策算法的关键手段(Bian等人,2025年)。从HighD数据集中提取了3,129个包含变道车辆(CPV)、TPV和TPF轨迹的变道片段。每个片段持续8秒,涵盖了变道开始前后的4秒。假设在t = 0秒时,驾驶员形成了变道的意图,在t = 4秒时,操作开始。
结论性评论
在可预见的未来,自动驾驶车辆(AV)将主要在以人类驾驶车辆为主的混合交通环境中运行。AV和人类驾驶员之间的行为差异构成了重大挑战,尤其是在同时与多辆车互动的变道过程中。开发类似人类的驾驶策略可以帮助弥合这些差距,促进更顺畅的合作。为此,本研究对驾驶员的情绪进行了建模
CRediT作者贡献声明
韩天元:撰写——原始草稿、方法论、概念化。刘婷玉:撰写——原始草稿、验证、数据整理。鲍琼:项目管理、资金获取。沈永军:资源、方法论、资金获取。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号