解析在无控制人行横道上与行人互动时的驾驶行为：一种模仿学习方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES》：Deconstructing driving behaviors in interactions with pedestrians at uncontrolled crosswalks: an imitation learning method

【字体：大中小】 时间：2026年01月26日 来源：TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES 7.9

编辑推荐：

　　驾驶行为建模基于改进的生成对抗模仿学习框架，通过轨迹数据构建有限状态马尔可夫决策过程模型，验证其在仿真环境中复现人类驾驶行为及策略泛化能力，并可视化揭示风险和语境依赖的行为机制。

王涛|Kieu Minh|李成民|陈文强|葛英恩

中国西安长安大学交通工程学院，710064

摘要

本文旨在剖析驾驶员在无控制人行横道与行人互动时的驾驶行为。通过轨迹数据提取描述驾驶员-行人互动的变量，包括位置、加速度、速度、偏航率和互动风险。驾驶行为被建模为在有限状态马尔可夫决策过程（MDP）框架内的效用驱动、智能且理性的决策过程。对传统的生成对抗性模仿学习（GAIL）框架进行了改进，以重建类似人类的驾驶行为模型，其中效用函数定义为代理行为分布与人类驾驶员行为分布之间的偏差。通过深度强化学习（RL）方法最大化这一效用，促使代理逐步复制现实世界中人类驾驶员的行为策略。该行为策略被构建为一个预训练的驾驶行为模型，并在仿真平台上进行验证，以评估其再现人类驾驶行为的能力。实验结果表明，该模型成功再现了人类驾驶员的理性行为，并在仿真环境中生成了类似人类的互动轨迹。迁移实验进一步证明了预训练行为模型的泛化能力。通过可视化互动策略图和状态价值图，揭示了生成类似人类轨迹的机制，包括风险和上下文依赖的分层模式以及潜在的行为偏好。这项工作有助于推进类似人类行为模型的发展，从而提高交通微观仿真的真实性，并改进复杂驾驶员-行人互动中的行为建模。

引言

由于行为仿真实验具有时间与成本节省以及安全风险较低的优势，类似人类的道路用户行为模型在学术界受到了越来越多的关注，特别是在模拟微观驾驶员-行人互动方面（Wang等人，2025a；Zhao等人，2020；Zhu等人，2021a；Zhu等人，2021b）。

一种新兴的实验设置招募参与者（例如行人）使用虚拟现实（VR）设备在模拟交通环境中与虚拟车辆互动（Kalantari等人，2023；Tian等人，2025；Wang等人，2025b；Yang等人，2024；Zou等人，2024）。在这种设置中，构建了一个从特定真实世界场景克隆而来的虚拟驾驶员-行人互动场景，虚拟车辆的操控行为由预定义的让行行为模型生成。这种设置能够在确保安全和成本效益的同时，探索不同互动条件下的行人过街模式。具体而言，通过仿真分析行人的过街特征（如速度、间隙接受度和等待时间），以开发过街模型，为设计安全、和谐的共享道路空间和自动驾驶系统提供理论基础。

在这些仿真实验中，模拟驾驶行为的真实性和可信度对结果的有效性至关重要。越来越多的基于规则的方法被提出用于模拟驾驶员-行人互动场景中的让行行为（Bella和Ferrante，2021；Chen等人，2022；Chen等人，2024a；Lu等人，2016；Wang等人，2021a；Zhao等人，2020；Zhu等人，2021a；Zhu等人，2021b）。在仿真平台内使用预定义的让行行为模型生成类似人类的车辆轨迹。然而，现有的让行行为模型存在两个主要局限性：首先，它们往往缺乏对驾驶员在驾驶员-行人互动中决策过程的深入研究，导致模型缺乏基于驾驶员认知的基础；其次，许多模型在动态互动场景中产生非理性行为，导致仿真结果与人类驾驶员的行为模式不符。

基于代理的强化学习（RL）作为一种有前景的框架，已被用于模拟道路用户的行为，特别是捕捉人类驾驶员的动态决策机制（Wu等人，2024；Zhu等人，2018；Zhu等人，2020）。通过将道路用户抽象为通过策略网络感知环境状态并执行动作的代理，这种方法有效模拟了道路用户与交通环境之间的动态互动（Zhu等人，2020）。然而，一个关键挑战是效用函数的设计。当环境状态到效用的映射不明确或高度非线性时，推导出类似人类的互动策略变得困难。

逆强化学习（IRL）作为一种学习反映道路用户行为偏好的效用函数的方法，最近受到了广泛关注。它在模拟道路用户的微观运动方面取得了显著成功（Alsaleh和Sayed，2021；Alsaleh和Sayed，2022；Alsharif等人，2024；Lanzaro等人，2022；Nasernejad等人，2021；Nasernejad等人，2023；Wang等人，2023）。最新研究表明，这样的效用函数可以有效解释互动行为背后的机制；在此基础上，可以推断出与类似人类行为模式一致的最优互动策略。然而，IRL在计算上非常耗时，因为它需要拟合复杂的效用函数并将RL嵌入到内部循环中。尽管恢复的效用通常具有很好的迁移性，但仍然需要为每个目标领域重新学习新的策略。这一过程通常需要针对每个新展示的任务重复进行，从而导致额外的延迟和效率低下（Torabi等人，2018）。这些挑战限制了IRL在复杂多样的驾驶员-行人互动场景中的可扩展性。

本文提出了一种在生成对抗性模仿学习（GAIL）框架（Ho和Ermon，2016）内的驾驶员-行人互动建模方法，该方法绕过了显式的效用恢复过程，直接从专家示范中复制类似人类的策略。然而，在传统的GAIL框架中，信任区域策略优化（TRPO）优化器不适合驾驶员-行人互动建模：由于样本效率低且依赖于费舍尔信息矩阵（即二阶导数）的重复评估，其收敛速度较慢（Ho和Ermon，2016），尤其是在驾驶员状态空间高维且状态到动作映射复杂的情况下。因此，本文对传统GAIL框架进行了实现和适配，以适应驾驶员-行人互动建模。具体而言，我们研究了更高效的策略优化方法，以增强GAIL在驾驶员-行人互动建模中的性能，并从真实世界数据集中推导出类似人类的互动策略。

据作者所知，这是首次尝试剖析人类驾驶员在与行人互动时的行为策略，并研究这些策略形成的机制。此外，我们从六个地点收集了两种类型无控制人行横道的驾驶员-行人互动数据，并开发了一个仿真平台来验证改进后的GAIL方法的性能。考虑到车辆可能同时与多个行人互动，且行人行为本质上是随机的，我们采用了Wang等人（2024）提出的车辆-行人互动风险（VPIR）模型来实时评估互动风险。然后，我们将互动风险作为状态空间的一部分进行建模，并研究其对学习到的行为策略的影响。本文的贡献包括：

•

我们改进了传统的GAIL框架，以剖析驾驶员在无控制人行横道与行人互动时的行为。实验结果表明，与竞争基线相比，我们的GAIL框架在训练有限的自然驾驶数据时能够达到更稳定的极小极大均衡。将GAIL纳入驾驶员-行人互动建模有助于推进类似人类的行为模型，并提高交通微观仿真的真实性。

•

学习到的互动策略被构建为一个预训练的驾驶行为模型，并转移到目标领域以评估其泛化能力。迁移实验的结果证实了其泛化能力。这种可转移性使得预训练模型能够在多样化的真实世界场景中高效复制人类驾驶行为，并在仿真中再现类似人类的理性行为。

•

通过可视化互动策略图和状态价值图，阐明了类似人类轨迹的生成机制。这些可视化结果提供了新的视角，揭示了互动风险和上下文因素如何塑造驾驶员的潜在决策偏好，从而更深入地理解人类驾驶行为的理性基础。

本文的其余部分组织如下：第2节回顾了微观车辆运动建模的相关工作。第3节介绍了复制互动策略的方法。第4节描述了本研究的数据收集过程。第5节评估了改进后的GAIL方法。第6节讨论了结果并指出了未来工作的方向。第7节总结了本文的主要结论。

章节片段

文献综述

道路用户的微观行为仿真仍然是一个活跃的研究领域，在实施交通政策或道路基础设施项目之前，这些模型在评估交通服务水平和安全性方面具有重要应用。这类模型通常集成到广泛使用的交通仿真软件或平台中，如VISSIM、AnyLogic和SUMO中，以生成对交通安全性能或行为机制分析至关重要的人类行为（Alsharif等人，2024）。

方法论

本节介绍了一个旨在再现无控制人行横道处人类驾驶员互动策略的驾驶员-行人互动建模框架。第3.1节阐述了问题。第3.2节概述了用于实时评估车辆与多行人互动时产生的风险的车辆-行人互动风险模型。第3.3节介绍了改进后的基于GAIL的驾驶员-行人互动建模框架。

实验地点

本文在两种无控制的行人横道环境中进行了实验：（i）街区中间的人行横道处的驾驶员-行人互动；（ii）无控制交叉路口右转车道上的行人与右转车辆之间的互动。驾驶员-行人互动数据来自两个数据集：1）在街区中间位置收集的数据集；2）公共的SinD数据集（Xu等人，2022）。

对于街区中间的人行横道实验，数据集是从

结果

本节的组织结构如下：第5.1节详细介绍了在GAIL-PPO框架下获取互动策略的训练过程。第5.2节介绍了评估预训练模型泛化能力的迁移实验。第5.3节报告了与基线行为生成器、基于规则的方法以及基于概率和学习的方法的比较。第5.4节和第5.5节分别可视化了互动策略图和状态价值图，以剖析驾驶员的

讨论

本文提出了一种模仿学习方法，用于恢复驾驶员在无控制人行横道与行人互动时的策略。我们将人类驾驶建模为一个序列化、随机和非线性的决策过程，其中包含潜在效用，并将其表述为有限状态MDP。然后，我们引入了GAIL框架来恢复类似人类的驾驶员-行人互动策略，在该框架中，替代效用被定义为代理行为与人类驾驶员行为之间的差异

结论

本文提出了一种生成对抗性模仿学习框架，用于剖析驾驶员在无控制人行横道与行人互动时的行为。我们的主要结论如下：

•

利用来自街区中间和交叉路口的轨迹数据，我们展示了将基于PPO的策略优化器集成到传统GAIL框架中可以稳定训练过程。在最终的极小极大游戏中，生成器和判别器几乎达到了理论均衡（即

CRediT作者贡献声明

王涛：撰写——原始草稿、软件开发、方法论设计、数据整理。Kieu Minh：监督、概念构思。李成民：撰写——原始草稿、可视化设计。陈文强：资金筹集、数据整理、概念构思。葛英恩：监督、概念构思、撰写——审稿与编辑、资金筹集。

利益冲突声明

作者声明不存在利益冲突。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

文献综述

方法论

实验地点

结果

讨论

结论

CRediT作者贡献声明

利益冲突声明

热点排行