一种基于视频记录确定易受伤害的道路使用者轨迹的新方法及其实际应用意义

《Accident Analysis & Prevention》：A novel method for determining the trajectory of vulnerable road users from video recordings and its practical implications

【字体：大中小】 时间：2026年05月10日 来源：Accident Analysis & Prevention 6.2

编辑推荐：

　　兹比涅克·亚诺什卡（Zbyněk Jano?ka）| 玛蒂娜·比洛娃（Martina Bílová）| 米哈尔·比尔（Michal Bíl） CDV – 捷克共和国交通研究中心摘要：准确的轨迹重建对于可靠的替代安全分析至关重要，然而大多数计算机视觉处理流程仍然使用边界框的几

　　兹比涅克·亚诺什卡（Zbyněk Jano?ka）| 玛蒂娜·比洛娃（Martina Bílová）| 米哈尔·比尔（Michal Bíl）

CDV – 捷克共和国交通研究中心

摘要：准确的轨迹重建对于可靠的替代安全分析至关重要，然而大多数计算机视觉处理流程仍然使用边界框的几何中心来表示道路使用者——这种简化引入了系统性的空间偏差。我们提出了一种新的轨迹估计方法，该方法根据物体的几何形状和运动动力学计算出一个代表性点，从而更真实地逼近物体实际占据的空间。该方法在64小时的视频数据上进行了评估，这些数据涵盖了3种交通环境和223处车行人与行人的轨迹交叉点。以“侵入后时间”（Post-Encroachment Time, PET）作为主要性能指标，我们发现所提出的方法产生的PET值与使用边界框中心的方法平均相差0.69秒，在16.7%的冲突事件中，这种差异超过了1秒。这些偏差系统性地改变了冲突严重性的分类，导致高达3.6%的事件被重新归类到不同的基于PET的风险类别中。结果表明，传统的轨迹表示方法可能会严重扭曲替代安全指标。

除了安全应用之外，该方法还能够更精确地估计不同类型道路使用者的空间占用情况，从而支持对街道空间分配和利用的深入分析。

1. 引言
基于视频的自动化分析已成为道路安全研究的重要组成部分，在过去二十年里取得了显著进展并得到了广泛采用。许多研究关注使用替代安全措施（例如Sayed等，2013年；Beitel等，2018年；Fu等，2019年；Zangenehpour等，2016年）来评估弱势道路使用者的安全状况。替代安全措施（SSM）的确定通常依赖于物体轨迹的提取，这些轨迹被表示为空间-时间坐标的序列。

文献中可以识别出两种主要的轨迹生成方法：基于特征的跟踪（Feature-Based Tracking, FBT）和基于区域的跟踪（Region-Based Tracking, RBT）。关于FBT，该方法通常采用Kanade-Lucas-Tomasi特征跟踪算法（Lucas和Kanade，1981年）。它提取物体特征（如车辆窗户的角落），并追踪每个物体的多个特征以得出单一轨迹。采用这种方法的研究包括Saunier和Sayed（2007年）、Autey等（2012年）、Beitel等（2018年）、Cho等（2010年）、Fu等（2018年）、Hussein等（2015年）、Sayed等（2012年）、Sayed等（2013年）、St-Aubin等（2013年）、Stipancic等（2021年）、Mohammed等（2019年）、Zaki和Sayed（2016年）、Niaki等（2019年）以及Zangenehpour等（2016年）。常用的软件工具是Traffic Intelligence（Jackson等，2013年）。

RBT方法通过边界框识别物体，并将它们分类到预定义的类别中。其中最常用的算法之一是YOLO（You Only Look Once），该算法最初于2016年提出（Redmon，2016年），并在过去十年中得到了改进。已经开发出一种专门用于检测弱势道路使用者的YOLO版本（Liu和Shi，2025年）。各种RBT算法也被用于从视频数据中提取弱势道路使用者（García-Venegas等，2021年；Siebert等，2024年）。采用这种方法的研究包括Chai等（2023年）、Moayed等（2019年）和Zhang等（2020年）。

这两种跟踪方法代表了视频数据中物体识别和跟踪的根本不同方法，如图1所示。虽然FTB在交通研究中的最初应用集中在车辆计数上（Beymer等，1997年；Saunier和Sayed，2006年；Zaki和Sayed，2016年），但后续的研究将其扩展到使用自动化视频分析中的轨迹进行冲突分析，通过时间接近性指标进行判断（Ismail等，2009年；Laureshyn等，2009年）。

2. 数据和方法
2.1. 数据
我们专注于四种应用所提出方法的场景：A）检测骑自行车者和行人；B）研究斑马线处机动车与行人互动的PET值；C）评估骑行者在线内的位置；D）评估摩托车在急转弯处的侧向位置。

A）2024年9月18日在捷克布尔诺的BVV贸易博览会上收集了摄像头录像。摄像头安装在路灯杆上（见图4）。为了评估所提出的RePo估计方法，我们在布尔诺BVV贸易博览会的平坦沥青表面上画了三条直线参考线（作为场景A的一部分）。每条线被行人和骑自行车者各穿过10次，每种用户类型共生成60条参考路径。这些绘制的线作为精确的空间真实值：由于所有参与者的运动严格遵循这些标记的路径，并且表面是平坦的，因此真实轨迹与每条线的已知几何形状完全吻合。数据收集过程中没有发生遮挡现象，确保每一帧都包含完全可见的目标物体，从而可以进行明确的真实值分配。

B）2024年11月19日在捷克布尔诺的BVV贸易博览会区域收集了用于分析PET值的摄像头录像（见图5），当时正在进行年度高等教育和终身学习展览。共收集了8小时的录像。

C）2024年5月20日和8月27日在捷克布尔诺和奥斯特拉瓦收集了用于评估轨迹在地理空间位置的摄像头录像（见图6）。使用安装在路灯杆上的摄像头记录了两条共享路径的录像。每个地点收集了4小时的录像。

D）2025年7月19日在捷克?ervenohorské sedlo山口的I44道路上收集了用于评估摩托车位置的摄像头录像（见图7）。10个摄像头安装在护栏上，每台摄像头记录了5小时的录像。

2.2. 方法
2.2.1. 代表性点的确定
所谓代表性点（RePo），是指在确定物体轨迹方面能够最好地代表该物体的点（见图2，蓝色点）。在将轨迹转换为平面时，这个点受到的扭曲最小，因此最适合评估物体的相对位置。以下内容成立：0 ≤ X1 < X2 ≤ W0 ≤ Y1 < Y2 ≤ H。RePo (XRP, YRP) 是一个像素，用于描述图像 I 中对象 O 的位置。0 ≤ XRP ≤ W0 ≤ YRP ≤ H。定义 RP 的最简单方法是将其视为边界框的中心：RP (XRP, YRP) = (? (X1+X2)/2 ?, ? (Y1+Y2)/2 ?)，其中“???”表示向下取整操作。

2.2.2 RePo 估算模型
在来自多个来源的视频片段中进行了行人、骑自行车者和摩托车手的检测。使用预训练在 Coco 数据集（Lin 等，2014）上的 YOLO v9（Wang 等，2024）提取了大约 35,000 名骑自行车者、摩托车手和行人，Coco 数据集是一个包含超过 200,000 张标记图像的大规模数据集，用于机器学习任务的模型训练和验证。对于每个提取的图像，将对象的重心投影到 RePo 平面上，并标记其坐标 (x,y)（见图 8）。对于自行车和摩托车，记录了靠近相机的轮子的轮胎与地面接触点。如果靠近的轮子被遮挡，则记录远离的轮子的接触点。对于行人，则记录了重心的投影位置。

下载：下载高分辨率图像（198KB）
下载：下载全尺寸图像
图 8. 识别出的骑自行车者和行人的默认（红色方块）和手动确定的（蓝色点）RePo。

在此过程中，由于质量不足或分类错误，一些图像被丢弃。最终集合包括大约 6,400 名行人、11,800 名骑自行车者和 3,400 名摩托车手。训练卷积神经网络（CNN）来预测 RePo 的坐标。CNN 的超参数列在表 1 中。为每个对象类别（行人、骑自行车者、摩托车手）分别训练模型。

表 1. 用于估算 RePo 的训练模型的超参数

超参数调整范围选定值
Epochs 50, 75, 100, 125, 150 100
Batch size 32, 64, 128, 256, 512 64
Input image size 16x16, 32x32, 64x64, 128x128 64x64

开发了一个卷积神经网络（CNN）来估算每个检测到的对象类别的 RePo。该模型以裁剪后的行人、骑自行车者或摩托车者的图像作为输入，并输出图像块内 RePo 的预测 2D 坐标 (x,y)。

该网络使用 TensorFlow/Keras 框架实现。它由三个卷积层组成，后面跟着全连接层：
- 卷积层 1：一个具有 32 个 3×3 导滤波器的 2D 卷积层，使用 ReLU 激活函数，然后是 2×2 最大池化。
- 卷积层 2：一个具有 64 个 3×3 导滤波器的 2D 卷积层，使用 ReLU 激活函数，以及 2×2 最大池化。
- 卷积层 3：一个具有 128 个 3×3 导滤波器的 2D 卷积层，使用 ReLU 激活函数，以及 2×2 最大池化。

在卷积层之后，特征图被展平并通过两个全连接层：
- 一个具有 512 个神经元和 ReLU 激活函数的全连接层，之后是 50% 的dropout 以减少过拟合。
- 第二个全连接层，具有 256 个神经元和 ReLU 激活函数。

输出层包含 2 个线性神经元，对应于预测的代表性点的 (x,y) 坐标。

该模型使用 Adam 优化器进行训练，并以均方误差（MSE）作为损失函数。MSE 是合适的，因为该任务涉及预测连续值坐标。输入图像被调整大小为 64×64 像素，与选定的超参数一致。

2.2.3 轨迹识别
使用 BoT SORT 算法（Aharon 等，2022）进行了对象跟踪。对于每个被跟踪的对象，计算了三条轨迹。首先使用 YOLO v9 实现提供的默认方法（https://github.com/ultralytics/ultralytics），该方法使用对象边界框的中心作为 RePo（以下简称默认方法）。第二种方法计算测试数据集中 x 和 y 坐标的平均值作为代表性点（以下简称基准方法，见表 2）。第三种方法使用 CNN 方法生成的代表性点（以下简称改进方法）。所有轨迹都使用 Savitzky-Golay 滤波器（Savitzky 和 Golay，1964）进行平滑，设置如下：多项式滤波器阶数：3，滤波器长度：15 个数据点。

表 2. 基准估算方法的参数
对象类别 RePo 估算的平均坐标 (x, y)
行人 (0.500, 0.927)
自行车 (0.621, 0.938)
摩托车 (0.491, 0.980)

2.2.4 PET 值
仅选择了朝向相机并穿过斑马线的行人和乘用车进行分析。对于车辆，RePo 被估算为边界框的下中点，该点是汽车前端在平面上的投影。对于两种方法，都检索了行人和车辆轨迹之间的所有交点，并计算了 PET 得分。

故意选择 PET 而不是其他安全指标有两个原因。首先：其计算不需要将轨迹从像素坐标转换为地理空间——这种转换往往是误差的来源。其次：与时间到碰撞（Time to Collision）等指标不同，PET 不依赖于速度估算。它是一个纯粹基于时间的指标，定义为第一个道路使用者离开冲突区域到第二个道路使用者进入该区域之间的时间。通过选择 PET，我们确保轨迹估算方法之间的任何差异仅反映 RePo 安置的影响，而不受地理转换或速度估算过程中引入的误差的干扰。

2.2.5 轨迹在地理空间中的位置
在这个实验中，研究了不同方法对骑自行车者横向位置估算的影响（见图 9）。在自行车道上画了一条虚拟线，并计算了每条轨迹与这条线的交点。计算了每个交点与自行车道边缘的距离。

下载：下载高分辨率图像（194KB）
下载：下载全尺寸图像
图 9. 确定的轨迹（虚线）与自行车道边缘的距离（d1 和 d2）。

2.2.6 摩托车位置估算
在这个实验中，估算了摩托车在车道内的横向位置。由于相机的视角非常陡峭（见图 10），使用默认的 RePo 估算方法会得到不现实的结果。因此，将 CCN 方法的 RePo 估算与基准方法（训练数据的平均位置，见表 2）进行了比较。

下载：下载高分辨率图像（101KB）
下载：下载全尺寸图像
图 10. 改进方法（蓝点）和基准方法（红色方块）识别的摩托车的代表性点。基准方法将 RePo 安置在对向车道，而改进方法将 RePo 安置在正确车道内。

3. 结果
表 3 综述了每种使用场景中比较的轨迹估算方法。设置 A 作为一个验证实验，其中所有候选方法都与真实值进行评估，确定了 CNNRePo 是表现最佳的方法。在后续设置中，只比较了最相关的方法：设置 B 和 C 将 CNNRePo 与默认方法进行对比，以展示改进的轨迹估算对安全分析和横向定位的实际影响；设置 D 将 CNNRePo 与基准方法进行对比，因为相机的视角很陡峭，使得默认方法不适合有意义的比较。

表 3. 每种使用场景中比较的轨迹估算方法概述
默认：边界框的几何中心（YOLOv9 实现）；
基准：从训练数据中得出的固定平均代表性点（大约在边界框的底部中间）；
CNNRePo：使用卷积神经网络估算的代表性点；
姿态估算：从左右脚踝关键点平均值得出的代表性点（YOLO11n-pose）。

3.1 轨迹估算
所有三种轨迹估算方法都与真实值进行了比较，真实值定义为表面上的画线（表 4）。对于行人，增加了第四种轨迹估算方法。使用 YOLO11n-pose 模型估算了行人的姿态。轨迹点是通过左右脚踝坐标的平均值计算得出的。改进方法提供了最低的平均误差，尽管仅使用 RePo 的平均值（基准方法）也显著优于默认方法。在 51 条自行车轨迹中的 30 条（59%）和 60 条行人轨迹中的 40 条（67%）中，改进方法提供了比基准方法更好的累积绝对误差。基于姿态关键点（位于左右脚踝之间的点，见图 11）估算的轨迹比默认方法的结果更好，但比基准方法和改进方法的结果差。

表 4. 与真实值相比的三种方法的均方根误差（RMSE）
方法 RMSE (px)
骑自行车者 37.47
行人 1.9
基准 8.0
改进方法 5.0
姿态估算 13.9

下载：下载高分辨率图像（64KB）
下载：下载全尺寸图像
图 11. 行人的估算姿态。RePo 定义为两个脚踝的平均值（底部的橙色点）。

3.2 PET 值
识别了 421 条汽车和行人轨迹之间的交点。只使用选定区域内的交点进行分析，将交点数量减少到 336 个。数据集进一步筛选，只包括行人先穿过街道的交互（223 个交点）。在此分析中，交互定义为行人和车辆轨迹的交叉点。

使用改进方法计算的 PET 值都低于使用默认方法计算的值。PET 值的平均差异为 0.69 秒，中位数为 0.60 秒，最小值为 0.15 秒，最大值为 3.1 秒。两个 PET 值差异最大的交点（> 2 秒）是转弯操作。

图 12 显示，默认的轨迹估算方法一致低估了 PET 值，与改进的轨迹估算相比（所有点都位于水平线 y=0 以下）。几乎所有值都在 0.95% 的置信区间内，表明 PET 值的差异与绝对值无关。这一结果也得到了相关性测试（Spearman 秩相关测试，p 值=0.84）的支持。因此，使用默认的轨迹估算方法会导致 PET 值的系统偏移，这与 PET 的绝对值无关。表 5 显示了 literature 中找到的几个 PET 阈值以下的交点数量。

下载：下载高分辨率图像（182KB）
下载：下载全尺寸图像
图 12. 两种比较的轨迹估算方法的 Bland-Altman 图。上下虚线代表方法之间平均差异的 ± 1.96 * 标准差。为了清晰起见，只显示 PET 值 < 10 的情况。

表 5. PET 阈值以下的交点数量
源 PET 阈值 (s)
与 PET < 阈值的交点数量 (n = 223)
默认 1.500
Ismail 等，2011 2.2–2.8
Kumar 等，2019 2.3
Xin 等，2021 2.6
Hussein 等，2015；Ni 等，2016 3.1
Gang 等，2012 4.8
Almodfer 等，2016 5.4

3.1. 速度剖面分析
为了进一步验证所提出的方法，评估了在斑马线使用场景中观察到的行人的平均行走速度，这些行人的地理坐标已转换。从两种方法的平滑轨迹中计算了平均行走速度，并与已发布的行人 crossing 速度参考值进行了比较。CNNRePo 方法得到的平均行走速度为 1.615 m/s（SD = 0.261），而默认方法得到的平均速度为 1.737 m/s（SD = 0.250）。配对 t 检验确认这两种方法之间存在显著差异（t = -21.80，p < 0.001，平均差异 = 0.122 m/s，n = 878）。CNNRePo 的平均值与 Montufar 等（2007）报告的年轻人在有信号灯交叉口的平均 crossing 速度 1.61 m/s 接近——鉴于数据收集背景，这是最直接的可比参考。默认方法的平均值 1.737 m/s 高于该研究中报告的所有年龄或性别组的 crossing 速度值，表明这是由于轨迹点投影引起的系统性高估。

3.3 轨迹在地理空间中的位置
共识别了 401 名移动的骑自行车者。对于每个对象，分别使用默认方法和改进方法计算了轨迹。在这两个地点，轨迹与自行车道边缘的距离具有双峰分布（见图 13）。使用 R 中的 mclust 包（Scrucca 等，2023）为两种方法和所有数据组合估计了分布参数。

下载：下载高分辨率图像（212KB）
下载：下载全尺寸图像
图 13. 默认方法和改进方法计算的自行车位置的比较。虚线表示各自数据集的平均值，分布均值之间的差异在上方打印。

在两个地点，两种方法的平均值相差 28 – 35 cm（占总宽度的 9.3% – 11.7%）。在地点 1，改进方法的 0.9% 的交点位于自行车道之外，而默认方法的 11.6% 的交点位于自行车道之外。在地点 2，两种方法的所有交点都位于自行车道内。

3.4 摩托车位置估算
在十个地点共检测到 3,551 辆摩托车。对于每辆摩托车，应用了两种轨迹估算方法。第一条轨迹是根据边界框的底部边缘的中心点得出的，第二条轨迹是使用基于卷积神经网络（CNN）的方法得出的。在每个剖面中，都确定了摩托车相对于道路中心线的横向位置。分析仅关注位于曲线外侧且向转弯方向倾斜的摩托车。对于十个曲线中的每一个，计算了位于中心线1米范围内的轨迹比例（详见表6进行对比）。选择1米的阈值是基于这样的假设：一辆高度为150厘米的摩托车在以40度角转弯时，其最高点会偏离轮胎接触点大约96厘米。

表6. 轨迹与中心线距离小于1米的百分比

| 曲线ID | 轨迹与中心线距离小于1米的百分比 |
|--------|-------------------|
| 右转1 | 44.6 |
| 右转2 | 63.5 |
| 左转3A | 21.1 |
| 右转3B | 16.6 |
| 左转4 | 22.5 |
| 右转5 | 19.5 |
| 左转5 | 30.6 |
| S1 | 30.6 |
| S2 | 41.5 |
| S3 | 47.4 |
| S4 | 50.9 |
| 右转4 | 56.3 |

使用比例检验方法评估了不同轨迹估计算法之间比例差异的显著性，显著性水平分别为<0.05（*）、<0.01（**）、<0.001（***）。在十个地点中的九个地点，两种估计算法得出的进入“危险区域”（距中心线1米以内）的骑手比例存在统计显著差异。在所有地点，两种轨迹估计算法之间的差异范围从0.4%到23.4%，其中基于CNN的方法在九个地点计算出的横向距离更接近中心线。

4. 讨论
4.1. 用于对象轨迹确定的图像分析
我们关注的是从视频记录中确定对象轨迹的问题。我们的方法改进了传统做法，即通过对象中心来确定轨迹。这种方法引入了与摄像头高度和距离正相关的空间误差（见图3）。然而，当摄像头镜头来自位于上空的无人机时（例如Wang等人，2019年；Zhang等人，2020年），这种问题就不存在了。在这种情况下，用于确定轨迹的代表点位于物体的中心。由无人机收集的轨迹显示出与固定视频数据不同的误差模式（Venthuruthiyil和Chunchu，2020年），因此需要特定的平滑技术。一些先前的工作通过使用识别出的对象的中心点，然后在其周围构建形状（矩形、3D多边形或缓冲区）来解决这个问题（Lu等人，2021年；Chai等人，2023年；Huang和Chen，2025年）。在这种方法中，轨迹不是时空坐标的序列，而是时间序列中的2D/3D形状序列。

4.2. 对交通安全的影响
在冲突分析中任意选择PET阈值可能导致重要预测因子的效应大小变化，甚至改变某些预测因子的显著性评估（Jansen等人，2024年），这凸显了正确测量PET值的重要性。我们的研究指出，轨迹估计会影响PET值，从而影响冲突情况的选择。如图12所示：改进后的方法得出的PET值更低，因此低于任意阈值的交互比例高于默认方法。尽管没有直接的可验证的真实PET值，但PET估计的准确性本质上依赖于底层轨迹的空间准确性。鉴于CNNRePo轨迹已被证明能更准确地表示道路使用者的真实位置——无论是在RMSE方面（与真实路径相比，第3.1节）还是在行走速度的合理性方面（第3.2.1节），因此基于CNNRePo轨迹得出的PET值比使用默认方法得出的PET值更可靠，为冲突分析提供了更坚实的基础。

4.3. 研究局限性
所提出的实验旨在突出轨迹估计问题及其对冲突分析的影响。然而，本文的结果不能直接应用于类似场景。摄像机参数和放置位置会影响估计轨迹的位置，不同场景下的横向位移绝对值也会有所不同。本文提出的基于CNN的轨迹估计方法具有鲁棒性，我们认为它在所有场景中都会优于默认方法，但比较这两种方法在不同地点可能会得到不同的结果。仅仅比较轨迹的横向位移绝对值或PET值差异是不正确的，因为这些测量在不同地点会有所不同。所提出的模型对遮挡敏感，因为它只能将RePo放置在识别出的对象的边界框内。第2.2.3节提到的后处理步骤（数据插补和平滑）部分解决了这个问题。所有比较的RePo估计方法都受到遮挡的影响。基于人体姿态估计的轨迹可以克服这个问题，因为存在多种考虑遮挡情况的人体姿态估计模型。对于无遮挡的图像，所提出的方法比基于姿态的方法具有更精确的结果。此外，关于自行车的姿态估计模型较为罕见，文献中也没有找到使用道路与轮胎接触点作为关键点的模型。

5. 结论
我们证明了常用的技术由于物体从相机视野中投射出去，导致对易受伤害的道路使用者轨迹的估计不准确。这种扭曲会影响从提取的轨迹计算出的安全措施。我们提出了一种使用卷积神经网络进行轨迹估计的方法，并证明该方法与真实情况更为吻合。我们强烈建议在已发表文献的方法学部分中包含关于轨迹估计的信息，因为它直接影响结果。

作者贡献声明：
Zbyněk Jano?ka：撰写——审稿与编辑、撰写——初稿、方法论、调查、形式分析、数据管理。
Martina Bílová：撰写——审稿与编辑、撰写——初稿、验证、资源管理、项目协调、资金获取、概念化。
Michal Bíl：撰写——审稿与编辑、撰写——初稿、监督、方法论、概念化。

热点排行