可靠且精确的路面性能推断研究是路面性能维护和主动抑制病害的重要理论基础。然而,由于当前路面性能数据的更新频率低、时效性不足和覆盖范围有限,业界对路面性能的时空演变规律了解不足,这使得维护管理部门难以有效跟踪和预测路面状况的衰退趋势,从而影响了巨大资产效益的体现。由于城市公共交通的数字化和智能化,许多公交车都配备了摄像头。这些摄像头收集的数据被整合到了物联网(IoT)中,为交通部门提供了大量低成本、高频率的道路数据。众包交通数据的应用非常广泛,可以用来推断城市交通状况[1]、估计实时交通速度[2]、[3]、预测路面性能[4]以及快速响应交通事故[5]。众包数据具有高频、广域和多维度的特点,因此可以用来提高对交通问题的精细化分析能力。然而,众包数据也存在稀疏性和不均匀性的问题[6]。尽管众包数据提供的样本量比传统方法大几个数量级,但它存在许多问题。主要问题是数据稀疏,即存在大量缺失数据。由于各种原因,不同车辆、时期和地区的众包路面数据观测频率差异很大,导致数据样本不均匀。为了减轻这种不规则性的影响,原始数据通常需要在建模前进行时间对齐和聚合(详见第3.1节)。数据的不确定性导致了检测、预测和决策的不确定性[7]。因此,要利用众包数据,首先需要解决数据不确定性的问题。
处理众包数据不确定性的挑战包括:(1)复杂的道路环境:数据收集受到复杂道路环境的影响,导致多种不确定性来源和显著偏差。(2)获取真实值的难度:获取交通和路面特征的真实值具有挑战性且成本高昂。缺乏真实值使得建立基准变得困难。(3)交通数据的动态性:众包数据是动态的。即使进行每日采样,从多个检测结果中得出可靠估计也具有挑战性。
虽然贝叶斯推断或卡尔曼滤波等概率方法已被广泛用于处理交通分析中的不确定性,但当应用于这种非结构化的众包数据时,它们面临局限性[8]、[9]。传统的贝叶斯模型通常假设数据源之间的可靠性相同,或将测量噪声视为一个全局的、静态的参数。面对高偏差的异常值时,这些方法倾向于将偏差信息纳入后验分布,而不是将其拒绝,从而导致后验分布偏斜。它们缺乏考虑过程不确定性的机制——即由于不规则的采样间隔和异构的传感器条件导致的数据可信度变化。简单地应用这些标准模型往往无法区分高质量观测值和异常值,从而在复杂的道路环境中导致估计精度不佳。
本文研究了利用众包交通数据来填补这一空白的方法,以路面性能预测作为一个代表性的案例。通过使用多属性众包交通数据实现了精细化的路面性能预测。路面状况预测通常基于人工检测结果或高精度路面检测车辆收集的数据。然而,这些方法的检测周期较长,且无法全面覆盖城市道路。稀疏数据使得难以进行精细化的路面退化预测。相比之下,从公共交通系统收集的众包数据提供了高频和低成本的数据,可以作为年度道路检测和人工检测数据的宝贵补充。它有助于优化路面性能监测的检测周期和覆盖范围。然而,由于效率和成本的限制,众包数据往往缺乏使用高精度仪器收集的数据的精确性和一致性。其固有的噪声需要一种更健壮的建模方法。虽然标准不确定性处理方法——如高斯过程回归(GPR)、集成学习和卡尔曼滤波——为随机估计提供了健壮的框架,但当应用于原始众包交通数据时,它们面临重大挑战。例如,GPR在处理大规模高频率数据时计算成本可能过高,而标准卡尔曼滤波通常假设高斯噪声,可能难以处理低成本传感器中的非平稳误差。同样,集成方法需要多样化和高质量的基学习器。这使得使用众包数据的预测模型难以获得可靠的结果,如图1左侧所示。因此,我们旨在解决的挑战是如何利用众包数据,在其高噪声、变化采集频率和复杂误差源的情况下进行准确可靠的预测。
本文提出了一种通用的众包数据不确定性处理框架,可以减少众包路面数据中的随机不确定性和认知不确定性。通过利用多个历史真实值推断可靠值,该框架使得低成本、高噪声的众包数据能够应用于路面性能预测。充分利用众包数据的优势,包括其大量、广泛的范围和高频率,该方法探索了数据内部的内在相关性,并使用历史信息来估计当前状态。估计结果可以纠正数据错误,并在预测过程中作为先验知识和软约束来提高准确性。图1右侧展示了该框架的示意图。此外,我们收集了大量实际数据和路面性能真实值,以建立用于验证的众包路面数据集。本文的主要创新和贡献如下:
1. 提出了一种加权贝叶斯融合估计方法:该方法使用少量历史真实值作为条件概率来推断可靠值。根据信息源(历史时间步的真实值)的置信度为条件概率分配权重。即使真实值有限,该方法也能获得令人满意的估计结果。
2. 探索不确定性处理框架与时间序列预测模型的集成:提出了一种创新方法,将加权贝叶斯估计整合到软标签中。通过使用加权贝叶斯估计来约束时间序列预测,该方法实现了更好的预测准确性。
3. 为不确定性处理框架开发了几个额外的优势:通过建模随机不确定性的先验概率并建立基于知识的过滤方法,该框架展示了:(1)处理随机不确定性和认知不确定性的机制,(2)在不规则时间间隔下估计不确定性的能力,以及(3)在处理高度偏置异常值情况下的鲁棒性。本文的其余部分组织如下。第2节回顾了与不确定性过程和预测问题相关的现有研究。第3节介绍了本研究中使用的数据、假设和初步知识。第4节详细介绍了我们的方法论,第5节通过数值实验进行了验证。最后,第6节总结了整篇论文。