一种基于加权贝叶斯估计的方法，用于处理众包数据中的过程不确定性，以预测路面性能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月10日 来源：International Journal of Production Economics 10

编辑推荐：

　　路面性能预测中的众包数据不确定性处理框架研究，提出基于加权贝叶斯融合和软标签引入的方法，有效降低数据稀疏性和噪声影响，实验显示均方误差降低40%，预测精度提升10%。

蔡文渊|杜玉川|吴迪飞|李峰|刘成龙

教育部道路与交通工程重点实验室，同济大学，上海201800，中国

摘要

预测路面性能退化的难度已成为限制大规模道路网络维护科学决策的关键瓶颈。低成本和高频率的数据为路面性能预测的精细化研究提供了新的可能性。然而，众包数据往往具有稀疏性和不规则性，使其难以直接应用于预测。为了解决这个问题，本文提出了一种数据不确定性处理框架，能够在噪声数据集上进行准确的预测。在该框架中，随机不确定性建模提供了先验知识，加权贝叶斯融合方法可以根据历史真实值估计模拟值。此外，还设计了一个过滤模块来纠正异常值。本文还介绍了一种将加权贝叶斯估计作为软标签整合到预测模型中的方法。实际数据实验验证了该框架能够有效处理不确定性，与手动标注的数据相比，平均绝对误差降低了40%。此外，与直接使用估计数据相比，软标签的引入方法使预测准确性提高了10%，取得了有希望的结果。

引言

可靠且精确的路面性能推断研究是路面性能维护和主动抑制病害的重要理论基础。然而，由于当前路面性能数据的更新频率低、时效性不足和覆盖范围有限，业界对路面性能的时空演变规律了解不足，这使得维护管理部门难以有效跟踪和预测路面状况的衰退趋势，从而影响了巨大资产效益的体现。由于城市公共交通的数字化和智能化，许多公交车都配备了摄像头。这些摄像头收集的数据被整合到了物联网（IoT）中，为交通部门提供了大量低成本、高频率的道路数据。众包交通数据的应用非常广泛，可以用来推断城市交通状况[1]、估计实时交通速度[2]、[3]、预测路面性能[4]以及快速响应交通事故[5]。众包数据具有高频、广域和多维度的特点，因此可以用来提高对交通问题的精细化分析能力。然而，众包数据也存在稀疏性和不均匀性的问题[6]。尽管众包数据提供的样本量比传统方法大几个数量级，但它存在许多问题。主要问题是数据稀疏，即存在大量缺失数据。由于各种原因，不同车辆、时期和地区的众包路面数据观测频率差异很大，导致数据样本不均匀。为了减轻这种不规则性的影响，原始数据通常需要在建模前进行时间对齐和聚合（详见第3.1节）。数据的不确定性导致了检测、预测和决策的不确定性[7]。因此，要利用众包数据，首先需要解决数据不确定性的问题。

处理众包数据不确定性的挑战包括：（1）复杂的道路环境：数据收集受到复杂道路环境的影响，导致多种不确定性来源和显著偏差。（2）获取真实值的难度：获取交通和路面特征的真实值具有挑战性且成本高昂。缺乏真实值使得建立基准变得困难。（3）交通数据的动态性：众包数据是动态的。即使进行每日采样，从多个检测结果中得出可靠估计也具有挑战性。

虽然贝叶斯推断或卡尔曼滤波等概率方法已被广泛用于处理交通分析中的不确定性，但当应用于这种非结构化的众包数据时，它们面临局限性[8]、[9]。传统的贝叶斯模型通常假设数据源之间的可靠性相同，或将测量噪声视为一个全局的、静态的参数。面对高偏差的异常值时，这些方法倾向于将偏差信息纳入后验分布，而不是将其拒绝，从而导致后验分布偏斜。它们缺乏考虑过程不确定性的机制——即由于不规则的采样间隔和异构的传感器条件导致的数据可信度变化。简单地应用这些标准模型往往无法区分高质量观测值和异常值，从而在复杂的道路环境中导致估计精度不佳。

本文研究了利用众包交通数据来填补这一空白的方法，以路面性能预测作为一个代表性的案例。通过使用多属性众包交通数据实现了精细化的路面性能预测。路面状况预测通常基于人工检测结果或高精度路面检测车辆收集的数据。然而，这些方法的检测周期较长，且无法全面覆盖城市道路。稀疏数据使得难以进行精细化的路面退化预测。相比之下，从公共交通系统收集的众包数据提供了高频和低成本的数据，可以作为年度道路检测和人工检测数据的宝贵补充。它有助于优化路面性能监测的检测周期和覆盖范围。然而，由于效率和成本的限制，众包数据往往缺乏使用高精度仪器收集的数据的精确性和一致性。其固有的噪声需要一种更健壮的建模方法。虽然标准不确定性处理方法——如高斯过程回归（GPR）、集成学习和卡尔曼滤波——为随机估计提供了健壮的框架，但当应用于原始众包交通数据时，它们面临重大挑战。例如，GPR在处理大规模高频率数据时计算成本可能过高，而标准卡尔曼滤波通常假设高斯噪声，可能难以处理低成本传感器中的非平稳误差。同样，集成方法需要多样化和高质量的基学习器。这使得使用众包数据的预测模型难以获得可靠的结果，如图1左侧所示。因此，我们旨在解决的挑战是如何利用众包数据，在其高噪声、变化采集频率和复杂误差源的情况下进行准确可靠的预测。

本文提出了一种通用的众包数据不确定性处理框架，可以减少众包路面数据中的随机不确定性和认知不确定性。通过利用多个历史真实值推断可靠值，该框架使得低成本、高噪声的众包数据能够应用于路面性能预测。充分利用众包数据的优势，包括其大量、广泛的范围和高频率，该方法探索了数据内部的内在相关性，并使用历史信息来估计当前状态。估计结果可以纠正数据错误，并在预测过程中作为先验知识和软约束来提高准确性。图1右侧展示了该框架的示意图。此外，我们收集了大量实际数据和路面性能真实值，以建立用于验证的众包路面数据集。本文的主要创新和贡献如下：

1. 提出了一种加权贝叶斯融合估计方法：该方法使用少量历史真实值作为条件概率来推断可靠值。根据信息源（历史时间步的真实值）的置信度为条件概率分配权重。即使真实值有限，该方法也能获得令人满意的估计结果。

2. 探索不确定性处理框架与时间序列预测模型的集成：提出了一种创新方法，将加权贝叶斯估计整合到软标签中。通过使用加权贝叶斯估计来约束时间序列预测，该方法实现了更好的预测准确性。

3. 为不确定性处理框架开发了几个额外的优势：通过建模随机不确定性的先验概率并建立基于知识的过滤方法，该框架展示了：（1）处理随机不确定性和认知不确定性的机制，（2）在不规则时间间隔下估计不确定性的能力，以及（3）在处理高度偏置异常值情况下的鲁棒性。本文的其余部分组织如下。第2节回顾了与不确定性过程和预测问题相关的现有研究。第3节介绍了本研究中使用的数据、假设和初步知识。第4节详细介绍了我们的方法论，第5节通过数值实验进行了验证。最后，第6节总结了整篇论文。

节选

基于众包数据的预测方法

对于具有多因素耦合的复杂道路或交通系统，发展趋势表现出强烈的非线性、不规则性和随机性。从这些系统收集的众包数据具有广泛的覆盖范围、高频率和多维度属性，能够结合多种影响因素来恢复系统的真实状态。基于众包数据的预测方法，专注于揭示数据模式，已被越来越多地采用

数据描述

众包数据指的是能够准确、全面和连续描述特定物理空间的海量数据集。众包路面数据对于支持精细化和准确的路面性能预测至关重要。随着自动数据收集设备和智能分析算法的发展和普及，道路数据的获取已经变得高频和低成本。构建众包数据集的条件现在已经成熟。

方法论

本节介绍了一种处理众包公交车数据中不确定性的方法。第4.1节介绍了研究的整体框架。第4.2节详细介绍了随机不确定性的先验分布建模方法。第4.3节描述了针对认知不确定性的过滤方法。第4.4节介绍了加权贝叶斯融合估计方法，最终实现了数值预测。此外，我们提出了一种软标签方法以更好地引入

数值实验

本章通过实验验证了上述方法的有效性。实验分为四个部分。第一部分建立了随机不确定性的分布。第二部分测试了过滤算法的有效性。第三部分基于前两部分的结果，验证了加权贝叶斯融合估计方法在估计真实值方面的有效性。第四部分评估了

结论

本研究提出了一种众包数据的不确定性处理框架，为交通领域的时间序列预测问题提供了研究基础。该框架可以帮助使用高噪声众包数据进行准确的精细化路面性能预测。不确定性处理框架遵循随机不确定性建模——认知不确定性过滤——加权贝叶斯融合估计的过程。

CRediT作者贡献声明

蔡文渊：撰写——原始草稿、可视化、验证、方法论、概念化。杜玉川：资金获取。吴迪飞：方法论。李峰：监督、概念化。刘成龙：方法论、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本项工作得到了国家自然科学基金（T2522025、52472327、52372305）和中央高校基本科研业务费（22120230311）的研究资助。

联系信箱：

粤ICP备09063491号

摘要

引言

节选

基于众包数据的预测方法

数据描述

方法论

数值实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行