STGFormer：一种基于金字塔结构时空图变换器的模型，结合跨领域特征融合技术，用于异构自动驾驶交通环境中语义丰富的轨迹预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：STGFormer: A Pyramidal Spatio-Temporal Graph Transformer with Cross-Disciplinary Feature Fusion for Semantic-Rich Trajectory Prediction in Heterogeneous Autonomy Traffic

【字体：大中小】 时间：2026年01月23日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对混合交通环境中多智能体轨迹预测的挑战，提出STGFormer框架，通过跨学科特征融合和自适应邻域选择图卷积网络、金字塔稀疏语义注意力编码器，结合t分布混合密度网络，显著提升预测的准确性和物理合理性。

　　
在智能交通系统的发展进程中，多智能体轨迹预测技术面临着混合交通场景下的核心挑战。该研究针对传统方法在异构行为建模、长时依赖捕捉及高阶语义融合方面的局限性，创新性地提出了基于跨学科特征融合的Pyramidal Spatio-Temporal Graph Transformer（STGFormer）框架。这一方法论突破主要体现在三个关键维度：空间交互建模的动态适应性、时间序列分析的层次递进性以及多模态概率生成的鲁棒性，为复杂交通环境下的安全决策提供了新的技术范式。

空间建模层面的Adaptive Neighborhood Selection Graph Convolutional Network（ANS-GCN）实现了动态交互建模的范式革新。传统图卷积网络采用固定邻域划分机制，难以适应混合交通中动态变化的交互关系。ANS-GCN通过构建多因子可学习权重系统，在运行时根据当前交通密度、车辆类型及交互强度进行自适应邻域筛选。这种动态机制有效解决了以下工程难题：在高速公路场景中，车辆间距较大但交互频率低，系统自动降低计算复杂度；而在城市交叉路口，密集的异构车辆产生高频次交互，系统能动态扩展关键邻域集合。实验数据显示，相较于静态邻域划分方法，该机制使空间关系建模效率提升约37%，同时将关键交互识别准确率提高至92.4%。

时间序列建模方面，Pyramid Sparse Semantic Attention Transformer Encoder（PSSAT）构建了多层次时空注意力机制。该架构突破性地将Transformer的注意力机制与金字塔分层结构相结合，形成三个递进式处理层：底层聚焦于1-5秒内的即时交互（如跟驰行为），中层解析30秒至1分钟的中期趋势（如路径规划调整），顶层则捕捉5分钟以上的长期行为模式（如跨道路转向意图）。每个层级采用独特的稀疏注意力策略，例如在底层通过局部感知窗口抑制无效关联，在中层引入跨层语义融合模块，顶层整合环境语义约束。这种分层处理机制使模型在处理复杂多义场景时，既能捕捉瞬时碰撞风险，又能准确预测数分钟后的路径偏移。

多模态概率建模环节，t分布混合密度网络（TDMDN）的创新设计显著提升了预测系统的物理合理性。传统MDN基于高斯分布假设，难以有效拟合交通轨迹中常见的长尾分布特征。TDMDN通过引入动态自由度参数，使t分布的尾部衰减速度与实际交通行为匹配度提高41.7%。在极端场景模拟中，该网络成功识别出27.6%的潜在危险行为模式（如疲劳驾驶导致的轨迹偏移），较传统高斯混合模型提前4.2秒发出预警信号。特别设计的密度聚类算法，能将预测轨迹按道路类型、交通密度等语义特征自动分组，形成可解释的多模态分布图谱。

实验验证部分采用三大基准数据集构建评估体系：Argoverse 2覆盖城市复杂道路场景，nuScenes包含高精度多传感器数据，NGSIM则提供早期自动驾驶测试数据。在核心指标评估中，STGFormer展现出全面优势：轨迹预测平均位移误差（ADE）降至1.82米（基准模型为2.45米），轨迹多样性指数（NMI）达到0.87（较最优对比模型提升19%），物理合理性评分（含轨迹曲率、加速度合规性等维度）达4.12/5.00。值得注意的是，在极端交互场景测试中，模型表现出显著的环境适应性：当90%以上车辆突然转向时，预测系统的轨迹重合率仍保持78.3%，较次优模型高出32个百分点。

研究创新性地构建了跨学科特征融合体系，将物理约束、心理行为、环境语义和社会交互四大维度进行有机整合。在物理层，系统实时解算车辆动力学参数，包括轮胎摩擦系数、制动距离等；心理层通过驾驶行为模式识别，提取风险偏好、注意力周期等隐含特征；环境层融合高精地图、实时交通流量及天气数据；社会层则分析交通参与者间的群体行为规律。这种四维融合机制使模型在处理混合交通流时，能同时考虑车辆间的直接交互、环境约束的间接影响以及社会文化背景的深层驱动因素。

在算法架构设计上，研究团队采用了渐进式融合策略：首先通过空间图卷积网络提取局部交互特征，接着利用时间序列Transformer建模动态演化过程，最终通过多模态融合层实现跨域特征整合。这种渐进式处理方式有效解决了特征冲突问题，实验数据显示，相较于并行融合方法，其特征融合误差降低了28.6%。特别是在处理非结构化交通场景时，系统能自动识别20类以上的特殊交互模式，包括共享单车队的协同变道、外卖配送车辆的插队行为等。

技术实现层面，研究团队重点攻克了三大技术瓶颈：1）动态邻域选择的计算效率问题，通过轻量化注意力机制将计算复杂度从O(N2)降至O(N log N)；2）长时依赖的稳定性问题，采用分层注意力残差连接技术，使500米外轨迹预测误差仅增加12%；3）多模态融合的语义对齐问题，开发了基于对比学习的跨域特征对齐模块，在3D语义空间中实现了物理特征与行为语义的精确映射。

工程应用验证部分表明，该模型在三个典型场景中展现出卓越性能：在交叉路口汇流场景中，预测系统的车流稳定性评分达到94.7（满分100），较传统模型提升41%；面对突发加塞行为，系统响应时间缩短至83毫秒（行业标准要求<200毫秒），轨迹修正准确率达96.2%；在极端天气条件下，通过环境语义增强模块，模型仍能保持82.3%的预测可靠性。这些指标验证了模型在复杂动态环境中的实用价值。

研究提出的理论框架对智能交通系统发展具有双重意义：在方法论层面，构建了"物理约束-行为语义-环境交互"的三元分析模型，为多智能体系统建模提供了新的理论视角；在工程实践层面，开发的STGFormer推理引擎已在某智慧城市试点项目中部署，成功将交通事故预警准确率提升至89.3%，车辆协同通行效率提高27.6%。该成果不仅推动了轨迹预测技术的迭代升级，更为自动驾驶系统的安全决策提供了可扩展的技术平台。

后续研究计划聚焦于三个方向：1）构建动态语义知识图谱，提升跨场景迁移能力；2）开发边缘计算优化版本，适应车载设备的实时推理需求；3）探索联邦学习框架下的多车协同预测，推动自动驾驶的群体智能发展。这些技术演进路径将进一步提升模型在真实复杂交通环境中的泛化能力和实用价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号