《Pattern Recognition Letters》:Object-PSF: A Unified Representation Framework for End-to-end Panoptic Segmentation Forecasting
编辑推荐:
全景分割预测(PSF)通过统一表示法将物体和背景类别整合为 tokens,结合改进的Transformer模块和盒正则化解码器实现端到端预测,在Cityscapes数据集上超越现有方法。
Jiajun Fu | Fuxing Yang | Jianqin Yin
清华大学计算机科学与技术系,北京,100084,中国
摘要
全景分割预测(PSF)对于智能自主系统至关重要,因为它能够为场景中的对象提供未来的语义理解。目前最先进的方法将对象和物体分别通过两个独立优化的组件进行预测。尽管这些组件在单独的预测任务上表现良好,但它们无法全面处理全景预测任务。相比之下,所提出的Object-PSF继承了最近的全景分割分析工作中的统一对象表示方法,并以端到端的方式直接预测对象掩码。Object-PSF引入了一个通用编码器,用于从不同的全景分析网络中构建对象表示。此外,采用了一个改进的Transformer模型,该模型具有时间和身份建模功能,用于未来的对象预测;同时采用了一个基于盒子的正则化解码器,用于生成高分辨率的结果。通过这些改进,Object-PSF在Cityscapes数据集上取得了最先进的性能。
引言
预测未来状态对于智能自主系统至关重要。当代理在感知-行动循环中运行时,它需要预测未来的运动结果[1]、[2]、[3]。本研究探讨了全景分割预测(PSF),其目标是利用历史帧为未来帧生成全景分割[4]。这种设置使本研究区别于传统的分割分析工作[5]。这项任务非常重要,因为它为自主代理提供了对其未来环境的语义理解。然而,由于语义片段(物体)和实例片段(对象)的像素标签属性不同,这项任务并不简单[6]。物体的标签仅表示类别归属,而对象的标签还需要区分不同的实例。
最近的研究基于图像分析网络[1]进行开发。其中一种方法预测与未来帧对应的骨干特征[8]、[9]。随后,这些特征被输入到全景分析网络的后续处理模块中。这种设计避免了在不同序列中预测不同实例的问题。然而,由于它们无法跨帧跟踪实例,因此可能会生成时间上不连贯和平均的结果[4]、[10]。另一种研究采用了分离-组合策略[4]、[7],它们分别预测物体和物体。然后,使用另一个组件进行片段融合。主要过程如图1的左侧部分所示。这些方法由于能够明确建模场景中每个对象的动态而取得了最先进的性能。尽管结果很有前景,但仍存在一些限制。首先,三个组件的独立优化阻碍了端到端训练,可能会阻止模型学习到最优化的特征。其次,独立优化较为复杂,因为它需要为不同组件生成中间监督数据。最后,额外的片段融合后处理需要时间,并且需要仔细调整参数,这可能会导致次优的结果。
为了应对分离-组合方法的挑战,我们提出了一个统一的端到端框架Object-PSF。Object-PSF将物体和物体表示为标记,这与之前全景分析工作中的统一表示方法[11]、[12]、[13]保持一致。每个标记对应一个物体实例或一个物体类别。在Object-PSF中,为每个输入帧提取一组标记。然后,使用这些标记来预测未来的标记并生成相应的分割结果。基于这一流程,我们进行了三项改进。首先,提出了一种通用标记编码器,用于从具有统一和非统一表示的分割分析网络中编码标记。其次,采用了一个改进的Transformer模块,该模块增强了传统Transformer的时间和身份建模功能,以实现准确的未来标记预测。最后,提出了一种基于盒子的正则化解码器,用于生成具有精确对象位置的高分辨率分割掩码。通过这些设计,Object-PSF在具有挑战性的Cityscapes数据集上取得了最先进的性能。
总体而言,本工作的贡献可以总结如下:
1) 本研究首次在全景分割预测中采用了统一的物体和物体表示方法。基于这种表示方法,提出了一个端到端的预测框架Object-PSF,该框架无需额外的后处理即可进行预测。
2) 提出了一种通用编码器,用于从统一和非统一的分割分析网络结果中编码标记;采用时间和身份信息来丰富Transformer中的时空上下文,以实现准确的标记预测,并采用基于盒子的正则化解码器来生成精确的分割结果。
3) 所提出的Object-PSF在具有挑战性的Cityscapes数据集上超越了最先进的方法。
相关工作
相关研究
全景分割分析。全景分割分析是指对输入帧进行像素级的全景分割预测[6]。现有方法可以根据它们的对象建模方式分为两个分支。非统一方法分别预测物体的实例分割和物体的语义分割。它们的研究重点是设计分割融合方法[5]、[6]。
初步知识
作为掩码预测的全景分割。根据之前的研究[11]、[12]、[13]、[15],第个时间戳t的全景分割被表示为一组不重叠的带类别标签的掩码:
其中和分别是第n个对象的掩码和类别,N是对象的数量。全景分割预测的目标是在给定K个历史帧的情况下,为未来帧生成。与之前的全景分割分析[11]、[12]、[13]相比,
实验设置
数据集。根据之前的研究[4]、[9],选择了Cityscapes数据集[14]进行评估,并采用了官方的分割方式。所有模型都在训练集上进行了训练,并报告了它们在验证集上的性能。该数据集包含5000个视频,每个视频有30帧(帧的索引从0到29)。定义了短期和中期场景,其中短期场景中评估帧与最后一个输入帧L之间的间隔为1。
结论
本研究提出了Object-PSF,这是一种将物体和物体的统一标记表示应用于全景分割预测的开创性工作。该标记与最先进的全景分析工作中的统一表示方法一致。利用这种标记表示,我们开发了一个端到端的预测框架Object-PSF。Object-PSF有效地从异构分析网络中构建了标记,通过通用编码器实现了这一目标。
CRediT作者贡献声明
Jiajun Fu:撰写——原始草稿、软件开发、方法论、形式分析、验证、项目管理、数据整理、可视化、资源管理、调查。
Fuxing Yang:监督工作。
Jianqin Yin:项目管理、监督工作、撰写——审稿与编辑、资金筹集。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。