基于梯度下降的采样方法用于全景视频中多模态长期扫描路径预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Gradient Descent-Driven Sampling for Multimodal Long-term Scanpath Prediction in Panoramic Videos

【字体：大中小】 时间：2026年03月17日 来源：Pattern Recognition 7.6

编辑推荐：

　　时空对齐与混合粒度Transformer提升全景视频注视轨迹预测效果，对比学习增强模态对齐，物理启发式采样平衡准确性与多样性，在VRW-23和CVPR-18数据集上达到SOTA性能。

周天明|程玉龙|范康龙|鲍云能|李沐

中国深圳，哈尔滨工业大学，视觉对象检测与识别重点实验室

摘要

预测全景视频中的长期扫描路径需要有效融合多种模态输入，包括视觉内容和历史注视序列。现有方法通常独立处理这些模态，忽略了它们内在的时间-空间相关性，从而限制了多模态分布建模的准确性。本文提出了一种统一的框架，该框架在时间和空间上明确对齐视觉和注视模态。我们提出了一种混合粒度Transformer，用于联合编码全局语义结构和局部细粒度动态，从而实现更准确的长期依赖性建模。为了进一步增强跨模态融合，采用了一种对比学习策略来提高视觉特征和扫描路径表示的对齐度。在扫描路径生成方面，我们集成了一种基于轻量级优化的采样器，该采样器由受物理启发的代理观察者引导，无需依赖启发式采样即可生成平滑且真实的注视轨迹。在VRW-23和CVPR-18上的评估表明，该方法具有始终如一的先进性能，证实了所提出的时间-空间多模态对齐和混合粒度架构的有效性。

引言

全景视频提供了沉浸式的360°观看体验，提高了用户参与度，但其庞大的数据需求对实时交互性构成了重大挑战。自适应视口流媒体通过在用户当前视野（FoV）内传输高质量内容来缓解这一问题，同时降低外围区域的质量，从而在不牺牲感知质量的情况下节省带宽。这种方法的有效性取决于对未来视点模式的准确预测，这些模式通常通过两种互补的表示来表示：扫描路径[1]、[2]（视点坐标的时间序列）和显著性图[3]、[4]（突出关注热点的空间概率分布）。虽然扫描路径提供了明确的轨迹时间信息，但显著性图提供了从多个用户的聚合观看模式中得出的可视化空间表示。无论采用哪种表示方法，从历史视觉内容和观看轨迹的跨模态数据中预测扫描路径都是优化全景视频流媒体[5]、[6]、制作[7]、[8]、[9]、压缩[10]、[11]和渲染[12]、[13]的核心初步任务。

现有的全景扫描路径预测方法被构建为序列到序列的预测问题，主要区别在于它们的多模态输入建模策略和优化目标。在输入表示方面，各种方法在利用历史扫描路径模态和视频帧模态方面存在显著差异：一些方法[14]认为仅历史扫描路径就足以预测未来的注视点，假设观看行为与视频视觉内容无关；相比之下，其他方法[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]强调整合视觉信息的必要性，认为预测必须同时考虑视觉上下文和路径历史。在映射架构方面，现有实现采用卷积网络[24]、循环神经网络[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、Transformer[14]、[23]或结合循环神经网络和Transformer的混合架构[25]来处理由短期历史扫描路径和帧数据组成的多模态输入序列，并生成预测的未来注视点序列。

现有实现通常首先分别从视觉数据和路径数据中提取特征，然后直接将它们连接起来进行预测。这两种模态之间的联系被忽略了。对于多模态输入，我们将球形图像和历史注视轨迹统一映射到相应的透视平面投影空间中，实现了输入数据的空间对齐。这种投影策略不仅确保了视觉内容和眼球运动轨迹之间的几何一致性，还与细粒度Transformer模块处理的序列长度对齐，从而有助于有效捕捉局部时间窗口内的时空相关性。为了进一步增强跨模态语义一致性，我们引入了一种对比学习机制，最大化历史视觉模态和注视路径模态的特征表示之间的互信息，实现有效的跨模态特征对齐。这种机制帮助模型学习视点变换和图像内容运动之间的内在对应关系，从而提高跨模态信息融合的能力，并增强高级特征表示的区分度。

我们进一步引入了一种混合粒度Transformer架构，利用完整的历史上下文来建模未来的注视点分布。与仅关注短期线索的先前方法不同，我们的模型通过时间分块和多粒度注意力同时捕捉局部动态和长距离依赖性。细粒度Transformer处理块内相关性，而粗粒度Transformer则建模块间交互，显著降低了标准Transformer实现中固有的二次复杂性。这使得在长期扫描路径预测中有效利用全局视觉-循环模式成为可能。

准确性和多样性是扫描路径预测中的两个关键目标：准确性量化了模型预测用户在观看全景视频时的行为的能力，而多样性则解决了不同观众之间的差异。当前方法主要通过最小化预测扫描路径和真实扫描路径之间的均方误差来优化准确性。其他方法[20]、[21]、[22]、[26]通过针对从真实数据派生的标准化显著性图进行二进制交叉熵损失来优化概率图来建模不确定性。尽管从这些图中随机采样并设置阈值可以实现多样性，但这种方法有可能生成不符合人类视觉认知的自然观察模式。一个最近的框架[24]通过高斯混合分布对扫描点进行建模，并使用受物理启发的运动模型控制的PID代理采样器来缓解这一限制。受PID采样器的启发，我们提出了一种基于在线优化的采样策略，该策略由牛顿动力学控制的代理观察者引导。观察者的运动参数（由速度和加速度表示）通过动态损失上的梯度下降在线更新。通过将从预测分布中随机采样的候选注视点与观察者动态估计的位置进行比较，我们的方法将随机多样性与运动连续性结合起来。该框架概括了以前的方法：密集采样近似最大似然推断，而稀疏采样产生多样且自然的路径。模块化的梯度求解器支持自适应优化和未来的改进。

总结来说，我们的主要贡献如下：

•

我们提出了一种用于历史视觉和路径数据的时空数据对齐策略，并通过专门的预处理和对比学习促进特征对齐。

•

我们开发了一种高效的时间打包策略，结合了混合粒度Transformer模块，能够在处理局部时间模式和全局历史依赖性的同时降低多模态长序列处理的计算复杂性。

•

我们引入了一种基于在线优化的新采样框架，利用梯度下降方法通过物理观察者模拟迭代更新扫描模式，将采样重新定义为在线优化问题，有效地平衡了多模态采样的准确性和多样性。

•

据我们所知，我们是首批利用完整历史上下文（视觉和路径多模态）进行扫描路径预测的基于Transformer的架构之一。在两个基准数据集上的全面评估证明了其在概率建模和轨迹生成方面的先进性能。

提出的方法

在本节中，我们首先介绍了用于扫描路径概率分布建模的混合粒度Transformer框架，然后描述了我们的在线优化采样策略，从分布中采样多样且自然的扫描路径。

实验设置

我们使用两个全景视频数据集评估了我们的方法：CVPR18 [19]和VRW23 [40]。CVPR18数据集包含75个每个持续超过30秒的全景视频，而VRW23数据集包含502个15秒的视频，涵盖了真实世界和虚拟场景的多模态视觉内容。我们遵循了[19]、[24]中指定的训练-测试划分。

对于我们的多模态概率分布模型，我们将预测范围设置为

G = 5

，初始化为

T = 5

。视口

结论

我们提出了一个扫描路径预测框架，该框架将概率分布建模与基于在线优化的采样策略相结合。所提出的采样器与各种基于梯度的优化器兼容，并且易于扩展。它在生成自然且多样的扫描路径的同时实现了先进的性能。此外，我们还提出了一种混合粒度Transformer模块以及时间打包策略，实现了更有效的建模。

手稿准备过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了Doubao和ChatGPT将原始手稿翻译成英语，并改进了英文版本的语言表达和句子结构。使用该工具/服务后，作者根据需要审查和编辑了内容，并对发表文章的内容负全责。

数据可用性

数据将按需提供。

CRediT作者贡献声明

周天明：写作 – 审稿与编辑，撰写原始草稿，软件，方法论，形式分析。程玉龙：写作 – 审稿与编辑。范康龙：写作 – 审稿与编辑，数据整理。鲍云能：写作 – 审稿与编辑。李沐：写作 – 审稿与编辑，监督。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：范康龙报告称获得了香港城市大学的财务支持。李沐报告称获得了哈尔滨工业大学（深圳）的财务支持。如果有其他作者，他们声明没有已知的财务利益或个人关系可能影响本报告中描述的工作。

致谢

本文部分得到了中国国家自然科学基金（项目编号62472124）和深圳高校稳定支持计划（项目编号GXWD20220811170130002）的支持。

周天明是哈尔滨工业大学（深圳）计算机科学与技术学院的硕士生，主修电子信息。他目前的研究重点是图像处理和注视跟踪。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作