编辑推荐:
本文介绍了一种面向静默图像序列的上下文感知时间合成(Context-Aware Temporal Synthesis, CATS)框架,旨在解决现有模型在缺乏显式运动线索、密集监督或多模态辅助时难以推断潜在时间结构、演化语义状态和长程依赖的问题。CATS通过曲率感知的时间对齐、对称强制注意、槽位非线性循环和语义记忆融合等技术,在噪声、部分可观测和无序输入下建模时间一致性,并在第一视角视频理解、异常扩散(ANDI)建模、强化时间对齐和网络物理时间序列预测等多个任务上验证了其泛化性与可解释性,为跨域可解释时间推理提供了新的方法论基础。
引言
在时间图像分析与视频理解领域,现有模型大多依赖显式运动线索、密集监督或辅助模态,这限制了其从静默图像序列中推断潜在时间结构、演化语义状态和长程依赖的能力。尤其在仅凭稳定视觉表征而非帧间动态来隐含产生时间意义的情境中,这一局限性更为突出。神经科学启发的观点认为,感知并非纯粹的前馈过程,而是一个由假设和主动采样引导的推理过程,这与预测脑功能的理论框架一致。然而,许多现代视觉系统仍侧重于局部时空相关性而非结构连续性与长程叙事连贯性,使得关于“视觉知识”的基本问题尚未解决。多模态方法虽能借助跨模态对齐克服部分限制,但其前提是拥有静默序列所不具备的辅助模态。自监督学习为弱监督下的表征稳定性提供了补充路径,但大多数方法优先考虑表征学习而非显式时间推理。随着时间推理系统在监控、取证、决策支持等高影响领域日益广泛的应用,可解释性与可靠性已成为关键需求。
文献综述
静默图像序列的时间理解构成了视觉智能的核心挑战,涉及计算机视觉、人工智能与认知神经科学。预测处理理论将感知描述为一个主动推理过程,大脑通过整合过去观察来生成关于传入感官输入的假设。行为与神经证据进一步表明,期望、时间规律性和上下文记忆调节感知决策与感官表征。序列建模方法(如循环神经网络与时间卷积架构)在姿态识别、动作分析与结构化事件预测中已取得成功,但其对固定时间聚合与隐式循环的依赖限制了捕捉长程依赖、非线性事件进程和时间稀疏动态的能力。图基与关系模型通过显式建模关系依赖性提升了动作识别、跟踪与监控任务的性能,但其通常依赖于预定义的节点、手工构建的边或稳定身份,在噪声、身份漂移或缺失观测下限制了可扩展性与鲁棒性。自监督学习已成为从静默视觉输入中提取时空表征的强大范式,对比目标、预测编码与基于帧的学习策略表明,无需标签数据或辅助模态即可学习有意义的时间特征。然而,大多数自监督方法优先考虑表征学习,并未直接解决长期叙事连贯性或事件级上下文问题。随着时间推理系统在安全关键领域的部署,可解释性与可靠性变得至关重要,可解释人工智能(XAI)已提出分类体系、评估框架与度量来评估透明度与问责制。
方法
本文提出了CATS(上下文感知时间合成)框架,将静默序列理解重新定义为结构化的时间推理而非启发式聚合。CATS整合了用于时间对齐、上下文对称和语义记忆的分析驱动组件,旨在对时空事件中的不确定性保持鲁棒,并受益于支持时间结构稳定演化的数学基础表征。该框架在需要时空上下文理解的任务中进行评估,包括与现代时空基准和问答公式相一致的时间推理设定、使用模拟时空场景图的第一视角动作识别以及已建立的动作数据集。
计算模型架构
CATS++将第3节中阐述的理论原则转化为一个统一的、端到端的计算模型,用于对静默图像序列进行推理。其核心在于摒弃严格的时序处理,时间结构并非强制施加,而是通过优化涌现,允许模型直接从视觉证据中推断有意义的时间关系。该架构由一系列交互模块组织而成,每个模块处理时间理解的不同方面,同时保持松散耦合。视觉帧首先通过共享编码器映射到共享表征空间,强制跨时间的身份保持与特征一致性。潜在时间对齐随后管理跨帧的信息交换,模型为每一帧学习连续的潜在时间坐标,动态控制注意力流。高层语义通过基于槽的推理机制处理,固定数量的潜在槽随时间积累并精化上下文信息。语义记忆集成将局部帧证据与全局上下文摘要融合,在保持局部性的同时实现对长程依赖的建模。最后,特定任务解码在结合了帧特征、潜在时间位置和槽状态的丰富表征上进行操作。学习由紧凑的多目标公式指导,在预测性能与稳定性、平滑性和记忆一致性之间取得平衡。
实验与结果
实验评估旨在将CATS主要评估为一个静默视觉时间推理框架,同时使用非视觉时间数据集作为受控验证环境,以检验所学时间抽象的泛化性、鲁棒性与可解释性。对于视觉时间推理,实验在Charades-Ego数据集上进行,该数据集包含超过36,000个第一视角视频片段,带有多个重叠的活动标签。为评估在合成但受控动态下的时间推理,进一步纳入ANDI(异常扩散)数据集。为评估在资源受限环境下的可行性,CATS在仅使用CPU的设置下进行训练。模型性能使用标准多标签和时间度量进行评估,包括平均精度均值(mAP)、宏F1-分数、Precision@k和Recall@k。为测试跨域泛化,相同的CATS架构在无需结构修改的情况下应用于非视觉时间数据,包括网络流行病学时间序列。
实验1评估了支撑所有后续实验的视觉预处理流程的鲁棒性、可扩展性与时间完整性。使用完整的Charades-Ego数据集(约36,000个第一视角视频片段),流程成功处理了超过95%的可用视频,生成了同步的帧级外观嵌入(2048维ResNet-50特征)和姿态表征(每帧33个MediaPipe关键点)。大多数序列的帧数分布在120到500帧之间,反映了活动时长的真实变异性。预处理在16个CPU工作节点上并行化,端到端预处理在12小时内完成,证明了在大规模数据集上即使仅在CPU限制下也具有可行性。提取特征的时序一致性在定性与定量上均得到验证,姿态地标跨帧显示平滑且解剖学上一致的运动轨迹,ResNet-50嵌入在特征空间内形成平滑轨迹,表明视觉语义的连贯演化。
实验2评估了所提出的CATS模型在硬件受限训练下的可行性、稳定性与泛化性,同时将验证范围扩展到第一视角视频之外,包括ANDI基准。这种双数据集设置特意用于测试相同的潜在时间推理机制是否能在语义视觉序列和物理驱动的随机时间序列上一致运行。在Charades-Ego上的训练使用仅CPU优化在有限轮数内进行,训练损失单调下降,尽管没有GPU加速,仍确认了稳定的收敛性。在Charades-Ego上的绝对分类分数保持中等,这与密集标注、高度重叠的多标签数据集的预期一致,观察到的宏F1和mAP值落在仅CPU学习的公认基线范围内。检索导向的评估进一步突出了模型的时间推理能力,Precision@k和Recall@k表明正确的活动标签频繁出现在排名最高的输出中。至关重要的是,相同的训练架构在ANDI数据集上进行了评估,其中真实标签对应于扩散机制和内在随机结构,而非语义标签。在无需架构修改的情况下,CATS成功地将轨迹组织在潜在时间轴周围,分离不同的扩散行为,这通过表2(实验3)中报告的机制分类准确性和稳定性指标得到定量确认,同时保持了平滑的时间进展。跨域一致性支持了CATS捕获内在时间结构而非数据集特定线索的核心主张。
实验3研究了CATS学习到的时间表征是否捕获了内在时间结构,而非数据集特定的语义。为此,我们在ANDI基准上评估了相同的训练架构,该基准提供带标签的扩散机制,而非视觉或语义标注。此设置允许我们测试时间组织是否纯粹从潜在对齐和记忆动态中涌现,独立于视觉内容。对应于不同扩散机制的轨迹沿着学习到的潜在时间线被组织起来,尽管粒子运动具有随机性,CATS产生了在时间上连贯的轨迹,保持了机制身份。亚扩散、正常和超扩散过程遵循不同但平滑的路径,表明模型编码了机制级时间结构,而非帧级噪声。为进一步检查表征稳定性,我们分析了时间嵌入在噪声实现间的一致性。对应于相同扩散机制的嵌入即使在随机扰动增加下仍保持紧密聚类,而对齐偏差随时间变化显示出正常扩散的低方差和异常机制的可控增长。最后,我们评估了所学时间结构是否在无需任务特定监督的情况下支持判别性分离。潜在轨迹的投影显示扩散机制形成了清晰可分离的流形。重要的是,这种分离是在未修改用于视觉数据的架构或损失公式的情况下出现的,表明CATS能够跨领域泛化时间推理原则。
实验4研究了强化学习(RL)在CATS生成的表征上作为时间对齐和序列级决策的补充机制。与先前专注于有监督或自监督时间推理的实验不同,本研究探索了RL作为在时间结构化潜在表征之上的策略学习层。实验在第一视角视觉数据(Charades-Ego)和来自ANDI基准的扩散轨迹数据上进行,实现了对时间决策学习的跨领域评估。在强化学习实验中,智能体在CATS编码器生成的固定时间嵌入上操作。每个决策步骤的状态对应于序列的当前潜在时间表征。动作空间在特定于任务公式的离散对齐或控制动作集合上定义。奖励函数依赖于任务,旨在鼓励稳定的时间对齐和改进的下游性能,这反映在累计情节奖励中。策略优化使用标准的深度Q网络(DQN)更新规则与经验回放和目标网络稳定进行。重要的是,RL组件并未引入超出CATS嵌入的额外时间表征学习,确保改进反映了所学时间结构的质量,而非RL特定的架构复杂性。深度Q网络(DQN)智能体使用源自CATS潜在嵌入的状态表征进行训练。对于Charades-Ego,状态编码对应于正在进行的人类活动的时间对齐视觉上下文,而动作表示序列上的对齐或分割决策。对于ANDI,状态对应于粒子轨迹的潜在表征,动作反映推断扩散机制间的转换。在这两种情况下,奖励信号被定义为鼓励时间一致性、推断机制的稳定性和对齐准确性,而非原始分类性能。训练情节上的累计奖励进展显示了两个领域的稳定上升趋势,表明智能体成功学习了利用CATS编码的时间结构的策略。值得注意的是,与Charades-Ego相比,ANDI的奖励曲线表现出更平滑的收敛,反映了扩散轨迹较低的观测噪声和更规则的时间动态。相比之下,视觉领域由于第一视角运动模糊、遮挡和重叠活动而呈现出更嘈杂的奖励波动,但仍能收敛到稳定策略。