指挥异常行为：通过双内存和时间序列模型实现持续的视频异常检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：COMMANDing anomalies: Continual video anomaly detection via dual-memory and temporal mamba modeling

【字体：大中小】 时间：2026年02月05日 来源：Neurocomputing 6.5

编辑推荐：

　　弱监督视频异常检测中，为解决持续学习场景下新异常模式自适应能力不足的问题，本文提出COMMAND框架。该框架通过AugFuseNet融合RGB与运动特征增强泛化性，利用基于Mamba的TempMamba模块捕捉长时序依赖，结合MemDualNet双记忆机制保留时空上下文信息，并采用ContTrain++策略实现增量学习与灾难性遗忘缓解。实验表明，该方法在UCF-Crime、ShanghaiTech等数据集上显著优于现有方法，尤其在动态环境适应性和异常定位精度方面提升显著。

　　
视频异常检测领域的持续学习框架创新研究

摘要部分揭示了当前弱监督视频异常检测的核心矛盾：传统方法在静态训练集上表现优异，但面对动态环境中的新异常模式时缺乏适应性。COMMAND框架通过四个创新模块协同工作，有效解决了持续学习场景下的模型退化问题。实验表明，该框架在UCF-Crime、ShanghaiTech等基准数据集上展现出更优的泛化能力和异常定位精度，尤其在处理长时间异常片段和复杂场景时优势显著。

在引言部分，研究团队系统性地分析了现有技术瓶颈。弱监督方法依赖视频级标签，导致时空特征建模不充分，具体表现为：1）异常片段的精确时间边界难以捕捉；2）动态环境中持续出现的未知异常类型难以适应；3）模型在增量学习过程中容易遗忘前期知识。这些缺陷在真实监控场景中尤为突出，如摄像头角度变化、光照条件波动、人群密度变化等环境动态因素都会显著影响检测性能。

相关研究指出，传统弱监督方法存在三大局限：首先，单一模态特征（如RGB图像）难以充分表征视频时序特征；其次，多数方法采用静态的时空建模策略，无法有效捕捉长期依赖关系；再次，现有持续学习策略难以在弱标注条件下实现稳定的知识迁移。针对这些问题，研究团队提出了多层解决方案。

方法部分创新性地构建了四层协同架构：
1. 多模态特征融合模块（AugFuseNet）
通过引入空间增强策略，将RGB图像与运动信息（optical flow）进行跨模态融合。实验表明，融合后的特征向量在余弦相似度空间中能更精准地区分正常与异常区域。该模块特别设计了动态权重分配机制，可根据场景复杂度自动调整不同模态特征的贡献度。

2. Mamba架构的时空建模单元（TempMamba）
基于Transformer的Mamba模块，通过优化时间步长参数，有效平衡了短期细节捕捉（如0.5秒内的异常动作）和长期时序模式理解（超过10秒的异常行为）。创新性地将Mamba的时序建模能力与视频异常检测结合，解决了传统RNN/LSTM难以建模长期依赖的问题。实测数据显示，该模块对持续5秒以上的异常片段检测准确率提升23.6%。

3. 双记忆表征网络（MemDualNet）
构建了短期记忆（STM）和长期记忆（LTM）的双通道架构。短期记忆聚焦于视频前5秒的局部特征，用于检测突发的异常事件；长期记忆则通过注意力机制聚合超过30秒的视频全局特征，有效识别渐变式异常模式。这种分离式记忆设计使得模型既能捕捉快速变化的异常行为（如突然闯入），又能处理缓慢发展的异常模式（如人员聚集引发的踩踏风险）。

4. 持续学习增强策略（ContTrain++）
开发了包含记忆回放机制和复合损失函数的三阶段训练策略：预处理阶段使用对比学习增强特征区分度；增量阶段通过焦点损失动态调整样本权重；长期记忆维护阶段引入衰减的对抗训练。该策略特别设计了遗忘监测模块，当模型对前期知识遗忘超过阈值时自动触发记忆回放，实验数据显示可有效降低遗忘率达41.2%。

实验部分采用标准评估指标进行系统验证：
- 在UCF-Crime数据集上，相对于基线方法（如RTFM、MILNet）， COMMAND在异常定位精度（F1-score提升19.8%）和跨场景适应能力（AUC提升27.3%）方面表现更优
- 针对ShanghaiTech复杂场景，模型在动态光照变化（光照对比度波动超过300%）和摄像头视角偏移（>15度）条件下的检测FPR（假阳性率）降低至0.08%
- 持续学习测试中，经过200个视频样本的增量训练后，模型对新型异常类型的识别准确率仍保持在92.4%，相比现有方法提升15.7个百分点
- 极端条件测试显示，在数据标注缺失率超过60%的情况下，模型仍能通过弱监督信号保持85%以上的检测精度

研究团队特别设计了消融实验验证各模块的贡献度：
- 单独使用Mamba模块时，时空特征建模能力提升37.2%
- 加入双记忆架构后，长期异常检测准确率从78.4%提升至89.1%
- 结合记忆回放策略后，模型在增量学习阶段的知识保留率提高42.6%
- 多模态融合使跨模态特征对齐误差降低58.3%

在理论分析层面，研究揭示了动态环境下的异常演化规律：新出现的异常类型往往具有时空上的复合特征，既包含与原有异常模式相似的基础特征，又叠加了新的时空约束条件。COMMAND框架通过特征融合模块捕捉基础特征共性，利用双记忆架构分别建模稳定特征和动态特征，最终在复合损失函数驱动下实现自适应学习。

工程实现方面，系统采用模块化设计：
1. 数据预处理模块支持多源视频输入（最高支持8路4K流）
2. 特征提取网络深度可调（默认32层）
3. 持续学习机制支持每秒处理5帧视频
4. 记忆回放缓存容量可配置（默认保持最近200个视频样本）

部署测试显示，在百万级视频流量的实时处理场景中，系统保持98.7%的吞吐量，异常检测延迟控制在120ms以内。特别设计的动态阈值调整机制，可根据监控区域的人流量自动调节检测敏感度，在测试环境中使误报率降低31.5%。

该研究的理论突破体现在三个方面：首次将Mamba模块的时间建模能力引入弱监督框架，开发了面向视频场景的动态记忆管理策略，以及提出了适用于弱标注条件的持续学习损失函数。实践验证表明，在真实城市监控数据（包含超过5000个视频流样本）的部署中，模型在连续180天运行期间检测准确率稳定在91.3%以上，显著优于需要定期重训练的传统系统。

未来研究方向包括：1）构建动态环境下的异常演化预测模型；2）探索联邦学习框架下的分布式持续学习方案；3）开发轻量化推理模块以适应边缘计算设备。研究团队已开源代码库（GitHub链接），并提供了完整的预训练模型和评估工具包，方便学术界和工业界进行二次开发和应用适配。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号