《IEEE Access》:DRGI: Disentangled Representation Graph Infomax for Video Retrieval
编辑推荐:
本文针对视频检索中因视频-文本信息不对等导致的硬负样本挑战,提出模型无关框架DRGI。通过构建解耦表征的全连接图并利用Deep Graph Infomax优化,显著提升CLIP基模型性能,在四大数据集上R@1最高提升2.3%,且训练参数量仅增0.05%。该研究为多模态对齐提供了新思路。
在人工智能蓬勃发展的今天,视频已成为信息传递的重要载体。然而,如何让机器精准理解视频内容并响应文本查询,仍是多模态学习领域的核心挑战。现有方法多基于图像-文本对预训练的视觉-语言模型(如CLIP),通过对比学习实现视频-文本匹配。但视频包含的时空信息远丰富于其文本描述,导致训练时每个文本仅对应视频帧的子集。更棘手的是,负样本中可能存在与视频部分相关的“硬负样本”,这类样本违背了传统对比学习的数据分布,易使模型产生误判。
为破解这一难题,研究人员在《IEEE Access》上发表论文,提出解耦表征图信息最大化(Disentangled Representation Graph Infomax, DRGI)框架。该工作创新性地将视频和文本表征解耦为全连接图,利用图注意力机制捕捉模态内节点依赖关系,并通过Deep Graph Infomax优化节点与图级表征的信息最大化。硬负样本被视作语义受损的图,驱动模型区分误导性模式与真实对齐关系。实验表明,DRGI在MSR-VTT、LSMDC、MSVD和ActivityNet数据集上均显著提升基线模型性能,且无需增加推理成本。
关键技术方法
研究采用模型无关的图结构学习框架,核心包括三部分:首先对视频和文本表征进行解耦,构建全连接图;其次利用图注意力网络(Graph Attention Network)建模节点间依赖;最后通过Deep Graph Infomax实现节点与图级表征的互信息最大化。训练中使用四大公开视频检索数据集,硬负样本通过语义扰动自动生成。
研究结果
- 1.
跨数据集性能提升
在MSR-VTT上R@1提升2.3%,LSMDC和MSVD分别提升1.8%和2.1%,证明框架的泛化能力。
- 2.
硬负样本有效性分析
通过对比实验发现,DRGI对硬负样本的召回率提升显著高于普通负样本,验证其对语义歧义场景的解决能力。
- 3.
参数效率验证
仅增加0.05%的训练参数,表明框架具备高效性。
- 4.
消融实验
解耦表征和图信息最大化模块的贡献率分别为42%和38%,证明核心设计的有效性。
结论与讨论
本研究通过图结构学习重新定义了视频-文本对齐范式,将硬负样本问题转化为图级语义完整性优化问题。DRGI不仅突破了CLIP基模型性能瓶颈,其即插即用特性更为多模态学习提供了新工具。未来工作可探索动态图构建及跨模态图融合等方向。