基于解耦表征图信息最大化的视频检索方法DRGI及其应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Access》：DRGI: Disentangled Representation Graph Infomax for Video Retrieval

【字体：大中小】 时间：2026年02月10日 来源：IEEE Access 3.6

编辑推荐：

　　本文针对视频检索中因视频-文本信息不对等导致的硬负样本挑战，提出模型无关框架DRGI。通过构建解耦表征的全连接图并利用Deep Graph Infomax优化，显著提升CLIP基模型性能，在四大数据集上R@1最高提升2.3%，且训练参数量仅增0.05%。该研究为多模态对齐提供了新思路。

在人工智能蓬勃发展的今天，视频已成为信息传递的重要载体。然而，如何让机器精准理解视频内容并响应文本查询，仍是多模态学习领域的核心挑战。现有方法多基于图像-文本对预训练的视觉-语言模型（如CLIP），通过对比学习实现视频-文本匹配。但视频包含的时空信息远丰富于其文本描述，导致训练时每个文本仅对应视频帧的子集。更棘手的是，负样本中可能存在与视频部分相关的“硬负样本”，这类样本违背了传统对比学习的数据分布，易使模型产生误判。

为破解这一难题，研究人员在《IEEE Access》上发表论文，提出解耦表征图信息最大化（Disentangled Representation Graph Infomax, DRGI）框架。该工作创新性地将视频和文本表征解耦为全连接图，利用图注意力机制捕捉模态内节点依赖关系，并通过Deep Graph Infomax优化节点与图级表征的信息最大化。硬负样本被视作语义受损的图，驱动模型区分误导性模式与真实对齐关系。实验表明，DRGI在MSR-VTT、LSMDC、MSVD和ActivityNet数据集上均显著提升基线模型性能，且无需增加推理成本。

关键技术方法

研究采用模型无关的图结构学习框架，核心包括三部分：首先对视频和文本表征进行解耦，构建全连接图；其次利用图注意力网络（Graph Attention Network）建模节点间依赖；最后通过Deep Graph Infomax实现节点与图级表征的互信息最大化。训练中使用四大公开视频检索数据集，硬负样本通过语义扰动自动生成。

研究结果

1.
跨数据集性能提升

在MSR-VTT上R@1提升2.3%，LSMDC和MSVD分别提升1.8%和2.1%，证明框架的泛化能力。
2.
硬负样本有效性分析

通过对比实验发现，DRGI对硬负样本的召回率提升显著高于普通负样本，验证其对语义歧义场景的解决能力。
3.
参数效率验证

仅增加0.05%的训练参数，表明框架具备高效性。
4.
消融实验

解耦表征和图信息最大化模块的贡献率分别为42%和38%，证明核心设计的有效性。

结论与讨论

本研究通过图结构学习重新定义了视频-文本对齐范式，将硬负样本问题转化为图级语义完整性优化问题。DRGI不仅突破了CLIP基模型性能瓶颈，其即插即用特性更为多模态学习提供了新工具。未来工作可探索动态图构建及跨模态图融合等方向。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号