《Applied Soft Computing》:Scene graph optimization using hyperedge-based relationship extraction
编辑推荐:
场景图优化通过关联规则挖掘和超图划分过滤冗余关系,提升Transformer模型(如BERT、GPT)在COCO和Visual Genome数据集上的图像描述生成效率与质量,实验显示BLEU和ROUGE分数显著提高且计算复杂度降低。
Ji-Won Baek|Kyungyong Chung
韩国京畿道水原市永同区光耀山路154-42号京畿大学计算机科学系,邮编16227
摘要
场景图为图像中的对象及其关系提供了结构化的表示方式,通过捕捉语义上下文被广泛用于改进图像字幕生成。然而,场景图中冗余或无关的关系可能会导致计算复杂度增加以及字幕生成性能下降。为了解决这些问题,本文提出了一种基于关系挖掘的场景图优化方法,以提高图像字幕生成的效率和质量。该方法利用关联规则挖掘和超图划分来过滤低重要性的关系,同时强调对象之间的有意义交互。优化后的场景图被输入到基于Transformer的字幕模型中,包括BERT和GPT的变体。在COCO和Visual Genome数据集上进行的实验表明,所提出的方法在降低图复杂度的同时,提高了BLEU和ROUGE分数。此外,该方法在定性和定量评估中均优于传统的字幕生成流程。这些结果证实了关系挖掘在提高图像字幕生成的语义表达能力和计算效率方面的有效性。
引言
近年来,由于数据的广泛生成和使用,其重要性日益增加。数据大致可以分为文本数据和图像数据。图像数据能够传达丰富的视觉信息,这些信息可以被人类直接理解。基于深度学习的对象检测和分类等任务实现了自动化和智能化。因此,图像数据被应用于医学、机器人技术和自动驾驶等众多工业领域。尽管取得了这些进展,但对于非专家来说,从图像数据中提取有意义的信息仍然具有挑战性。在这种背景下,图像字幕生成成为一项关键任务,它通过将视觉信息转换为易于理解的语言描述来提高信息的可访问性[1]、[2]。在图像字幕生成场景中,场景图能够识别图像中对象之间的语义关系。例如,“一个人正在骑自行车”这样的描述仅通过简单的对象识别是无法充分表达的,理解人与自行车之间的关系对于生成准确的字幕至关重要。此外,场景图通过编码图像中对象之间的关系提供了更丰富的上下文,增强了人们对图像中对象意义的理解,并使深度学习模型能够生成自然的字幕。尽管场景图可以生成复杂且连贯的字幕,但仍存在一些限制。构建场景图需要一个在大规模图像-文本数据集上预训练的模型,或者具备语义推理能力的模型。当训练数据不足时,这可能会限制性能。此外,对象检测和关系推理中的错误可能会影响准确性。由于场景图同时执行对象检测和关系推理,因此会带来较高的计算成本,且随着对象数量的增加,计算成本会迅速上升。因此,迫切需要一种能够在数据有限的情况下准确推断对象关系并确保可访问性的图像字幕生成方法。这样的方法必须能够访问多种类型的视觉信息并生成准确的字幕[3]。需要区分场景图和知识图。知识图编码的是与特定视觉数据无关的通用常识或事实关系,而场景图则是给定图像中特定对象及其语义交互的结构化表示。
图是一种有效的框架,用于表达不同实体或因素之间的关系。图中的关系使得基于对象之间的交互和连通性来分析场景的详细结构和动态成为可能,例如复杂系统的运行原理和模式,为聚类、分类和预测提供了有价值的见解。然而,随着关系数量的增加,图的大小和复杂性也会增加,使得计算、分析和存储变得困难。此外,包含错误或冗余的关系可能会进一步降低模型性能。因此,消除不必要的关系并提取重要关系对于有效的基于图的任务至关重要[4]。Wang等人[5]研究了场景图在图像字幕生成中的作用,评估了使用场景图解析器生成的字幕与使用实际场景图生成的字幕之间的差异。他们的结果表明,字幕生成性能并未显著下降,这表明性能瓶颈在于字幕生成模型本身,而非场景图的准确性。作者强调,需要扩展场景图中的对象和关系类别以提升字幕生成性能。Yao等人[6]提出了一种用于图像字幕生成的视觉关系搜索框架。该方法通过图卷积神经网络(GCN)和长短期记忆(LSTM)模型整合了对象之间的语义和空间关系。通过Faster R-CNN提取的关系被建模为图,然后使用GCN丰富对象表示,并由LSTM解码以生成字幕。然而,GCN-LSTM架构结构复杂,可能导致较高的计算成本和较长的训练及推理时间。
考虑到这些方面,本研究旨在建立一个基于关系挖掘的场景图的图像字幕生成框架。该框架使用对象检测结果生成初始场景图,然后应用关系挖掘来最小化不必要的关系,并通过分配适当的权重来强调语义上重要的关系,从而实现对对象交互的准确分析。此外,还使用基于概率的束搜索策略来生成具有多种解释的准确字幕。本研究的贡献可以总结如下:
•利用场景图的结构信息:使用场景图表示对象及其复杂关系。这一框架能够提取图像中对象的结构和语义信息,支持更连贯的字幕生成。
•通过关系挖掘提高召回率:关系挖掘为检测模型提取的关键对象分配更高的权重,增加了这些对象在生成的字幕中出现的概率,从而提高了字幕生成的召回率。
•通过冗余关系剪枝简化图:使用关联规则挖掘(ARM)过滤掉无关或低重要性的关系,从而构建出保留关键语义关系同时最小化图复杂性和信息损失的优化场景图。
•提高关系推理的效率和准确性:所提出的方法通过图划分减少了计算开销,并实现了更精确的关系推理,从而提高了处理速度和对场景中复杂对象交互的建模精度。
最近的研究还展示了结合视觉-语言先验的潜力,例如在水下成像和字幕生成中。具体来说,WaterCycleDiffusion利用视觉-文本融合来指导水下图像增强,即使在不利条件下也能生成自然的颜色和细腻的纹理[7]。类似地,AquaSketch整合了跨尺度信息融合来增强水下场景的语义基础,取得了良好的性能[8]。此外,Li等人[9]提出了一个基于大型基础模型的框架,利用区域感知策略显著提高了复杂水下环境中的字幕生成性能。这些进展强调了在语言生成之前确保关系准确性和图简化的重要性,这与本文提出的关系挖掘方法的原则是一致的。
本文的其余部分组织如下:第2节描述了使用场景图和关联规则超图划分(ARHP)进行关系提取的图像字幕生成。第3节概述了使用基于超边的关系提取进行场景图优化的过程。第4节展示了性能评估的结果。第5节提出了结论性意见。
章节摘录
使用场景图的图像字幕生成
随着人工智能的进步,研究人员积极探讨了计算机视觉和自然语言处理的集成。图像字幕生成是一个典型任务,它使用卷积模型分析图像,基于从图像中提取的特征训练自然语言生成模型,并生成图像的描述。典型的图像字幕生成框架包括图像编码阶段、句子生成模型和注意力机制
使用基于超边的关系提取进行场景图优化
在图像字幕生成中,通过集成计算机视觉和自然语言处理自动生成字幕。图像字幕生成通过表达和描述嵌入的视觉信息,提高了对图像的理解和解释能力。图像字幕使搜索引擎能够索引内容并评估关键词的相关性,从而提高了图像搜索的准确性。图2展示了基于关系挖掘的场景图优化过程。
A
通过关系挖掘优化场景图
在本研究中,使用配备了AMD Ryzen 9 5990×12核处理器、NVIDIA GeForce RTX 3090 GPU、96GB RAM、Ubuntu 18.04.6和Python 3.7的系统进行基于元学习的场景图字幕生成。采用了PyTorch 1.7.1及相关库。
用于字幕生成的BERT和GPT模型基于BERT-base和GPT-2基础模型。主要超参数如下:嵌入维度:768,Transformer块数量:12,注意力机制数量:
结论
图像字幕生成通过整合计算机视觉和自然语言处理生成描述图像的句子。通过将视觉信息转换为文本,图像字幕生成提高了信息的可访问性。此外,由于语法上重要的句子可以有效描述图像,从而提高了搜索质量。这使得场景能够得到语义表达,其中节点对应于对象,边表示它们之间的关系。然而,场景图
CRediT作者贡献声明
Kyungyong Chung:验证、监督、方法论。Ji-Won Baek:可视化、验证、资源、方法论。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
Ji-Won Baek于2017年获得韩国尚志大学计算机信息工程系的学士学位。她曾在Infiniq有限公司的数据管理部门工作。她分别于2020年和2024年在韩国京畿大学计算机科学系获得硕士和博士学位。她目前是京畿大学数据挖掘实验室的研究员。她的研究兴趣包括数据挖掘、数据管理和知识