用于可控场景布局生成的图形可视化表示方法

《Journal of Visual Communication and Image Representation》：Graph visual representation for controllable scene layout generation

【字体：大中小】 时间：2026年05月10日 来源：Journal of Visual Communication and Image Representation 3.1

编辑推荐：

　　Jin Li | Minghan Ma | Longjiang Guo | Xue Dong | Meirui Ren陕西师范大学人工智能与计算机科学学院，中国西安710119摘要自然场景布局和对象边界框对于可控的文本到图像生成至关重要。基于扩散的方法由于对层次空间关系的建模不足

Jin Li | Minghan Ma | Longjiang Guo | Xue Dong | Meirui Ren

陕西师范大学人工智能与计算机科学学院，中国西安710119

摘要

自然场景布局和对象边界框对于可控的文本到图像生成至关重要。基于扩散的方法由于对层次空间关系的建模不足，常常会出现对象位置错误和缩放不准确的问题。现有的布局生成方法主要将描述性三元组编码成句子，忽略了显式的图形信号。为了解决这个问题，我们提出了GCN-LT，这是一种利用图卷积网络（GCN）来显式捕获对象关系特征的新方法，然后将这些特征与隐式语义特征融合在一起。Transformer编码器-解码器对这些融合的特征进行处理，以预测符合语义和空间约束的边界框。在COCO和VG数据集上的评估表明，GCN-LT在生成自然场景布局方面优于现有的最佳方法，从而产生了更加自然和协调的图像。GCN-LT为智能布局生成提供了一种有效的解决方案。

引言

最近，从给定文本描述自动生成图像的研究引起了研究人员的广泛关注 [1], [2], [3], [4]。然而，当文本描述包含大量对象时，生成的图像往往与描述有很大的差异，需要多次尝试才能满足用户的需求。这种差异是因为更多的对象意味着更复杂的空间关系，使得通过直接像素级图像生成难以准确满足对象的位置和大小关系。

由于直接生成图像通常会导致位置错误、缩放不准确以及交互缺失，因此布局生成是图像理解与解析 [5]、路径规划 [6] 以及可控场景图像生成 [7], [8], [9] 的基础研究。布局是指记录图像中对象位置的边界框 [10]。在智能布局生成的背景下，“场景布局”通常指的是通过合理安排场景组成元素的位置、大小和其他变换来传达特定信息和目的的视觉表现。在自然场景的文本到图像生成过程中，特别是当包含大量对象时，生成的图像往往布局不合理。相比之下，生成正确的对象布局是图像生成前输入信号处理的关键步骤。

现有的场景布局研究可以分为两类：自然场景布局 [7], [11] 和抽象场景布局 [9], [12]。本文主要关注自然场景布局的智能生成。Jyothi等人 [7] 提出了一种基于变分自编码器的LayoutVAE框架，可以根据一组标签生成完整的图像布局，或者根据现有图像和新标签为每个标签生成布局。Yang等人 [11] 提出了一种新颖的文本到布局生成框架LT-Net，该框架通过编码场景中的语义特征并利用对象之间的隐式关系来生成概念上多样且合理的布局。

具体来说，LT-Net 以描述场景图的多个三元组作为输入，这些三元组表示所有对象及其相关关系。预处理后的三元组随后使用Transformer编码器模块进行编码。接下来，基于Transformer的解码器依次解释语义编码信息并提取布局特征。它将特征分布拟合到高斯混合模型中，以学习每个对象的边界框。最后，模型引入了视觉文本注意力模块来修改布局边界框，确保在语义信息下的布局准确性。

然而，这种编码器-解码器框架在隐式处理位置信息方面存在局限性，因为三元组中的空间结构或位置关系这一关键特征往往无法被完全明确表达和有效利用。因此，本文提出了一种新的生成布局的方法，具体是将三元组构建成图结构。接下来，引入图卷积网络（GCN）从三元组中提取空间信息，并将其与语义信息相结合。最后，获得的嵌入通过Transformer编码器-解码器处理，以获得符合语义和空间关系的布局。我们通过在COCO和VG数据集上进行的一系列实验验证了该方法的有效性，并通过生成的布局生成了自然图像。本文提出方法的直觉如图1所示。

本文的主要贡献如下。

•
本文提出了一种基于GCN和Transformer的新颖布局预测模型，该方法引入GCN来显式提取对象关系特征。GCN在对象之间构建图结构，并使用卷积操作在图上传播信息，从而捕获对象之间的直接和间接关系。这种显式的关系表示增强了模型对对象交互的理解，并为布局生成提供了更丰富和更准确的特征输入。
•
合并显式和隐式特征。我们将GCN提取的显式关系特征与语义信息提取的隐式特征结合在一起，得到一个整合了两种类型特征的表示。这种融合策略使模型在生成布局时能够综合考虑多个因素，从而产生更加自然和协调的布局结果。本文计划公开GCN-TL的源代码。

部分片段

方法论

本节首先介绍文本到布局生成任务的数学描述。然后，介绍主要框架，并展示了一次性推理过程的数据流。最后，描述了网络结构的细节。

实验

本节展示了基于布局的布局和图像生成的实验结果。对于每个部分，都进行了客观评估和主观视觉效果比较。首先，介绍了数据集、设置和指标。其次，展示了主要实验，即布局生成的结果。在第三部分，消融实验详细评估了所提出的方法，其中GCN-LT使用了不同的损失函数进行训练。

结论与未来工作

本文关注在给定多主体-关系-对象元组的情况下的自然场景布局生成任务。与之前通过构建句子然后通过语言Transformer处理句子的方法不同，所提出的方法使用图卷积网络（GCN）来表示关系，可以显式挖掘对象之间的空间关系。具体来说，预训练的多模态模型CLIP同时编码对象和关系，然后...

CRediT作者贡献声明

Jin Li：撰写 – 审稿与编辑、可视化、方法论、概念化。Minghan Ma：撰写 – 审稿与编辑、软件、数据管理。Longjiang Guo：撰写 – 审稿与编辑、监督、项目管理、资金获取、形式分析、概念化。Xue Dong：撰写 – 审稿与编辑、可视化。Meirui Ren：撰写 – 审稿与编辑、验证、监督、项目管理、形式分析。

利益冲突声明

作者声明他们没有已知的可能会影响本文报道工作的竞争性财务利益或个人关系。

摘要

引言

部分片段

相关工作

方法论

实验

结论与未来工作

CRediT作者贡献声明

利益冲突声明

热点排行