SSEditor：利用扩散模型实现可控的从掩码到场景的生成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：SSEditor: Controllable Mask-to-Scene Generation with Diffusion Model

【字体：大中小】 时间：2026年02月27日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　3D语义场景生成中提出可控高效的SSEditor框架，通过三平面自编码器和mask条件扩散模型结合，实现几何语义融合的小物体增强生成，在SemanticKITTI和CarlaSC数据集上优于现有方法，并成功泛化至未见过场景。

郑浩文|庞家豪|蒲志强|梁彦彦

澳门科技大学创新工程学院，中国澳门塔ipa，999078

摘要

近期基于3D扩散的语义场景生成技术取得了显著进展，吸引了越来越多的关注。然而，现有方法主要依赖于无条件生成，并且需要多个重采样步骤来进行场景编辑，这严重限制了可控性和灵活性。此外，基于体素表示和BEV地图控制的可控生成方法引入了大量的计算开销。为此，我们提出了，这是一种高效且可控的语义场景编辑器，能够无需多步骤重采样即可生成特定的目标类别。SSEditor采用了两阶段扩散框架：（1）训练一个3D场景自动编码器以获得潜在的三平面特征；（2）使用掩码条件扩散模型来实现可定制的3D语义场景生成。为了提高几何和语义的一致性，我们引入了一个几何-语义融合模块，确保对象以准确的位置、大小和类别生成。此外，还采用了一种简单的数据增强策略来改善小对象的生成效果。在SemanticKITTI和CarlaSC上的广泛实验表明，SSEditor在可控性、灵活性、语义场景质量和重建精度方面均优于现有方法。更重要的是，它能够在未见过的Occ3D-Waymo数据集上生成新的城市场景，显示出其在快速3D场景构建方面的潜力。

引言

近年来，3D扩散模型在生成室内[1]、[2]、[3]和室外[4]、[5]、[6]、[7]、[8]环境以及单个对象[9]、[10]、[11]方面取得了显著成就。与室内场景和单个对象相比，室外场景由于表示更加稀疏和复杂而带来了更多挑战。例如，基于体素的室外环境表示通常包含大量空体素。此外，室外环境中的目标（如行人和骑自行车的人）较小，进一步增加了生成难度。虽然基于体素的表示[4]、[5]、[6]、[7]、[12]为建模3D语义场景提供了一种直接的方法，但它们在空区域存在冗余且计算成本较高（见表1）。为了解决这些问题，采用了三平面表示[13]来减少3D室外场景中的不必要的信息。尽管这些方法显示出有希望的结果，但它们仍然存在一些局限性。

主要限制在于它们的可控性较弱。无条件生成限制了引导3D场景创建的能力，而基于整个场景的条件化（例如基于真实数据的场景细化）则过于僵化。这种缺乏灵活控制的问题导致了另一个缺点：编辑特定局部区域（如添加或移除对象）需要遮盖非目标区域并采用多步骤重采样过程进行重新绘制[15]，这大大增加了生成时间。为了提高可控性，UrbanDiffusion[12]使用BEV地图作为条件输入来创建3D语义场景。然而，如图2所示，2D BEV地图往往无法准确描绘倾斜区域。此外，数据集中小对象（如行人、骑自行车的人和摩托车手）的数量极其有限，在SemanticKITTI中分别仅占0.07%、0.07%和0.05%。因此，包含众多小对象的繁忙交通场景的生成质量较低。

为了解决上述挑战，我们提出了SSEditor，这是一个基于潜在扩散模型（LDM）[16]的灵活、可控且高效的两阶段语义场景生成框架。在第一阶段，我们训练一个3D场景自动编码器通过语义场景重建来学习三平面特征。在第二阶段，我们在三平面特征上训练一个掩码条件扩散模型。具体来说，为了实现可定制的3D语义场景生成，我们提出了一个几何-语义融合模块（GSFM），该模块包括几何分支和语义分支。几何分支编码表示对象位置、大小和方向的3D掩码，而语义分支处理语义标签和令牌以提供粗略和细粒度的语义信息。这些语义令牌是从特定类别的特征中生成的，然后被聚合并集成到扩散模型的交叉注意力模块中，增强了其对几何和语义信息的感知。

为了提高小对象生成的质量，我们提出了一种基于小对象数据增强的训练策略，并专门训练了一个小对象生成器。该策略仅在场景中保留小对象，并在训练过程中随机生成多个不同的小对象。请注意，我们没有修改任何网络架构，仅调整了训练类别。得益于上述设计，SSEditor有效地完成了掩码到场景的生成任务。

此外，我们创建了一个包含各种类别的3D掩码资产库，以便在推理过程中自定义场景生成。库中的3D掩码以trimasks的形式存储，这些trimasks由3D掩码的分解得到的三个正交2D平面组成。如图1所示，用户可以从一系列资产中选择，如十字形道路、车辆、行人和骑自行车的人，来生成他们所需的语义场景。这些资产还可以被编辑以模拟更多城市场景，例如将双车道道路扩展为四车道或更多车道。更重要的是，trimask作为条件输入具有通用性。用户可以轻松绘制矩形掩码来生成对象，从而简化场景编辑。

我们的贡献可以总结为四点：

•

我们提出了SSEditor，一个可控的掩码到场景生成框架，使用户能够使用各种资产轻松定制和生成3D语义场景。

•

我们提出了GSFM来整合几何和语义信息。在GSFM中，几何分支将3D掩码编码为嵌入，以准确控制对象的位置、大小和方向，而语义分支处理语义标签和令牌，以改进生成目标的后验控制。

•

我们提出了一种简单的小对象数据增强策略来训练小对象生成器，使SSEditor能够生成更复杂和繁忙的交通场景。

•

在室外数据集上的实验表明，我们提出的方法在生成质量和重建性能方面表现优异。此外，定性结果表明，SSEditor可以可控地执行各种下游任务，如场景修复、资源扩展、新城市场景生成和去除残留伪影。

方法

在本文中，我们提出了SSEditor，如图3所示。SSEditor的主要目标是使用户能够灵活且可控地生成3D室外语义场景。为此，我们首先训练一个3D场景自动编码器，通过SemCity [8]学习三平面表示（第3.1节），然后创建一个资产库来存储3D掩码（第3.2节）。为了提高生成目标对象的位置、大小和类别的准确性，我们

数据集

我们在SemanticKITTI [14]和CarlaSC [40]数据集上进行了实验。SemanticKITTI数据集是自动驾驶领域的语义场景理解的大规模真实世界基准。它包含20个语义类别。每个场景由256×256×32体素网格表示，体素分辨率为0.2米。CarlaSC数据集是一个合成数据集，包含11个语义类别的标签。此外，我们还在Occ3D-Waymo [39]上验证了SSEditor的跨数据集迁移能力。我们仅

结论

在本文中，我们提出了SSEditor，一个基于两阶段扩散的可控场景生成框架。首先，我们训练一个3D场景自动编码器来学习三平面表示。然后，我们创建了一个trimask资产库作为第二阶段训练的预备步骤。其次，我们训练了一个掩码条件扩散模型，结合了几何-语义融合模块来增强几何和语义信息的提取。此外，我们采用了一种数据增强策略

CRediT作者贡献声明

郑浩文：写作——审稿与编辑、撰写——原始草稿、可视化、软件、方法论、概念化。庞家豪：写作——审稿与编辑、可视化、验证、概念化。蒲志强：写作——审稿与编辑、验证、监督、概念化。梁彦彦：写作——审稿与编辑、监督、项目管理、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了国家重点研发计划（项目编号2021YFF0602103）、中国博士后科学基金会（项目编号2023M743756）、北京自然科学基金JQ23016、澳门科技发展基金项目0096/2023/RIA2、0123/2022/A3、CCF-Zhipu AI大型模型项目202219、中国国家自然科学基金项目U23B2054、62276254以及InnoHK计划的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法

数据集

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行

新闻专题