LayoutDreamer:基于物理原理的文本到3D场景生成布局系统
《Pattern Recognition》:LayoutDreamer: Physics-guided Layout for Text-to-3D Compositional Scene Generation
【字体:
大
中
小
】
时间:2026年03月09日
来源:Pattern Recognition 7.6
编辑推荐:
提出LayoutDreamer框架,基于3D高斯splatting实现文本引导的模块化场景生成,通过场景图建模、动态物理约束优化和自适应相机调整,解决多物体布局、物理合理性和生成可控性问题,在T3Bench基准上达到最优性能且支持GPU扩展生成。
杨周|何宗进|李启轩|王超
上海大学人工智能研究所,中国上海200444
摘要
近年来,文本引导的3D场景生成领域受到了广泛关注。高质量的场景生成不仅需要符合物理真实性,还需要具备高度的可控性,这对于实际应用至关重要。然而,现有方法存在一些根本性局限:(i) 难以捕捉文本中描述的多个对象之间的复杂关系;(ii) 无法生成符合物理规律的场景布局;(iii) 在组合场景中缺乏可控性和扩展性。在本文中,我们介绍了LayoutDreamer,这是一个完全自动化的框架,它利用3D高斯扩散(3DGS)技术,在文本指导下实现高质量、物理一致的组合场景生成。具体来说,给定一个文本提示后,我们将其转换为有向场景图,并自适应地调整初始组合3D高斯的密度和布局。随后,根据训练焦点进行动态相机调整,以确保对象级别的生成质量。最后,通过从场景图中提取有向依赖关系,我们调整物理和布局能量,从而实现真实感和灵活性。综合实验表明,LayoutDreamer在组合场景生成方面达到了最先进水平(SOTA),在T3Bench多对象生成指标上超越了其他方法,同时能够在单个3090 GPU上实现无限场景扩展。
引言
近年来,高保真度的组合3D内容创作对于诸如具身AI模拟和数字孪生等新兴应用变得至关重要,这些应用不仅要求视觉上的真实性,还需要物理上合理的空间布局。随着文本到图像模型的快速发展[1],文本到3D生成技术在生成单个实体方面也取得了显著进展[2]。然而,这些模型在更复杂的组合任务中仍面临挑战,例如在特定环境中创建对象或生成多个交互对象。在这种情况下,现有方法往往难以准确捕捉复杂的空间关系,导致几何结构混乱、不同视角下的外观变化,以及输出不符合物理约束。最近,一些研究尝试将文本到3D生成扩展到组合3D场景的创建[3]、[4]。组合场景生成是指通过分析3D资产之间的复杂空间关系和视觉交互,为有限数量的独立3D资产创建一个连贯的布局。一些方法加入了额外的布局信息[5],对空间布局施加了严格的约束。虽然这些方法通常能够生成独立的对象,但它们优化时间较长且扩展性有限,这限制了它们的灵活性并阻碍了场景的快速扩展。另一个研究方向是利用2D扩散先验来指导3D生成[6],但这些方法往往缺乏明确的物理推理,导致对象漂浮或相互穿透等问题。此外,仅依赖2D先验通常会导致复杂交互时的视图不一致的几何结构,因为单一视角无法提供可靠的3D一致性线索。因此,迫切需要一个能够同时确保物理合理性、高保真渲染和高效、独立场景操作的框架。
为了实现符合物理真实性的组合场景,并解决以往工作中的效率瓶颈,我们提出了LayoutDreamer,这是一个创新且可扩展的框架,用于从复杂的文本提示生成3D场景。与NeRF等隐式表示方法不同,我们使用3DGS作为核心表示方法。3DGS的显式特性允许直接操作对象位置并高效应用物理约束,从而显著加速生成过程。为了构建复杂的交互,我们首先将文本提示转换为有向场景图。该图指导3D高斯的尺寸、密度和位置的自适应初始化,从而建立完全独立的3D表示。为了优化场景中对象的姿态、尺寸、位置和密度,我们提出了一种动态相机漫游策略,在训练过程中自适应地确定焦点和焦距。结合不透明度正则化项,该策略减少了组合渲染中的异常现象,确保了视图一致性。通过分两个阶段最小化物理和布局能量,我们在大约15分钟内实现了物理上一致的布局。重要的是,这种显式且独立的优化方式支持自由形式的场景操作,包括动态对象编辑、重新生成以及整合来自不同来源的异构3D高斯资产,同时保持一致的尺度和连贯性。
广泛的定性和定量研究表明,LayoutDreamer能够高效生成和排列3D场景,确保高保真度的3D一致性和对物理定律的遵循。我们的贡献总结如下:1) 我们提出了LayoutDreamer,一个利用3DGS和场景图结构的统一框架,实现快速、高质量且独立的组合场景生成。2) LayoutDreamer创新性地结合了显式的物理场约束,利用独立的布局控制来确保对象布局遵循重力法则和碰撞法则,而不仅仅依赖于视觉先验。3) LayoutDreamer将整体密度管理与每个对象的视角感知训练相结合,实现一键式场景合成,而不仅仅是单独资产的片段化组装。4) 综合实验表明,LayoutDreamer在T3Bench基准测试中实现了质量和语义对齐方面的最先进性能[7],同时能够在单个3090 GPU上实现动态编辑功能,如对象重新生成和无限场景扩展。
部分摘录
文本引导的3D生成
早期的文本到3D生成工作,如CLIP-forge [8]、CLIP-NeRF [9] 和 CLIP-mesh [10],采用对比语言-图像预训练(CLIP)作为3D生成的指导机制。随后,DreamFusion [2] 引入了分数蒸馏采样(SDS)损失,借助2D扩散指导显著提高了3D模型的质量。
为了实现快速和高保真的生成,最近的研究采用了3DGS作为底层表示方法。DreamGaussian [11]
概述
如图1所示,给定一个文本提示 Tp 来生成一个场景 其中有 M 个对象,我们首先使用对象和关系提取方法构建场景图 G(O)。该过程通过使用Shap-E [30] 生成点云来初始化3D实体,然后将其转换为3D高斯。引入了基于尺寸池的密度调整方法和基于布局池的链式定位方法来优化对象的大小、密度和位置。
实现细节
LayoutDreamer 使用PyTorch实现,并基于ThreeStudio [34] 构建。对于T3Bench中的复杂提示,我们使用8B Llama3模型从文本中提取主题和关系。用户可以使用GPT-4o进行精确的尺寸定义,并通过CoT几何感知策略生成准确的初始布局。值得注意的是,由于初始3D模型的轮廓和纹理较为粗糙,使用视觉语言模型调整对象方向或布局通常会产生问题
更广泛的影响
LayoutDreamer 在具身AI和自主模拟领域具有重要的应用价值。通过生成物理上合理的场景图和3D资产,它作为一个过程化内容生成器,可以自动创建多样化的机器人训练环境,从而大幅降低手动建模和布局设计的成本,并无缝集成到现有的模拟流程中。在实际部署方面,该框架实现了高保真渲染
结论
在这项工作中,我们建立了一种新的组合3D场景合成范式,将物理定律内在地融入生成过程中。我们的关键发现表明,结合显式的物理能量约束可以有效调节3D高斯的空间布局,解决了纯文本到3D扩散模型中固有的几何歧义问题。此外,所提出的独立表示策略对于可扩展性至关重要,确保了高质量
手稿准备过程中生成式AI和AI辅助技术的声明
在准备这份手稿时,作者使用了ChatGPT和Doubao进行语言润色。使用这些工具后,作者仔细审查并修订了内容,并对最终发表的文章负全责。
CRediT作者贡献声明
杨周:撰写 – 审稿与编辑,撰写 – 原始草稿,方法论,形式分析,数据管理,概念化。何宗进:撰写 – 原始草稿,可视化,方法论,形式分析,概念化。李启轩:撰写 – 原始草稿,方法论,形式分析。王超:撰写 – 审稿与编辑,撰写 – 原始草稿,方法论,形式分析,数据管理,概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
我们感谢匿名审稿人的宝贵意见。本研究得到了国家自然科学基金(编号52371371)和上海市自然科学基金(编号23ZR1422800)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号