编辑推荐:
本文提出基于大语言模型(LLM)的迭代设计系统(IDS),通过分层语义分析解决3D场景布局中的约束冲突,结合几何优化实现从粗到细的设计流程。实验验证了该框架在多场景类别中的有效性。
吴文正|向楚成|林志|关一瑞|鲍如茶|刘中原|王子琪|刘立刚
中国科学技术大学,中国
摘要
我们提出了一种新的3D场景布局设计方法,该方法侧重于从文本到概念设计的推理驱动生成过程。我们的迭代设计系统(IDS)采用了一种分层结构,将几何信息和语义信息结合到场景中,反映了人类设计推理的复杂性。我们利用大型语言模型(LLMs)将概念设计的复杂任务分解为更易于管理的组成部分,从而模仿人类的认知方法。此外,我们提出了一种循环中的LLM优化策略,以解决传统几何布局优化中经常出现的冲突约束问题。一旦传统算法检测到冲突并建议解决方案,LLM就会在设计上下文中解释这些解决方案的语义,以做出最佳决策。实验结果表明,我们的框架能够在各种场景类别中创建令人满意且复杂的场景布局。
引言
场景布局设计在室内设计[1]、城市规划[2]和游戏开发[4]等领域引起了广泛的研究。已经探索了多种生成场景布局的技术,包括数据驱动的方法[5]、[6]和程序化建模[7],以加快设计过程。
现有方法主要侧重于根据用户定义的计划生成场景布局,例如气泡图[8],这需要确定场景中每个元素的确切位置和尺寸。这个阶段被称为详细设计(图2,c)。然而,在实践中,设计这些气泡图与详细设计本身一样重要。创建这些气泡图需要设计师分析客户需求,并将其与自己的见解相结合。设计师必须确定场景中需要包含哪些结构,并定义它们的空间排列。将文本想法转化为设计概念的过程被称为概念设计 [9]、[10](图2,b)。传统上,概念设计是手动完成的,需要大量时间。为了解决这个问题,本研究致力于开发一种计算方法来自动化概念设计过程。
要实现这一创造性过程,面临两个挑战:首先,在概念设计阶段,必须依靠专业的设计知识、全面的研究和实践经验来分析需求并做出明智的决策。例如,在布置特定的卧室场景时,设计师需要借鉴关于卧室的常识和经验来了解基本物品及其放置比例,同时还需要对卧室使用者进行充分的研究(或做出合理的假设)。用户的兴趣和生活习惯会显著影响场景中物品的选择和排列。其次,概念设计过程涉及复杂的推理。例如,设计师必须综合各种需求,推理哪些物品应该放置,进一步推断这些物品之间的关系,并最终决定它们的最终位置。这种推理可以通过特定的方法论来支持,考虑到功能性和美观性[9]。
我们利用大型语言模型(LLMs)来应对这些挑战。这种方法基于这样一个观察:LLMs拥有丰富的人类知识[11]并具备一定的推理能力[12]、[13]。它们在自动编程和机器人技术等领域的应用展示了执行复杂任务的潜力[14]、[15]、[16]。当前的方法[14]、[15]、[16]强调,将LLMs有效地应用于复杂任务的关键在于战略性地分解任务并设计一个结构化的工作流程,使LLMs能够系统地处理每个阶段。鉴于已经存在为场景设计工作流程提供实用方法论的概念设计理论[9]、[10],我们可以利用这些理论作为基础,开发出高效且专家级的LLM工作流程。与目前使用LLMs进行场景布局设计的方法[17]、[18]相比,我们的概念设计工作流程更符合人类设计原则。
为此,我们设计了一个自动化框架,通过将LLMs与几何优化技术相结合,遵循从概念设计到详细设计的工作流程来生成场景布局。我们介绍了迭代设计系统(IDS),这是一个自适应的分层框架,旨在逐步将设计过程从粗略分解为精细 [10]。该结构中的每个节点都可以逐步扩展为子节点,提供更精确和详细的语义。在每个展开的任务中,LLM多智能体系统评估节点的需求,将其扩展为列表[9],并确定其子结构以及对其大小和位置的约束。由于LLMs难以用文本形式表达精确的几何约束,我们通过使用我们自定义开发的领域特定语言(DSL)来帮助它们表达这些约束。DSL缩小了LLMs的不确定输出范围,从而对场景的几何特性施加了明确的约束。随后,我们基于混合整数优化[19]开发了一种几何优化方法,该方法能够找到满足LLMs提出的约束的可行且不重叠的布局解决方案。
然而,由于LLMs引入的冲突约束,优化可能变得不可行。为了解决这个问题,我们采用了不可约不可行子集(IIS)方法[20]来消除这些冲突约束。从数学角度来看,有多种可行的解决方案可以消除这些矛盾。每种解决方案可能会改变问题的语义解释,其重要性取决于具体情境。根据语义变化的程度对这些建议进行排序对人类来说是一项劳动密集型任务,但非常适合LLMs。因此,我们提出了一种循环中的LLM策略,利用LLMs来识别和选择语义上最优的解决方案以解决约束矛盾。
我们的贡献可以总结如下。
- •
我们提出了一种基于概念设计的场景布局生成新工作流程,逐步细化场景细节,以符合设计理论的原则。
- •
我们利用大型语言模型(LLMs)来实现概念设计框架。为此,我们引入了IDS,这是一个灵活的分层模型,并开发了LLM智能体工作流程来简化生成过程。
- •
使用几何优化来细化LLMs的输出。引入了循环中的LLM方法来解决矛盾问题,同时考虑语义问题。
我们通过复杂任务展示了从粗略到精细的布局概念设计过程,见图1示例。
部分摘录
场景布局的概念设计。
概念设计[10]是设计过程的初步阶段。对于场景布局设计,这一阶段通常涉及分析需求并识别场景中的组件及其身份和交互——这对于制定符合提供规范的逻辑布局设计至关重要。许多布局生成方法,如使用气泡图[21]、[22]的方法,都依赖于设计师的全面概念设计。
问题陈述。
用户只需用自然语言写下设计意图,就可以生成一个场景。用户提交文本概念后,我们的框架会系统地对其进行检查,然后生成一个分层场景图,称为迭代设计系统(IDS,图3)。IDS以分层方式分解场景,从粗略到精细,其中每个节点表示从其父节点派生的子结构,并用边界框表示。在较粗的层次上,节点
语义分析器
语义分析器由三个智能体组成:需求分析器、子结构分析器和子结构检查器。
几何分析器
第二阶段侧重于识别每个子结构中的几何属性。直接处理3D数学计算对LLMs来说具有挑战性。因此,我们开发了一套几何操作工具,LLMs可以调用这些工具。我们使用我们定义的领域特定语言来详细描述这些工具。
公式化。
前一组智能体的输出形成了一组DSL工具。为了将文本表示转换为几何形状,我们采用了一种优化方法,最大化空间利用率,同时确保没有重叠。我们使用来表示第个节点。优化中的变量是个向量,其中表示其中心点的坐标。我们在优化中固定了每个结构的方向。
实验结果
在本节中,我们通过我们的方法评估了场景布局概念设计的结果。我们进行了针对循环中的LLM优化的消融研究。此外,我们还进行了比较分析,重点关注LLM模型选择和参数调整,确认了最新LLM创新的有效性。我们的方法应用于多种输入类型,以评估概念设计的生成能力。
结论
在本文中,我们开发了一个LLM多智能体工作流程来实现场景布局的概念设计。基于理论和经验指导,我们的实现利用了LLMs在高度推理驱动过程中的能力,提出了一种新的分层表示方法IDS和理论一致的工作流程。我们在各种类型的输入下展示了可接受的结果,同时测试了这种方法的潜在应用和属性。
CRediT作者贡献声明
吴文正:撰写——审稿与编辑,撰写——原始草稿,方法论,概念化。向楚成:方法论。林志:数据整理。关一瑞:可视化。鲍如茶:方法论。刘中原:概念化。王子琪:撰写——审稿与编辑,概念化。刘立刚:资源,项目管理。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。