迈向稳定的世界模型:在生成式环境中测量和应对世界不稳定因素

《Patient Education and Counseling》:Toward Stable World Models: Measuring and Addressing World Instability in Generative Environments

【字体: 时间:2026年02月28日 来源:Patient Education and Counseling 3.1

编辑推荐:

  本文提出世界稳定性(WS)概念及参考免费评估框架,量化扩散世界模型在循环交互中的语义漂移问题,并通过实验验证扩展上下文、反向增强、逆模型微调和推理采样等策略的有效性。

  
权秀宇(Soonwoo Kwon)| 金镇英(Jin-Young Kim)| 高孝俊(Hyojun Go)| 白京俊(Kyungjune Baek)
韩国首尔,NAVER公司

摘要

我们提出了一项关于测量和提升世界模型内容保持能力的新研究,重点关注我们称之为“世界稳定性”(World Stability)的属性。基于扩散的生成模型在合成沉浸式和真实环境方面取得了显著进展,这对于强化学习和交互式游戏引擎等应用至关重要。然而,尽管这些模型在质量和可控性方面表现出色,但它们往往忽略了随时间推移对先前生成场景的保留——这一缺陷可能会在智能体学习中引入噪声,并在安全关键场景中影响性能。在这项工作中,我们引入了一个评估框架,通过让世界模型执行一系列动作及其逆操作来系统地测量世界稳定性,从而量化起始观察与最终观察之间的差异。这种闭环协议不需要配对的真实视频或模拟器输出;每个轨迹的初始帧是衡量长时间交互后漂移的唯一基准。我们对基于扩散的世界模型的全面评估揭示了实现高世界稳定性的重大挑战。此外,我们还研究了 several 改进策略来提升世界稳定性。我们的结果强调了世界稳定性在世界建模中的重要性,并为该领域的未来研究提供了可操作的见解;例如,在 CS:GO 中,我们的最佳配置将 WS-LPIPS 从 0.879 降低到 0.732,表明稳定性得到了显著提高。

引言

生成模型的最新进展,如扩散模型 [1]、[2]、[3],显著提高了世界模型的质量 [4],使得模拟环境更加沉浸和真实。这些世界模型可以作为智能体的交互式环境,支持高效的经验收集并加速强化学习 [5]、[6]。它们还可以作为神经游戏引擎 [7]、[8],为人类玩家提供可玩的体验。
为了有效支持这些应用,世界模型必须满足三个关键属性:高视觉质量、可控性和长期一致性。虽然最近的基于扩散的世界模型 [7]、[9]、[10] 在视觉质量和可控性方面取得了显著进展,但确保长期一致性仍然是一个重大挑战。
我们将“世界稳定性”(World Stability)与标准的“时间一致性”(Temporal Consistency)区分开来。时间一致性捕捉的是帧与帧之间的局部连贯性(tt+1),而世界稳定性则捕捉闭环重访的保真度(tt+Nt):在执行一系列动作及其逆操作后,状态应保持不变。因此,一个模型可能在时间上看起来是一致的,但在语义上仍然会发生变化(例如,小物体可能会移动或消失),这对于用作模拟器和神经游戏引擎的世界模型来说至关重要。此外,关注相邻帧连贯性的标准时间一致性指标可能会忽略这种长期漂移,因为它们不探测闭环重访情况。
世界不稳定不仅仅是一个视觉问题:它可能会破坏智能体的环境动态,并损害人类的沉浸感,对策略学习和神经游戏引擎的应用产生负面影响 [7]、[11]、[12]、[14]。
我们发现,经过检查的基于扩散的世界模型在闭环交互中往往无法保留场景(例如,在返回相同视角后物体消失了;见图 1)[7]、[10]。
为了系统地量化这个问题,我们引入了一个无需参考的评估框架和世界稳定性(WS)评分。我们的评估协议要求世界模型执行一系列动作,然后执行相应的逆操作序列,以便最终状态与初始状态匹配。只要每个动作都有明确的逆操作,我们的协议就可以应用于复杂的闭环轨迹。
使用所提出的框架和 WS 评分,我们从定量和定性的角度评估了这些方法的世界稳定性。此外,我们还研究了实际的训练和推理时间策略来提高世界稳定性,包括延长上下文长度、反向序列数据增强、反向建模的微调以及使用高级采样方法的推理时间缩放。我们在具有挑战性的 3D 环境(如 CS:GO 和 DMLab)中研究了这些方法的有效性和局限性。
为了解决环境持久性问题,我们研究了(i)无需参考的测量方法,(ii)现有不稳定性的评估,以及(iii)缓解策略。总体而言,这项工作将世界稳定性确立为生成世界模型的核心评估维度,为构建可靠的长期模拟环境提供了一个无需参考的范式。
总结来说,我们的贡献包括:
  • 引入了“世界稳定性”(World Stability)的概念和一个结构化的、无需参考的评估框架(WS 评分),用于测量闭环交互下的重访保真度。
  • 使用我们提出的框架对基于扩散的世界模型进行基准测试,并揭示了显著的世界不稳定性。
  • 评估训练/推理策略(上下文扩展、反向增强、反向建模注入、推理时间缩放)及其对世界稳定性的影响。
  • 部分摘录

    世界模拟

    世界模型最初是为训练强化学习智能体而提出的模拟环境 [4],已经经历了显著的演变。后续的工作专注于提高环境的真实性以增强智能体策略 [15]、[16]、[18]。这一概念现已扩展到包括用于用户交互的交互式虚拟环境 [19]、[20]。最近的进展利用基于扩散的生成模型大幅提高了这些模拟环境的

    提出的评估框架

    在本节中,我们介绍了一个用于测量世界稳定性(WS)的框架,这是生成世界模型的一个重要但尚未充分探索的属性。如图 1 所示,当前模型在智能体执行一系列动作并返回起点时往往无法保留场景,导致语义漂移。由于这个问题尚未被系统地量化,我们提出了一个正式的评估协议和一个新的指标:WS 评分。

    探索世界稳定性的解决方案

    在本节中,我们介绍了几种提高世界稳定性的策略——增加上下文长度、数据增强、反向状态推理以及通过高级采样进行推理时间缩放——并总结了它们的直觉、预期收益和局限性。
    我们将我们的解决方案分为训练时方法(LCL 4.1、DA 4.2、IRP 4.3)和推理时(推理时)方法(Refinement Sampling 4.4),以澄清它们的计算-性能权衡。这些方法的概述是

    实验

    基于我们提出的框架,本节证明了世界模型存在世界不稳定性的问题,并验证了我们提出的解决方案的有效性。我们首先概述了实验设置(第 5.1 节),然后通过定量评估展示了我们的方法显著提高了稳定性(第 5.2 节)。接下来,我们提供了定性结果来验证我们提出的评分(第 5.3 节)。

    结论与未来工作

    本文将世界稳定性确立为世界模型效能的一个基本属性。我们通过引入一个定量指标和一个系统的评估框架来形式化这一概念。我们的分析揭示了当前基于扩散的世界模型在稳定性方面存在的重大挑战,这激发了我们探索几种潜在增强策略的兴趣:延长上下文长度、采用反向顺序数据增强、引入微调阶段以及利用

    未引用的参考文献

    图 8,图 9。

    CRediT 作者贡献声明

    权秀宇(Soonwoo Kwon):撰写——原始草稿、可视化、软件、方法论、概念化。金镇英(Jin-Young Kim):验证、软件、方法论。高孝俊(Hyojun Go):概念化。白京俊(Kyungjune Baek):撰写——原始草稿、监督、方法论、概念化。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号