Isotropic3D：基于单个CLIP嵌入的图像到3D的生成方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding

【字体：大中小】 时间：2026年01月22日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　图像到3D生成新框架Isotropic3D，通过单张图像CLIP嵌入和显式多视角注意力机制，结合Score Distillation Sampling优化和NeRF重建，有效解决传统方法存在的几何扭曲、多视角不一致及语义漂移问题，实现高质量对称三维建模。

刘鹏坤|王一凯|肖航|薛宏翔|王新洲|孙富春

复旦大学智能机器人与先进制造学院，上海，200433，中国

摘要

随着预训练的2D扩散模型越来越普及，利用分数蒸馏采样（SDS）进行图像到3D的生成技术取得了显著进展。然而，大多数现有方法严重依赖参考视图图像的监督，这常常会干扰扩散模型的归纳先验，导致几何形状扭曲或背景区域过于平滑。为了克服这些限制，我们提出了Isotropic3D，这是一种新的图像到3D框架，它仅以单个图像CLIP嵌入作为输入。我们的方法通过仅依赖SDS损失来确保方位角各向同性，避免了过拟合参考图像的问题。Isotropic3D由两个主要部分组成：一个EMA条件下的多视图扩散模型（EMA-MVD）和一个神经辐射场（NeRF）。EMA-MVD的核心是两阶段微调。首先，我们通过用图像编码器替换文本编码器来微调一个文本到3D的扩散模型，从而使模型初步具备图像到图像的能力。其次，我们使用显式多视图注意力（EMA）进行微调，将带噪声的多视图图像与无噪声的参考图像结合作为显式条件。经过微调后，Isotropic3D能够基于单个CLIP嵌入生成多视图一致性的图像，并重建出具有更好对称性、比例恰当的几何形状、色彩丰富的纹理以及较低失真的3D模型。项目页面位于https://Isotropic3D.github.io/。代码和模型可在https://github.com/pkunliu/Isotropic3D获取。

引言

生成与单一参考图像相似的新3D内容在3D计算机视觉中起着至关重要的作用，广泛应用于动画制作、游戏开发和虚拟现实[1]、[2]、[3]、[4]、[5]、[6]、[7]。得益于扩散模型在去噪高质量图像方面的快速发展，出现了一种新的3D生成流程，该流程通过基于分数蒸馏采样（SDS）优化任何2D图像视图来进一步合成3D对象，这一方法最初由DreamFusion[8]提出，并在许多后续工作中得到广泛应用[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]。

具体来说，在图像到3D任务中，自然会对新的方位角应用SDS优化，并添加额外的L2监督，以确保参考视图渲染的图像与参考图像一致。然而，实证结果表明，这种流程通常会导致三个问题：i) 3D失真，即几何形状过于平滑或扁平化。条件扩散模型的生成能力会受到限制。强制监督的方式偏离了生成的初衷，导致模型在条件图像上做出妥协，从而经常产生扁平或扭曲的3D结果。ii) 多面问题。由于自遮挡和不可见区域的存在，网络需要依赖错觉来生成新的视图。生成与输入视图非常相似的其他视图是一个常见挑战。iii> 多视图不一致性。这些方法只能确保参考图像与生成的新视图尽可能一致，但在强制多个生成视图之间的强一致性方面往往较弱。

为更好地解决这些问题，最近的研究[11]、[17]、[18]、[20]、[21]、[22]、[23]、[24]、[25]致力于使用2D扩散模型从单个图像生成多视图图像。多视图学习方法通过在训练过程中引入跨视图注意力机制或显式约束来提高多视图图像的一致性。类似地，MV-3DSReID[26]和MV-ReID[27]是用于遮挡人物重新识别的多视图学习方法。它们首先通过3D重建获得多视图图像，然后将多视图特征（例如，注意力/池化/分组）聚合为一个统一的识别表示用于检索。然而，这些方法的基本思想是聚合重要的多视图特征以提高识别性能，而不是生成质量和视图一致性。重要的是，在基于SDS的3D生成流程中，生成视图之间的一致性和新视图的真实感至关重要，因为它们在很大程度上决定了恢复的几何形状和纹理。在这方面，尽管MVDream[11]最初是为文本到3D生成提出的，但它提供了一个强大的视图条件下的多视图扩散先验，能够生成连贯的新视图，因此为SDS优化提供了自然的框架。

与现有的基于SDS的图像到3D生成方法不同，我们在本工作中引入了Isotropic3D，这是一种仅以图像CLIP嵌入（由ViT-H/14[28]的投影层提取）作为输入的图像到3D想象流程。具体来说，Isotropic3D去除了参考视图像素的监督，而是使用单一的、视图不变性的CLIP嵌入作为唯一的条件信号。这在两个方面改变了优化方式：1) 防止视图特定的过拟合和身份漂移：全局嵌入提供了所有视图共享的稳定语义身份约束，减少了不同视图陷入不同“语义模式”的可能性，这是多面伪影的典型诱因。2) 减少了导致不一致性的梯度冲突：在没有优先参考视图像素损失的情况下，SDS指导在各个视图之间更均匀地应用；由此产生的多视图监督由一个共享的语义条件驱动，直接提高了跨视图的一致性。在这种设计下，SDS损失在方位角上均匀应用，不会被额外的参考视图L2监督所干扰，从而促进了方位角各向同性。Isotropic3D的关键思想是利用2D扩散模型本身的能力，而不牺牲输入参考图像。具体来说，为了初步使扩散模型具备图像条件化的能力，我们首先用图像编码器替换文本到3D扩散模型进行微调。然后，我们提出了一种称为显式多视图注意力（EMA）的技术，进一步结合带噪声的多视图图像和无噪声参考图像作为显式条件对扩散模型进行微调。我们的两阶段调整和EMA进一步提高了生成的多视图指导的一致性，从而稳定了下游的3D优化。正如图1所示，得益于我们在Isotropic3D中设计的技术，我们证明仅使用单个图像CLIP嵌入，我们的框架仍然可以生成具有丰富色彩和比例恰当的3D模型。我们观察到，我们的方法对参考图像的对象姿态具有鲁棒性。此外，与参考图像保持了一定程度的语义一致性。

总结我们论文的贡献如下：

•
我们提出了一种名为Isotropic3D的新图像到3D流程，它仅以图像CLIP嵌入作为输入。Isotropic3D旨在充分发挥2D扩散模型的先验作用，而不要求目标视图与输入视图完全一致。
•
我们引入了一个EMA条件下的多视图扩散模型，其中集成了显式多视图注意力（EMA），旨在通过微调来增强视图生成。EMA将带噪声的多视图图像与无噪声的参考图像结合作为显式条件。
•
实验表明，Isotropic3D仅使用单个CLIP嵌入即可生成有前景的3D资产，同时仍能与参考图像保持语义一致性。

方法

我们提出了Isotropic3D，如图2所示，这是一个仅以图像CLIP嵌入作为输入的图像到3D流程，并允许优化在方位角上各向同性，仅依赖于SDS损失。Isotropic3D由两部分组成：i) EMA条件下的多视图扩散模型（第3.2节）。使用显式多视图注意力（EMA）框架生成多样化但高质量、一致的多视图图像。ii) 神经辐射场（NeRF）

实验

我们在第4.1节提供了实现细节，并在第4.2节使用基线评估了新视图合成能力。此外，我们在第4.3节比较了基于SDS的3D生成方法的能力。为了评估EMA模块和Isotropic3D以单个嵌入作为输入的优势，我们在第4.4节进行了消融研究。

结论

在本文中，我们提出了Isotropic3D，这是一种新的图像到3D流程，仅从图像CLIP嵌入生成高质量的几何形状和纹理。Isotropic3D允许优化在方位角上各向同性，仅依赖于SDS损失。为了实现这一目标，我们分两个阶段微调了一个多视图扩散模型，该模型旨在利用参考图像的语义信息，但不要求其与参考图像完全一致，

CRediT作者贡献声明

刘鹏坤：写作 – 审稿与编辑，撰写原始草稿，可视化，方法论，调查，数据管理。王一凯：写作 – 审稿与编辑。肖航：撰写原始草稿，可视化，方法论。薛宏翔：撰写原始草稿，数据管理。王新洲：撰写原始草稿，数据管理。孙富春：写作 – 审稿与编辑，方法论。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法

实验

结论

CRediT作者贡献声明

利益冲突声明

热点排行