Free-VTON:基于扩散技术的虚拟试穿服务,提供免费加速与质量提升

《Neural Networks》:Free-VTON: Cost-Free Acceleration and Quality Enhancement for Diffusion-based Virtual Try-On

【字体: 时间:2026年01月06日 来源:Neural Networks 6.3

编辑推荐:

  虚拟试衣技术通过扩散模型实现自然衣装变形与细节保留,但存在推理速度慢和计算成本高的问题。本文提出Free-VTON方法,通过自适应缓存技术动态管理相邻扩散步骤的特征冗余,结合对称特征增强技术优化U-Net的中间特征提取与重构能力,在保持生成质量的同时实现1.54倍加速,无额外训练或计算开销。

  
作者:Dan Song、Yuhang Pan、Shuangyan Yue、Yao Jin、An-An Liu
天津大学电气与信息工程学院,中国天津 300110

摘要

随着扩散模型在图像生成领域的突破,基于扩散模型的虚拟试穿在试穿性能上具有显著优势。然而,基于扩散的推理过程存在生成速度慢的问题。此外,提高图像质量通常需要更多的网络参数,这会增加计算成本。这些问题阻碍了虚拟试穿系统的实时交互性和实际应用。在这项工作中,我们提出了一种名为Free-VTON的基于扩散模型的虚拟试穿的无成本加速和质量提升方法。具体来说,我们引入了一种自适应缓存加速策略,该策略根据相邻扩散步骤中特征之间的相似性来动态缓存和重用特征。当相似性较高时采用激进缓存策略,当相似性较低时采用保守缓存策略。不同的样本采用不同的缓存路径,并根据内容动态调整缓存节奏。这种策略在不影响试穿质量的情况下加速了推理过程。此外,我们还引入了一种对称特征增强技术,在推理过程中对称放大U-Net两侧的主干特征,以增强特征提取和重建生成能力。同样,这种技术几乎不增加额外的计算开销,就能提高生成质量。实验表明,我们的方法在速度和质量之间取得了良好的平衡。我们将会公开代码。

引言

电子商务的快速发展彻底改变了消费者的购物方式。然而,在线购物面临的主要问题之一是消费者在购买之前无法试穿衣服。在人工智能生成内容(AIGC)领域,虚拟试穿(VTON)技术作为一种强大的解决方案应运而生。通过输入人物图像和目标服装,虚拟试穿任务旨在生成人物自然穿着目标服装的图像。这使得消费者能够在网上购物时进行虚拟试穿。尽管AIGC技术发展迅速,但最近的研究强调需要将这些进展与社会实际需求和以人为本的价值观相协调(?zer, Perc, 2024; Perc, Ozer, Hojnik, 2019)。基于这一视角,我们的工作重点在于提高推理效率和生成质量,以优化消费者的在线购物体验,并缩小AIGC的理论生成能力与其实际应用之间的差距。传统的虚拟试穿方法(Ge, Song, Zhang, Ge, Liu, Luo, 2021; He, Song, Xiang, 2022; Lee, Gu, Park, Choi, Choo, 2022; Wang, Zheng, Liang, Chen, Lin, Yang, 2018; Xie, Huang, Dong, Zhao, Dong, Zhang, Zhu, Liang, 2023; Yang, Zhang, Guo, Liu, Zuo, Luo, 2020)主要基于各种服装变形模块和生成对抗网络(GANs)(Goodfellow et al., 2014)。然而,这些方法存在缺点,包括服装变形不准确和穿着效果不自然等问题,这是由于变形和生成能力不足所致。现有的基于扩散模型的虚拟试穿方法(Baldrati, Morelli, Cartella, Cornia, Bertini, Cucchiara, 2023; Morelli, Baldrati, Cartella, Cornia, Bertini, Cucchiara, 2023; Xing, Xu, Qian, Liu, Dai, Sun, Liu, Wang, 2025; Zeng, Song, Nie, Tian, Wang, Liu, 2024)在服装变形自然度和细节保留方面表现出色,现已成为主流方法。然而,基于扩散模型的虚拟试穿方法在实时场景中面临重大挑战。
首先,扩散模型的推理过程需要大量的采样步骤,导致推理时间过长。对于用户的在线购物来说,实时响应时间是不可忽视的。在现有的基于扩散模型的虚拟试穿方法中,CAT-DM(Zeng et al., 2024)考虑到了这一点。然而,CAT-DM通过使用GAN生成的初始图像来启动反向扩散过程来实现加速,这种策略本质上将扩散模型的性能与预训练GAN的质量联系在一起。
其次,尽管最近的基于扩散模型的虚拟试穿方法在生成质量上取得了显著提升,但大多数改进都是通过增加模型深度或宽度来实现的,这导致计算成本显著增加和推理速度变慢。这在生成保真度和实时适用性之间形成了根本矛盾。
为了解决这些挑战,我们提出了Free-VTON,这是一种新的方法,可以在不增加额外计算开销的情况下实现基于扩散模型的虚拟试穿的加速和质量提升。在本文中,我们使用“无成本”一词来表示我们的方法不需要额外的训练、大量的模型参数或在推理过程中高FLOPs,而不是消除内存使用。首先,我们提出了一种自适应缓存加速策略。与以前的方法不同,我们的加速策略是一种解耦的设计和非侵入式方法,随着流程的优化而不断改进。该策略根据相邻扩散步骤之间的冗余性智能地缓存和重用中间特征。当冗余性较高时采用激进缓存策略;否则,采用保守缓存策略。不同的样本遵循不同的缓存路径,并根据扩散过程的具体内容动态调整缓存节奏。这种策略在几乎不损失质量的情况下实现了推理加速。如图1所示,我们的方法在推理采样方面实现了1.54倍的加速,且视觉损失可以忽略不计。其次,我们还引入了一种对称特征增强技术,在推理过程中以平衡的方式放大U-Net(Ronneberger et al., 2015)主干两侧的特征,大大增强了去噪能力和生成质量。同样,这种对称特征增强技术在不增加计算开销的情况下提高了试穿质量。
我们的主要贡献可以总结如下:
  • 我们提出了Free-VTON,一种用于加速和提高质量的虚拟试穿方法。实验结果表明,我们的方法在速度和质量之间取得了显著的优势。
  • 我们提出了一种自适应缓存加速策略,该策略智能地缓存和重用相邻扩散步骤中相似的特征,从而减少了冗余计算,实现了显著的加速且质量损失可以忽略不计。
  • 我们引入了一种对称特征增强技术,通过放大U-Net主干中的中间特征来提高生成质量,且计算成本几乎可以忽略不计。
  • 部分内容摘要

    基于图像的虚拟试穿

    随着AIGC技术的快速发展,图像生成领域(Huang, Tsai, 2023; Park, Shin, 2022; Peng, Yang, Liu, Lü, 2021; Zheng, Yang, Yu, Wang, Sun, Zheng, 2022; Zheng, Yu, Wu, Zheng, Lee, 2021)也取得了巨大进展。EDIP-Net(Li et al., 2025)提出了一种增强的深度图像先验(DIP)网络,以发挥深度图像先验在超光谱图像超分辨率任务中的潜力。M2U-Net(Li et al., 2024)提出了一种模型驱动的多阶段

    模型概述

    我们提出的虚拟试穿方法包括三个主要组成部分:基本模型流程、自适应缓存加速技术和对称特征增强技术。我们将在本节详细介绍这些组成部分。
    如图2所示,我们的Free-VTON建立在Stable Diffusion(Rombach et al., 2022)的基础上,并以ControlNet(Zhang et al., 2023)作为结构指导。它由U-Net架构和SD编码器块组成,该编码器块连接到SD中间块和SD解码器

    数据集

    我们的实验使用了两个流行的公共数据集:VITON-HD(Choi et al., 2021)和DressCode(Morelli et al., 2022)。
    VITON-HD数据集包含27,378张图像,分为13,679对图像对,其中11,647对作为训练集,2,032对作为测试集。每对图像包括一个人物图像、该人物穿着的服装图像以及预处理的遮罩和姿势图像。VITON-HD数据集主要包含用于试穿的 upper garments(上衣)。
    与VITON-HD不同,

    结论

    在本文中,我们介绍了Free-VTON,这是一种几乎无需额外成本即可加速和提高质量的虚拟试穿方法。具体来说,自适应缓存加速策略利用了相邻扩散步骤之间的冗余性来动态缓存和重用特征。当冗余性较高时采用激进缓存策略;否则,采用保守缓存策略。不同的样本遵循不同的缓存路径,并根据扩散过程的具体内容智能调整缓存节奏

    优势、局限性和未来工作

    我们的研究提出了基于扩散模型的虚拟试穿的无成本推理优化方法。通过引入自适应缓存技术,它实现了不同样本的自适应缓存加速,在几乎不增加成本的情况下实现了无损加速,同时保持了高质量。此外,通过结合对称特征增强技术,它在几乎不增加计算开销的情况下提供了更高质量的试穿结果。总之,我们的虚拟试穿方法取得了卓越的性能

    CRediT作者贡献声明

    Dan Song:撰写 – 审稿与编辑、形式分析、数据整理、概念化。Yuhang Pan:撰写 – 原始草稿、方法论、调查。Shuangyan Yue:可视化、验证。Yao Jin:监督、形式分析。An-An Liu:监督、资金获取。

    利益冲突声明

    作者声明没有利益冲突。

    资助

    本工作部分得到了中国国家自然科学基金(项目编号62571369和62425307)、核动力安全技术与设备国家重点实验室(编号SKL-2024-WT-18)以及浙江省重点研发计划(项目编号2024C01210)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号