电子商务的快速发展彻底改变了消费者的购物方式。然而,在线购物面临的主要问题之一是消费者在购买之前无法试穿衣服。在人工智能生成内容(AIGC)领域,虚拟试穿(VTON)技术作为一种强大的解决方案应运而生。通过输入人物图像和目标服装,虚拟试穿任务旨在生成人物自然穿着目标服装的图像。这使得消费者能够在网上购物时进行虚拟试穿。尽管AIGC技术发展迅速,但最近的研究强调需要将这些进展与社会实际需求和以人为本的价值观相协调(?zer, Perc, 2024; Perc, Ozer, Hojnik, 2019)。基于这一视角,我们的工作重点在于提高推理效率和生成质量,以优化消费者的在线购物体验,并缩小AIGC的理论生成能力与其实际应用之间的差距。传统的虚拟试穿方法(Ge, Song, Zhang, Ge, Liu, Luo, 2021; He, Song, Xiang, 2022; Lee, Gu, Park, Choi, Choo, 2022; Wang, Zheng, Liang, Chen, Lin, Yang, 2018; Xie, Huang, Dong, Zhao, Dong, Zhang, Zhu, Liang, 2023; Yang, Zhang, Guo, Liu, Zuo, Luo, 2020)主要基于各种服装变形模块和生成对抗网络(GANs)(Goodfellow et al., 2014)。然而,这些方法存在缺点,包括服装变形不准确和穿着效果不自然等问题,这是由于变形和生成能力不足所致。现有的基于扩散模型的虚拟试穿方法(Baldrati, Morelli, Cartella, Cornia, Bertini, Cucchiara, 2023; Morelli, Baldrati, Cartella, Cornia, Bertini, Cucchiara, 2023; Xing, Xu, Qian, Liu, Dai, Sun, Liu, Wang, 2025; Zeng, Song, Nie, Tian, Wang, Liu, 2024)在服装变形自然度和细节保留方面表现出色,现已成为主流方法。然而,基于扩散模型的虚拟试穿方法在实时场景中面临重大挑战。
首先,扩散模型的推理过程需要大量的采样步骤,导致推理时间过长。对于用户的在线购物来说,实时响应时间是不可忽视的。在现有的基于扩散模型的虚拟试穿方法中,CAT-DM(Zeng et al., 2024)考虑到了这一点。然而,CAT-DM通过使用GAN生成的初始图像来启动反向扩散过程来实现加速,这种策略本质上将扩散模型的性能与预训练GAN的质量联系在一起。
其次,尽管最近的基于扩散模型的虚拟试穿方法在生成质量上取得了显著提升,但大多数改进都是通过增加模型深度或宽度来实现的,这导致计算成本显著增加和推理速度变慢。这在生成保真度和实时适用性之间形成了根本矛盾。
为了解决这些挑战,我们提出了Free-VTON,这是一种新的方法,可以在不增加额外计算开销的情况下实现基于扩散模型的虚拟试穿的加速和质量提升。在本文中,我们使用“无成本”一词来表示我们的方法不需要额外的训练、大量的模型参数或在推理过程中高FLOPs,而不是消除内存使用。首先,我们提出了一种自适应缓存加速策略。与以前的方法不同,我们的加速策略是一种解耦的设计和非侵入式方法,随着流程的优化而不断改进。该策略根据相邻扩散步骤之间的冗余性智能地缓存和重用中间特征。当冗余性较高时采用激进缓存策略;否则,采用保守缓存策略。不同的样本遵循不同的缓存路径,并根据扩散过程的具体内容动态调整缓存节奏。这种策略在几乎不损失质量的情况下实现了推理加速。如图1所示,我们的方法在推理采样方面实现了1.54倍的加速,且视觉损失可以忽略不计。其次,我们还引入了一种对称特征增强技术,在推理过程中以平衡的方式放大U-Net(Ronneberger et al., 2015)主干两侧的特征,大大增强了去噪能力和生成质量。同样,这种对称特征增强技术在不增加计算开销的情况下提高了试穿质量。
我们的主要贡献可以总结如下:
•我们提出了Free-VTON,一种用于加速和提高质量的虚拟试穿方法。实验结果表明,我们的方法在速度和质量之间取得了显著的优势。
•我们提出了一种自适应缓存加速策略,该策略智能地缓存和重用相邻扩散步骤中相似的特征,从而减少了冗余计算,实现了显著的加速且质量损失可以忽略不计。
•我们引入了一种对称特征增强技术,通过放大U-Net主干中的中间特征来提高生成质量,且计算成本几乎可以忽略不计。