LSIST-Net:一种轻量级的立体图像风格转换网络,用于实现视图一致性
《Computers & Graphics》:LSIST-Net: A lightweight stereoscopic image style transfer network for view consistency
【字体:
大
中
小
】
时间:2026年03月09日
来源:Computers & Graphics 2.8
编辑推荐:
立体图像风格迁移中,现有方法存在参数量大、计算成本高及左右视图不一致等问题。本文提出轻量级Transformer网络LSIST-Net,通过低秩分解和选择性参数共享构建LSTT模块,采用可变形立体特征匹配模块DSFM实现子像素级对齐,并设计深度可分离卷积解码器DS-Decoder。同时引入风格一致性损失函数,在保持高质量风格迁移的同时显著降低参数量和计算复杂度,适用于实时应用和移动端部署。
罗天瑞|唐振华|张学军|孙宇
广西大学计算机与电子信息学院,中国广西南宁大学东路100号,530004
摘要
立体风格迁移旨在使用2D图片对立体图像对进行艺术化风格转换,同时保持视图一致性。然而,现有方法通常涉及大量的参数和计算成本,这限制了资源受限或实时应用的需求。此外,它们还会在左右视图之间引入明显的不一致性,导致视觉不适。为了解决这些问题,我们提出了LSIST-Net,这是一种基于Transformer的轻量级立体图像风格迁移网络。该模型基于双分支架构,并包含三个关键贡献:轻量级风格迁移Transformer(LSTT),它利用低秩分解和选择性权重共享来减少参数数量,同时保持表示能力;可变形立体特征匹配(DSFM)模块,它在亚像素级别对齐风格化内容;以及基于深度可分离卷积的解码器(DS-Decoder),它在不牺牲视觉质量的情况下进一步降低计算成本。此外,我们还引入了一种新颖的风格一致性损失函数,以在训练过程中强制跨视图的风格连贯性。在多个3D基准测试上的广泛实验表明,LSIST-Net在保持高度竞争力的风格化质量的同时,显著减少了模型大小和推理时间,显示出在实际应用中的强大潜力。
引言
立体图像风格迁移旨在通过注入2D风格图像的视觉特征(如纹理、笔触和颜色)来丰富立体图像对。这一能力对于生成具有高视觉表现力和沉浸感的数字内容至关重要。由于其在增强现实(AR)[1]、虚拟现实(VR)[2]、3D电影制作[3]、室内场景重建和虚拟家居设计[4]等领域的广泛应用,这项技术可以显著提高虚拟环境的真实感、艺术质量和用户体验。
尽管2D图像风格迁移技术已经取得了显著进步[5]、[6],但在立体领域仍有两个关键问题尚未解决。主要问题是缺乏轻量级设计;大多数现有模型包含大量参数,需要大量的计算资源,限制了它们在实时渲染[7]和移动平台[8]上的应用。例如,基于神经辐射场(NeRF)的技术,如StyleRF[9]和ARF[10],通常需要为每个场景训练一个专门的多层感知器(MLP),渲染单张图像通常需要几秒到几分钟的推理时间。第二个主要问题是视图不一致性。如图1所示,直接将2D风格迁移方法(如StyTr2[11])应用于立体图像对可能会导致左右视图之间的纹理和色调不对齐。这些风格差异会损害深度感知,从而引起视觉疲劳,并导致观众感到立体不适。
已经开发了几种方法来减轻立体图像风格迁移中的视图不一致性问题。例如,Chen等人[12]率先通过引入视差一致性损失来适应2D模型,该方法利用双向视差图和遮挡掩码来强制非遮挡区域的风格连贯性。Gong等人[13]通过集成来自两个视图的信息的特征聚合模块进一步提高了跨视图的一致性。然而,尽管这些方法增强了视图对齐和风格连贯性,但它们很大程度上忽视了模型复杂性的关键问题,使得在资源受限的场景中难以部署。因此,设计一个同时保证视图一致性的轻量级立体风格迁移网络仍然是一个未解决的技术挑战。
为了解决这些问题,我们基于StyTr2架构[11]构建了一个轻量级立体图像风格迁移网络(LSIST-Net)。为了明确本文中使用的术语,我们专注于立体图像风格迁移。请注意,LSIST-Net的输入和输出是立体图像对(即两个2D图像),而不是3D模型或神经辐射场。“3D”一词主要用于描述当风格化的立体图像对在适当设备上显示时观众所体验的深度感知,而不是表示我们正在对3D几何数据进行风格化。具体来说,我们将StyTr2的原始单分支结构扩展为双分支架构,分别处理立体图像对的左右视图。StyTr2[11]是一个高效的2D图像风格迁移网络,以其保留全局细节而闻名,但其较大的参数规模(35.42M)和高计算成本(FLOPs高达182G)限制了其在资源受限和实时应用中的使用。受到最近在低秩分解[14]和权重共享[15]方面进展的启发,我们开发了一个轻量级风格迁移Transformer(LSTT)模块。在标准Transformer[16]中,前馈网络(FFN)占用了大量参数,但对性能的贡献相对较小。因此,我们对FFN的参数矩阵应用了低秩分解,显著减少了参数数量和计算复杂性。此外,对于自注意力中的查询(Q)/键(K)/值(V)投影矩阵和低秩FFN层等同质子模块,我们根据训练期间的L2梯度重要性识别出最关键的参数,并战略性地共享它们。这种方法在模型压缩和性能保持之间取得了平衡。为了进一步简化架构,我们设计了一个基于深度可分离卷积的轻量级DS-Decoder[17],它用深度可分离卷积替换了标准卷积进行上采样。这种修改显著减少了参数数量,仅带来了微小的性能损失。
立体图像风格迁移中的另一个关键挑战是在左右视图之间保持风格化一致性。为此,我们提出了一个可变形立体特征匹配模块(DSFM)。DSFM预测视差偏移量来扭曲两个视图,并使用可变形卷积在亚像素级别对齐颜色和纹理特征,保留精细的结构和风格细节。此外,我们引入了一个风格一致性损失函数来监督训练过程,进一步提高了风格化立体输出的感知质量和连贯性。
与传统的Transformer权重共享策略[15]不同,后者通常在所有编码器层上强制执行统一的参数,我们的方法在更细的子模块粒度上操作。我们认识到Q、K、V投影和FFN层等组件在不同层中扮演着不同的角色。通过评估它们的L2梯度重要性并选择性地共享最具影响力的参数,我们的方法提高了训练稳定性和收敛速度。结合基于深度可分离卷积的解码器——它比StyTr2[11]中使用的CNN解码器更高效——我们的网络非常适合边缘设备部署。总之,我们工作的主要贡献如下。
- •
我们提出了LSIST-Net,这是一个轻量级的立体图像风格迁移模型,它在显著提高计算效率的同时保持了高风格化质量。
- •
我们设计了两个即插即用的轻量级组件:轻量级风格迁移Transformer(LSTT)模块和基于深度可分离卷积的解码器(DS-Decoder),它们共同大幅减少了模型的参数和复杂性。
- •
我们引入了可变形立体特征匹配(DSFM)模块和风格一致性损失函数,以确保风格化立体视图在结构和风格上的连贯性。
本文的结构如下。第2节回顾了相关工作。第3节详细介绍了所提出的方法,包括LSTT、DSFM、DS-Decoder和风格一致性损失函数。第4节展示了实验验证,第5节提供了消融研究。第6节总结了本文。
相关研究
相关工作
本节简要介绍了图像风格迁移任务的典型方法,涵盖了2D和立体图像。它还讨论了模型轻量化技术。
提出的方法
图2展示了我们提出的LSIST-Net的总体架构。该模型基于StyTr2框架[11]构建,扩展为双分支结构,以处理立体图像对,并结合了几个轻量级组件:轻量级风格迁移Transformer(LSTT)、基于深度可分离卷积的解码器(DS-Decoder)和可变形立体特征匹配(DSFM)模块。
实验
在本节中,我们通过多个数据集的广泛实验评估了所提出的LSIST-Net的有效性和效率。首先,我们简要介绍了训练数据集,然后详细描述了任务实现。接下来,我们将每个风格迁移任务的结果与当前最先进的方法进行了比较,并提供了视觉对比。最后,我们对本文提出的模型进行了消融研究。
消融研究
本节研究了架构组件对最终模型性能的影响。所有消融实验都是在立体图像风格迁移任务上进行的。
结论
本文提出了LSIST-Net,这是一个用于高效和视图一致的立体图像风格迁移的轻量级神经网络。据我们所知,这是该领域首次采用基于Transformer的架构。该模型结合了两个关键轻量级组件:LSTT和DS-Decoder,它们共同减少了计算复杂性,同时保持了高风格化质量。此外,所提出的DSFM模块有效地
CRediT作者贡献声明
罗天瑞:撰写——原始草稿、可视化、验证、资源管理、方法论、调查。唐振华:撰写——审阅与编辑、资金获取、概念化。张学军:撰写——审阅与编辑。孙宇:撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
这项工作部分得到了广西重点研发计划(编号:FN2504240011)和广西自然科学基金(编号:2025JJA170234)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号