《Pattern Recognition》:ChipDiff: Staged Diffusion Model with Loss Gradient Guidance for Chinese Ink Painting Style Transfer
编辑推荐:
本文提出ChipDiff分阶段扩散模型,针对中国传统水墨画风格迁移设计。通过结构导向采样与风格细节优化两阶段,结合内容结构、边缘分割和语义分歧损失,有效平衡结构保留与风格融合。构建TCWP数据集并制定评估协议,实验表明ChipDiff在风格保真度和结构完整性上优于现有方法。
Heng Liu|Zhiwei Song|Yongzheng Wang|Bingwen Hu|Yang Wang
安徽工业大学计算机科学与技术学院,马鞍山,243032,安徽,中国
摘要
本文提出了ChipDiff,这是一个专为中式水墨风格迁移设计的新颖分阶段扩散框架。传统的生成模型往往难以捕捉传统艺术中复杂的单色色调层次和“骨法”(结构化的笔触)。我们提出了一种基于定制损失梯度的分叉采样策略,以在保持结构完整性的同时实现风格上的精细化。受传统艺术“先勾勒后着墨”工作流程的启发,我们的方法将去噪过程分为两个功能阶段。在第一阶段,我们结合了内容-结构损失、HED边缘损失和语义差异损失来固定全局布局和潜在骨架。第二阶段通过多尺度风格表示损失注入细粒度的水墨纹理和各向异性渗色效果,进一步细化合成结果。与之前的单阶段方法不同,ChipDiff提供了一种具有数学基础且符合艺术直觉的图案生成机制。广泛的实验,结合我们精心策划的传统中国水墨画(TCWP)数据集和全面的感知对齐评估协议,证明了ChipDiff在风格忠实度和结构完整性方面优于现有的最佳方法。项目代码可在以下链接获取:
https://github.com/hengliusky/ChipDiff/。
引言
风格迁移旨在合成能够无缝融合目标风格特征纹理、色调和几何图案的图像,同时保持结构真实性。自Gatys等人[1]的开创性工作以来,该领域已经从前馈网络(FFN)[2] [3]发展到复杂的基于Transformer的架构[4]。尽管通用框架取得了显著进展,但像中国水墨画这样的专业艺术领域通常需要专门的表示方法来捕捉通用模型无法解决的独特美学细微差别。这主要是因为水墨画更注重“精神共鸣”而非字面表现,其高度抽象的笔触挑战了标准神经网络的像素级关联机制。
最近,去噪扩散概率模型(DDPM)[5]重新定义了生成建模的现状。除了基于逆向变换的风格化[6]之外,研究人员还通过基于损失的梯度[7]或多模态机制在采样过程中引入了额外的指导。然而,标准的扩散框架通常缺乏精细的结构控制,尤其是在需要精确几何保真的艺术场景中。分类器引导的采样[8]仅提供粗略的方向性约束,对于传统艺术的细腻纹理来说是不够的。
中国水墨画(水墨)面临三个独特的挑战:(i)水和墨在宣纸上的各向异性流体扩散;(ii)由单色梯度定义的层次色调;(iii)基于特定点状和线状笔触的构图框架。除此之外,这种媒介还依赖于“留白”概念——即有意使用负空间来营造深度和氛围——而这通常被传统生成模型误解为背景噪声。此外,“骨法”(笔触的骨架)决定了结构的节奏,需要一个能够区分笔触的刚性强度和水墨的流动性模型的能力。现有的基于FFN的方法[3] [4]通常会模糊这些笔触结构,而基于GAN的方法如ChipGAN[9]和BitGAN[10]则常常产生过锐的轮廓或块状伪影。尽管当代基于扩散的模型[7]在处理色彩丰富的风格时效果良好,但通常无法再现真实的水墨渗色行为,导致纹理要么被冲淡,要么产生过多的高频噪声(见图1)。
传统的水墨创作遵循特定的艺术流程:艺术家首先使用大面积的水墨勾勒出整体构图,然后细化笔触和渗色效果。这一过程自然启发了我们提出的方法ChipDiff,这是一个反映“先勾勒后着墨”艺术顺序的新颖分阶段扩散框架。因此,我们将水墨风格化表述为一个由损失梯度引导的逆向扩散问题[11]。采样过程分为两个阶段:第一阶段(以结构为导向的采样),用于保持全局布局和粗略的色调骨架;第二阶段(风格细节细化),用于增强局部色调层次和笔触效果。
与基于提示的引导方法不同,后者往往无法捕捉非语言化的艺术细微差别,ChipDiff依赖于一套专门为水墨特性定制的可微分损失。这种基于梯度的控制允许进行像素级的色调调整,这是文本驱动模型无法实现的。通过结合ViT/VGG内容损失、HED边缘损失[12](用于笔触几何)和块对比损失[7]来确保结构完整性。通过VGG/ViT风格表示、一种新颖的可微分单色保真度颜色直方图损失以及语义差异损失来保证风格的真实性,以稳定扩散步骤中的图案形成。为了便于评估,我们策划了TCWP(水墨画纹理集)数据集,并引入了一个涵盖颜色准确性、领域特定复杂性和结构真实性的全面定量评估协议。
我们的主要贡献总结如下:
•我们提出了ChipDiff,一个具有损失梯度控制的新颖分阶段扩散框架。通过在定制的采样阶段应用不同的梯度,它解决了早期结构巩固与后期风格化水墨扩散之间的内在矛盾。
•我们为水墨领域设计了一套全面的定量指标(CTR、CDR、颜色数量和笔触数量),为高层次的美学纹理和低层次的结构表示提供了数学上严谨的评估。
•我们提供了TCWP,一个高质量的中国水墨画数据集,作为支持风格化任务和未来传统艺术视觉合成研究的基准。
部分摘录
图像风格迁移
神经风格迁移(NST)起源于利用基于VGG的Gram矩阵统计[1],随后通过前馈网络[13]和多风格框架[14]得到了加速。为了实现任意风格的迁移,后续研究集中在灵活的特征转换上。值得注意的是,自适应实例归一化(AdAIN)[2]和特征装饰[15]改善了全局对齐,而注意力机制[16]和领域特定表示[3]、[17]增强了局部
概述
我们将中国水墨风格迁移表述为一个由损失梯度引导的逆向扩散问题。受[11]的启发,ChipDiff最小化总的内容和风格损失,以指导采样轨迹朝向目标水墨流形。
具体来说,给定一个内容图像xc和一个风格参考xs,我们首先通过前向扩散过程得到一个噪声表示xT。从降至0,然后进行反向扩散采样以获得中间状态xt。在每一步中,我们进行估计
数据集和实现细节
为了确保可靠的评估,我们按照五阶段流程构建了TCWP数据集:数据采集、分辨率过滤、近复制去除、手动语义验证和纹理平衡(见图3)。TCWP包含2,195张来自[34]的水墨画图像以及从互联网收集的1,133张额外图像,主要包含三种典型的纹理元素:点、线和方形。实施了可量化的质量控制(QC)标准(表2)以保证
讨论与局限性
为了验证我们分阶段损失梯度引导扩散框架的普遍适用性,我们将ChipDiff模型扩展到了其他艺术风格,包括漫画、素描和油画。如图10所示,尽管损失组件是针对中国水墨画的特性进行了专门调整,但将结构稳定性与风格细化分离的核心机制展示了强大的泛化能力。这表明“分阶段引导”的理念
结论
在这项工作中,我们提出了ChipDiff,这是一个重新思考扩散采样过程的新框架,以应对中国水墨画的独特美学挑战。与那些难以在结构完整性和风格流动性之间取得平衡的传统方法不同,我们的方法利用基于损失梯度的分阶段扩散策略实现了高度可控和真实的风化效果。通过策划TCWP数据集,我们为捕捉
CRediT作者贡献声明
Heng Liu:撰写——审稿与编辑,撰写——初稿,项目管理,方法论,资金获取,形式分析,概念化。Zhiwei Song:可视化,资源,调查,数据策划。Yongzheng Wang:撰写——审稿与编辑,可视化,调查,形式分析。Bingwen Hu:撰写——初稿,软件,方法论,形式分析。Yang Wang:撰写——审稿与编辑,调查,资金获取,概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
致谢
这项工作部分得到了中国国家自然科学基金(项目编号61971004)和安徽省中青年学术带头人培养计划(项目编号DTR2023014)的支持。
Heng Liu是中国安徽工业大学计算机科学与技术学院的教授。他于2008年在上海交通大学获得了模式识别与智能系统博士学位。他的当前研究兴趣包括计算机视觉、生物识别和深度学习。他已经发表了100多篇研究论文,并曾担任AAAI和IJCAI的项目委员会成员,以及ACM MM、ICCV、CVPR等会议的审稿人。