具有语义感知的多视图人物图像生成技术，用于重新识别

《iLIVER》：Semantic-aware multi-view person image generation for re-identification

【字体：大中小】 时间：2026年06月07日 来源：iLIVER CS1.5

编辑推荐：

　　张家军|吴思|李欣|徐勇|王耀伟华南理工大学计算机科学与工程学院，广州，510000，广东，中国摘要合成保留特定特征的真实人物图像是提高重新识别（ReID）任务输入多样性的有效且有前景的方法。然而，现有的图像生成方法尚未充分考虑人体不同部位在不同视角下的分布变化，导致生成的图像在

张家军|吴思|李欣|徐勇|王耀伟

华南理工大学计算机科学与工程学院，广州，510000，广东，中国

摘要

合成保留特定特征的真实人物图像是提高重新识别（ReID）任务输入多样性的有效且有前景的方法。然而，现有的图像生成方法尚未充分考虑人体不同部位在不同视角下的分布变化，导致生成的图像在类别内变化不真实。为此，我们提出了一种具有语义感知能力的生成对抗框架，用于生成高保真度的多视图人物图像，该框架为人物ReID提供了区域级别的细粒度信息。所提出的框架包括一个创新的结构编码器，将3D信息和人体区域整合到输入样本中；一组具有语义感知能力的生成器，用于创建内在特征和自适应区域权重以指导渲染；以及一个双分支生成对抗模块，用于合成分割掩码作为每个区域局部细节的补充监督信息。在多个ReID数据集上的实验结果表明，与现有生成模型相比，所提出的方法生成的图像更加真实，多样性和外观一致性更高。此外，该方法显著提高了ReID方法的性能，达到了业界领先的水平。

引言

人物重新识别（ReID）是一项具有挑战性的任务，其目标是在多个不重叠的相机视角下匹配同一身份的行人图像，在城市安全、智能监控等相关领域有广泛的应用。ReID的核心挑战在于处理由于相机风格、视角、人体姿势等因素变化而产生的图像类别内差异。如图1(a)所示，不同相机拍摄的同一人物的图像存在显著差异，这提高了对识别算法的要求。为应对这些挑战，现有研究[1]、[2]、[3]、[4]、[5]专注于从单张图像中学习对身份敏感和视角不敏感的特征，以实现更具区分性的特征表示。然而，在实际监控场景中，收集足够的身份和跨视图图像既费时又往往不切实际，因为相机覆盖范围有限、存在隐私问题以及标注成本。

一种可行的方法是数据增强，通过修改或创建样本来扩大训练数据，使ReID模型能够观察到更丰富的类别内变化并提高泛化能力。有效的数据增强方法应优先考虑“真实性和多样性”：不真实的合成图像会引入有害的噪声，误导模型训练；而多样性不足则无法覆盖对鲁棒泛化至关重要的未见类别内变化。先前的方法[6]、[7]、[8]、[9]、[10]、[11]、[12]探索了使用GAN生成具有多样视角的人物图像以增强ReID学习。然而，这些方法主要遵循整体生成范式，试图将人物建模为单一的全球实体。从根本上说，人体是一个由具有独立自由度的半透明部分组成的结构[13]。因此，在视角变化时，不同身体部位表现出非均匀的拓扑和几何变化模式。试图通过单一的全球映射来模拟这些多样的局部变化本质上是不适定的，通常会导致身体部位比例失调、轮廓不准确以及局部细节的区分度降低[7]、[8]、[9]。即使考虑了局部区域的方法[10]、[11]、[12]，也未能明确建模这些独特的跨视图变换。解决这一限制对于ReID至关重要，因为区分具有相似全局外观的身份通常依赖于细粒度的局部线索，如服装标志、配饰和特定纹理。如果在视角生成过程中这些局部语义被扭曲，合成图像可能会引入有害的噪声，而不是有效的类别内变化，从而降低下游ReID的性能。

受此启发，我们引入了一种新的范式：具有语义感知能力的组合生成。为了实现这一概念，我们提出了一个基于GAN的框架，该框架明确地将人体分解为语义部分，合成高质量、多样且局部详细的多视图图像，以实现鲁棒的ReID。具体来说，我们首先为未标记的训练图像生成分割掩码以定位人体部位。对于这些语义部分，一个共享的结构编码器整合了3D网格和人体结构分割，以建立准确的空间布局，同时保持整体身体形状。同时，相应的局部生成器通过为每个语义区域自适应引入权重系数来捕获特定于区域的双视图变化模式，引导分层生成网络进行语义感知合成。我们进一步为生成器和判别器结合了双分支结构，其中生成器还生成了新视角下的分割掩码作为局部细节的补充监督信号。这些掩码使判别器能够更好地评估局部细节的合理性。结合身份编码器、重建损失和分割损失，所提出的组件共同规范了特征学习，以实现鲁棒的人物ReID。

我们在Market-1501 [14]、DukeMTMC-reID [15]和MSMT17 [16]上进行了实验，评估了生成的多视图图像的质量及其对ReID增强的有效性。广泛的结果表明，我们的模型生成了在不同视角下多样且真实的图像，并显著提高了ReID性能。

在这项工作中，我们做出了以下贡献：

•
我们提出了一种具有语义感知能力的组合生成范式，用于多视图人物图像生成。为了明确模拟非均匀的跨视图变换，我们的框架包括一个用于捕获身体部位的结构编码器、用于区域特定合成的局部生成器，以及一个用于增强局部细节的双分支判别器。
•
我们开发了一种新的生成方法，将分割掩码中的2D区域级特征与网格投影中的3D特征融合，从而能够推断出被遮挡的细节特征。
•
我们在Market-1501 [14]、DukeMTMC-reID [15]和MSMT17 [16]上取得了业界领先的性能，生成了具有更高多样性和外观一致性的真实图像，有效提高了人物ReID方法的性能。

章节片段

人物重新识别

人物重新识别（ReID）是图像检索的一个子任务。现有方法通常可以分为两类：特征匹配和度量学习。特征匹配方法利用分类网络提取带有身份标签的输入图像的区分性全局特征[17]、[18]、[19]、[20]、[21]。由于仅使用身份标签训练的模型可能缺乏对类别内变化的鲁棒性，一些研究[4]、[22]、[23]、[24]、[25]引入了额外的

方法论

我们的方法旨在生成高保真度的多视图人物图像，以增强ReID模型的训练。为了解决人体非均匀的跨视图变换问题，我们提出了一个具有语义感知能力的组合生成框架。具体来说，我们将人物图像分解为与视角无关的身份特征和与视角相关的结构特征。我们不依赖于整体映射，而是使用一组局部生成器来明确模拟这些不同的变化

数据集

我们在三个公共ReID数据集上评估了我们的方法：Market-1501 [14]、DukeMTMC-reID [15]和MSMT17 [16]。Market-1501包含来自6个相机的1501个身份的32,668张图像，分为12,936张训练图像（751个身份）和19,732张测试图像（750个身份）。DukeMTMC-reID包含8个相机，提供16,522张训练图像（702个身份）和2,228张测试图像。MSMT17是一个大规模数据集，包含来自15个相机的126,441张图像，涵盖4,101个身份。

实施细节

我们的方法是在

结论

在本文中，我们提出了一个基于GAN的具有语义感知能力的框架，用于生成高保真度、局部详细的多视图图像，以提升人物ReID的性能。具体来说，我们将人体分解为不同的语义区域，并构建了一组局部生成器来学习捕捉不同视角下外观变化的区域特定特征。此外，我们利用生成架构合成的分割掩码提供精确的语义指导

CRediT作者贡献声明

张家军：写作 – 审稿与编辑、撰写原始草稿、可视化、验证、项目管理、方法论、调查、数据管理、概念化。吴思：写作 – 审稿与编辑、撰写原始草稿、可视化、监督、方法论、调查、概念化。李欣：写作 – 审稿与编辑、撰写原始草稿、可视化、监督、方法论、资金获取、形式分析、概念化。徐勇：写作 –

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：徐勇报告获得了中国国家重点研发计划的支持。李欣报告获得了国家自然科学基金的支持。徐勇报告获得了国家自然科学基金的支持。李欣报告获得了广东省基础

致谢

本工作得到了中国国家重点研发计划（项目编号：2024YFE0105400）、国家自然科学基金（项目编号：62476148, 62472179）、广东省基础与应用基础研究基金（项目编号：2024A1515011292）以及广州市科技计划项目 - 关键研发计划（项目编号：2024B01W0007）的支持。

摘要

引言

章节片段

人物重新识别

方法论

数据集

实施细节

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行