HPRNet：一种用于图像字幕生成的、具备全局位置感知能力的残差网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：HPRNet: A Holistic Position-aware Residual Network for Image Captioning

【字体：大中小】 时间：2026年02月17日 来源：Pattern Recognition 7.6

编辑推荐：

　　针对Transformer图像标注中的定位偏差问题，提出HPRNet框架，通过三维位置编码、自适应特征融合和多级残差连接增强空间语义关联，在COCO和Flickr数据集上CIDEr提升至141.1%。

赵月峰|陶倩倩|孙鹏飞|黄金润|宋文凯|胡楠楠

山东师范大学，中国济南大学路1号，250358

摘要

由于Transformer强大的特征感知能力，图像字幕生成取得了显著进展。然而，生成的字幕仍然存在定位偏差问题，这阻碍了模型正确捕捉图像的空间关系和局部细节。为了解决这个问题，我们提出了一种新颖的全局位置感知残差网络（HPRNet），通过增强空间关系和细节来克服定位偏差。具体来说，我们提出了Swin全局位置编码（SwinHPE）模块，通过二维位置编码（TDIPE）将全局空间关系显式嵌入到图像特征中。此外，我们提出了自适应特征融合（AFF）模块，动态融合视觉/序列特征以及正/负关系以扩展关系信息。同时，引入了多级残差连接（MLRC）模块，包括编码器中的局部残差连接（LRC）和解码器中的全局跳跃连接（GSC）。LRC通过将FC残差连接到归一化层来增强局部细节信息。GSC固定二维位置编码并将其映射到解码器的跨模态注意力中，进一步增强了位置信息在语言生成中的指导作用。在MS COCO和Flickr8/30k数据集上的广泛实验表明，所提出的HPRNet性能优于现有最先进模型，获得了最佳的CIDEr分数141.1%。

引言

图像字幕生成旨在为给定的图像生成流畅、语法准确且语义连贯的文本描述。这是一个跨模态研究任务，整合了计算机视觉（CV）和自然语言处理（NLP）[1]，不仅需要精确识别图像中的对象，还需要深入理解场景组成、对象属性及其相互关系。它为多模态理解领域提供了技术支持[2]，强调了空间关系和局部细节在图像描述中的重要性。

利用深度学习技术，CNN-LSTM架构成为图像字幕生成的主流方法。为了提高视觉和文本之间的对齐性，还引入了注意力机制和图神经网络，但它们在建模长距离依赖关系方面仍然有限。为了解决环境效应引起的感知挑战，最近的方法如视觉-文本信息融合[3]和Aqua-Sketch[4]通过多模态机制改善了对水下场景的理解和描述。杨等人通过利用辅助语言[5]提高了遥感图像字幕的准确性。这些进步扩展了图像字幕生成的应用领域，同时也揭示了在不同场景中建模空间-语义关系的共同挑战。近年来，Transformer架构由于其强大的长距离建模能力而取得了突破性进展。其中，Swin Transformer[6]通过分层注意力在视觉任务中表现出显著的效果。

我们发现，在图像字幕生成任务中，无论使用哪种自然语言模型，将2D图像特征扁平化为1D序列以适应解码器都会不可避免地丢失空间位置信息。这使得解码器难以准确建模图像区域之间的关系，影响描述的语义完整性和空间表达的准确性。现有的位置编码方法主要是为了一维序列设计的[7]，难以适应二维视觉数据的特性。如图1所示，绝对位置编码（a）[8]在缩放视觉特征维度时表现不佳，而相对位置编码（b）[9]需要对Transformer进行结构修改，增加了模型复杂性。因此，当前基于Transformer的方法在图像字幕生成领域仍然存在持续的定位偏差问题。此外，特征独立性的限制仍然存在，因为主流方法将位置特征视为孤立实体，忽略了特征之间的内在空间相关性和动态交互模式。这种方法阻碍了模型在解释复杂场景时建立跨区域的空间-语义关联，从而降低了生成描述的几何准确性。

为了解决这些问题，我们提出了全局位置感知残差网络（HPRNet）用于图像字幕生成。该网络通过设计Swin全局位置编码（SwinHPE）模块、自适应特征融合（AFF）模块和多级残差连接（MLRC）模块来减轻定位偏差。具体来说，SwinHPE使用二维位置编码显式嵌入全局空间信息，并用扩展机制替换了传统的注意力机制以克服序列长度限制。此外，我们设计了自适应特征融合（AFF）模块来动态捕获扩展特征的不同关系模式。同时，MLRC模块通过局部残差和全局跳跃连接增强局部细节的建模，减轻了扩展过程中引入的定位偏差。此外，前馈网络使用GELU激活函数，提高了模型的收敛速度和特征表示能力。

我们的主要贡献总结如下：

1) 我们提出了一种新颖的全局位置感知残差网络（HPRNet），通过增强空间关系和局部细节来减轻图像字幕生成中的定位偏差。

2) 我们提出了Swin全局位置编码（SwinHPE）和自适应特征融合模块（AFF）。前者将全局空间关系显式嵌入到图像特征中，以提高模型对空间结构的理解；后者动态融合视觉/序列特征以及正/负关系，以增强语义整合和特征表示。

3) 我们引入了由局部残差连接（LRC）和全局跳跃连接（GSC）组成的多级残差连接（MLRC）模块。LRC在编码器中增强局部特征建模，以减轻局部定位偏差；GSC补偿解码器中静态扩展导致的全局空间特征损失，确保更好的全局空间一致性。

4) 在MS COCO和Flickr8k/30k数据集上的广泛实验表明，HPRNet持续优于其他方法，获得了最佳的CIDEr分数141.1%，验证了其有效性和卓越的性能。

本文的其余部分组织如下：第2节回顾相关工作。第3节详细介绍了所提出的HPRNet。第4节展示了在基准数据集MS COCO、Flickr8k和Flickr30k上的实验结果。最后，我们在第5节总结了这项工作。

章节片段

提出方法

在本节中，我们详细描述了所提出的全局位置感知残差网络（HPRNet），如图2所示。

实验评估

在本节中，我们介绍了实验中使用的数据集、评估指标和实现细节，并从定量和可视化的角度分析了所提出的HPRNet的结果。

结论

在本文中，我们提出了一种新颖的图像字幕生成框架——HPRNet（全局位置感知残差网络），旨在解决基于Transformer的图像字幕模型中的定位偏差问题。通过集成Swin全局位置编码（SwinHPE）、自适应特征融合（AFF）和多级残差连接（MLRC）模块，HPRNet可以有效嵌入全局空间先验，增强局部细节表示，并实现细粒度的语义对齐

未引用的引用

缺少引用表5

CRediT作者贡献声明

赵月峰：撰写 – 审稿与编辑。陶倩倩：撰写 – 原稿，可视化。孙鹏飞：验证。黄金润：数据整理。宋文凯：指导。胡楠楠：撰写 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本项工作得到了山东省自然科学基金（资助编号ZR2024QF060）和中国自然科学基金（资助编号62376034）的支持。

赵月峰（IEEE会员）于2007年获得中国科学院合肥物理科学研究院（安徽光学机械研究所）博士学位。2013年在美国弗吉尼亚州汉普顿的大气物理系进行了激光雷达检测方面的合作研究。他是物理与电子学教授，同时也是山东师范大学学术事务办公室主任。他的主要研究兴趣是激光雷达与检测、自然语言处理（NLP）。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号