用于自然语言处理的图像字幕系统，采用优化的注意力增强残差卷积神经网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Image Captioning System for Natural Language Processing using Optimized Attention-Augmented Residual Convolutional Neural Network

【字体：大中小】 时间：2026年01月09日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　图像描述生成研究提出AARCNN-ODIP-NLP模型，采用NCGCF预处理消除噪声，FA-ResNet提取深度视觉特征，结合AARCNN解码器与VPPSOA算法优化参数。实验表明该方法在BLEU-1至CIDEr等指标上较现有模型提升12%-30%，同时降低20%-22.8%计算时间。

阿努莎·P女士 | 保罗拉杰·D博士

电子与通信工程系，R.M.K.工程学院（自治），卡瓦拉伊佩泰，蒂鲁瓦卢尔，泰米尔纳德邦，印度

摘要

图像字幕模型在结合计算机视觉（CV）和自然语言处理（NLP）方面发挥着关键作用，它们能够从输入图像自动生成描述性的文本摘要。现有的方法在准确捕捉复杂图像细节、处理歧义以及生成上下文相关且连贯的描述方面存在困难。本文提出了一种利用优化注意力增强残差卷积神经网络（AARCNN-ODIP-NLP）的自然语言处理图像字幕系统。该系统使用MS COCO数据集作为输入图像来源。随后，通过神经因果图协作过滤（NCGCF）对输入图像进行预处理，以消除噪声并提高图像质量。所提出的系统采用端到端架构，其中特征仿射残差网络（FA-ResNet）作为编码器，从预处理后的图像中提取深度特征描述符。在解码阶段，使用注意力增强残差卷积神经网络（AARCNN）生成准确且具有上下文意识的文本描述。为了进一步提高解码器的性能，采用了速度暂停粒子群优化算法（VPPSOA）来微调AARCNN的参数。评估指标包括BLEU-1（双语评估替代指标-1）、BLEU-2、BLEU-3、BLEU-4、METEOR、CIDEr、准确率、召回率和计算时间。AARCNN-ODIP-NLP技术是用Python实现的。与现有模型（照明搜索方法、CNN驱动的图像字幕方案CNN-ICS-NLP以及利用图像处理的NLP RNN-ICG-NLP）相比，该方法在准确率上分别提高了26.36%、20.69%、30.29%，在召回率上提高了19.12%、28.32%、27.84%，在BLEU-1指标上提高了12.04%、13.45%、22.80%，在计算时间上减少了20.47%、16.34%、20.50%。

引言

计算机视觉领域中图像字幕的主要目标是生成对图像中描绘的任何场景的自然且准确的文本描述[1]。近年来，许多图像被数字化保存，并成为互联网上的重要信息来源[2]。计算机视觉（CV）技术使计算机能够理解视觉世界，从而带来了许多令人兴奋的应用，包括信息检索、人机交互、对视障人士的支持以及儿童教育[3,4]。图像字幕是NLP和CV中的一个通用过程，它实现了从图像到文本的多模态转换[5]。图像字幕的目标是生成在语义上与图像内容相符的、语言上合理的句子[6,7]。因此，图像的描述可以包含两个方面：语言处理和视觉理解[8]。NLP和CV技术可以适当结合使用，以解决由不同模态带来的问题，确保生成的句子在语法和语义上都是正确的[9,10]。传统的方法通常依赖模板生成和对象检测来根据输入图像生成字幕[11]。从图像到文本的多模态转换可以通过漫长的图像字幕过程完成[12]。例如，自动创建视觉表示是一个重要且具有挑战性的人工智能领域[13]。图像的自动注释是图像检索和计算机视觉中的一个主要任务，用于找到图像中的重要单词或短语。由于这些注释在语义上非常丰富，因此注释文本与视觉内容之间的映射越一致越好[14]。在这种情况下，依赖人工智能的方法利用预训练的模式来理解语义数据和低级数据之间的映射，然后为特定图像生成注释[[15], [16], [17]]。模式识别方案的结构在此过程中发挥了重要作用，例如基于内容的图像检索[[18], [19], [20]]。随着模糊逻辑作为一种从先前获得的信息中映射标签的技术而流行起来，其集成受到了更多关注[[21], [22], [23]]。由于新方法与神经结构的结合使用，视觉注意力成为一种非常有前景的替代方案，它允许神经网络模仿人类对图像中最相关区域的关注[24]。

现有的图像字幕方法受到对人类注释的严重依赖，这些注释存在主观性和不一致性的问题，尤其是对于视觉上复杂的图像。此外，这些模型还常常受到数据管理流程效率低下的影响，如超参数设置不当和数据集不平衡，这会对模型训练产生负面影响。它们无法支持实时和多模态处理，从而降低了其在实际应用中的部署能力。这些限制影响了模型的描述质量和可扩展性，最终降低了其在多样化和动态环境中的可靠性。这些限制促使人们结合创新的图像处理技术和深度学习模型来提高诊断准确性，实现早期生成。

所提出的AARCNN-ODIP-NLP模型将AARCNN（包含空间和通道级别的注意力机制）嵌入到残差学习框架中。AARCNN架构使模型能够高效地提取和匹配复杂的视觉特征与自然语言形式，从而显著提高描述精度。通过引入VPPSOA，可以自适应地调整解码器参数，实现高效的收敛和稳定性。总体而言，这些改进使得该平台成为适用于实时自然语言处理任务的可扩展、优化且可解释的图像字幕平台。

本文的主要贡献包括：

•

提出了一种利用优化注意力增强残差卷积神经网络（AARCNN-ODIP-NLP）的自然语言处理图像字幕系统。

•

使用NCGCF去除输入图像中的噪声并提高图像质量，然后采用FA-ResNet作为编码器、AARCNN作为解码器的端到端方法。

•

FA-ResNet模型用于提取图像的视觉特征，AARCNN在解码阶段用于生成文本描述。

•

将AARCNN-ODIP-NLP的有效性与其他现有模型进行了比较。

本文的其余部分安排如下：第2节介绍文献综述，第3节描述材料和程序，第4节展示结果和讨论，第5节给出结论。

章节片段

文献综述

文献中提出了许多关于利用深度学习（DL）进行NLP图像字幕的方案；其中一些在本文中进行了回顾：

Alnashwan等人[25]提出了基于CNN驱动的图像字幕方案（LSAHCNN-ICS）的照明搜索方法。LSAHCNN-ICS使用HCNN作为解码器，ShuffleNet作为编码器，基于卷积神经网络构建了一个端到端模型。ShuffleNet方法在编码阶段生成图像特征描述符，而混合CNN可以生成

提出的方法论

在本节中描述了AARCNN-ODIP-NLP。输入图像来自MS COCO数据集。下面给出了AARCNN-ODIP-NLP的详细说明。AARCNN-ODIP-NLP的框图如图1所示。

图1展示了AARCNN-ODIP-NLP框架的框图。它从MS COCO数据集的图像输入开始，通过NCGCF进行预处理以消除噪声并提高结构清晰度。这些经过预处理的图像

结果与讨论

本节讨论了AARCNN-ODIP-NLP方法的实验结果。AARCNN-ODIP-NLP方法在Python环境下使用PC、Intel Core i5（3.6.5 GHz CPU）、GeForce 1050Ti（4GB）、16GB RAM、250GB SSD、1TB HDD和Windows 7系统进行测试，并使用了上述评估指标。将AARCNN-ODIP-NLP的结果与现有的CNN-ICS-NLP[21]、DNN-AIC-NLP[22]和RNN-ICG-NLP[23]模型进行了比较。

图5展示了

结论

在本研究中，成功实现了所提出的AARCNN-ODIP-NLP技术。该方法是用Python实现的，由两个主要组件组成：FA-ResNet编码器和AARCNN解码器。FA-ResNet在编码阶段从图像中提取特征描述符，而AARCNN在解码阶段生成相应的文本描述。实验结果表明，AARCNN比现有模型具有更高的性能提升

作者贡献

阿努莎·P女士 -（通讯作者）- 概念化方法论，原始草案准备

保罗拉杰·D博士 - 监督

CRediT作者贡献声明

阿努莎·P女士：撰写——原始草案。 保罗拉杰·D博士：监督。

利益冲突声明

作者声明他们没有已知的利益冲突或个人关系可能会影响本文所述的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号