多语言视觉-语言学习的基准测试：以遥感图像标注为例

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning

【字体：大中小】 时间：2026年03月05日 来源：Pattern Recognition 7.6

编辑推荐：

　　本文构建了首个中英双语遥感图像描述数据集BRSIC，包含13,634张图像及68,170对平行中英文描述，并建立系统评估框架。通过对比8种大视觉语言模型在零样本推理、监督微调及多语言训练下的表现，发现多语言训练能有效平衡性能且无需特定语言微调，而零样本能力显著受限。此外验证了跨数据集迁移中传统模型优于大模型的稳定性，为多语言遥感视觉对话研究提供基准。

王琦|周青|杨涛|高俊宇|倪卫平|吴俊正

西北工业大学人工智能、光学与电子学院（iOPEN），中国西安710072

摘要

遥感图像标注（RSIC）是一个跨模态领域，旨在自动生成遥感图像中特征和场景的自然语言描述。尽管在开发复杂方法和大规模数据集以训练视觉-语言模型（VLMs）方面取得了显著进展，但仍存在两个关键挑战：非英语描述数据集的稀缺性以及模型多语言能力评估的缺乏。这些限制从根本上阻碍了RSIC的进展和实际应用，尤其是在大型VLMs的时代。为了解决这些问题，本文对该领域做出了几项重要贡献。首先，我们介绍了BRSIC（双语遥感图像标注），这是一个包含中文描述的综合双语数据集，它扩展了三个现有的英语RSIC数据集，涵盖了13,634张图像和68,170条双语标注。在此基础上，我们开发了一个系统的评估框架，解决了评估协议中普遍存在的不一致性问题，通过标准化的重新训练程序对模型性能进行了严格评估。此外，我们对八个最先进的大型视觉-语言模型（LVLMs）进行了广泛的实证研究，考察了它们在零样本推理、监督微调和多语言训练等多种范式下的能力。这一全面的评估为当前LVLMs在处理多语言遥感任务时的优势和局限性提供了重要见解。另外，我们的跨数据集迁移实验也揭示了一些有趣的结果。虽然传统模型在视觉相似的数据集之间迁移时表现更好，但LVLMs在不同数据集规模和语言之间表现出更强大的平衡能力。这些发现为推进多语言RSIC研究提供了有用的见解。代码和数据将可在以下链接获取：https://github.com/mrazhou/BRSIC

引言

遥感图像标注（RSIC）的目标是用人类可理解的自然语言描述遥感图像中的视觉信息（例如，物体状态、数量、位置分布和场景属性），这是一个视觉-语言多模态任务。基于这些生成的文本描述，非专家可以更容易地理解遥感图像，并为灾害监测和农业管理提供有用的参考[1]、[2]、[3]、[4]、[5]。为了实现更好的RSIC性能，不断提出和构建了先进的模型和大规模高质量的数据集。在方法方面，基于序列生成的深度学习方法已经从以局部建模为导向的CNNs和LSTMs[6]、[7]、[8]发展到以远距离建模为导向的Transformers和Attention[9]、[10]、[11]、[12]、[13]、[14]，以及最新的Mamba架构[15]、[16]，后者具有线性复杂度，适用于远距离建模。特别是，由于大型语言模型（LLMs）[17]、[18]、[19]、大型视觉-语言模型（LVLMs）[20]、[21]、[22]、[23]具有出色的综合能力和零样本泛化能力，它们也发展迅速，并被应用于图像标注。在数据集方面，两个小规模的数据集UCM和Sydney[8]分别包含21个场景类别和2,100张图像，以及7个场景类别和613张图像。后来发布了RSICD[24]，包含30个场景类别和10,921张图像，最近发布了NWPU-Captions[25]，包含31,500张图像，涵盖45个类别。Li等人[26]发现UCM、Sydney和RSICD存在许多拼写和语法错误，并对其进行了修正。总体而言，数据集正在朝着更大规模、更多场景和更高质量的方向发展。

然而，有两个关键问题被忽视了：数据集的语言多样性和模型的多语言适应性。首先，数据集的语言多样性对视觉-语言学习至关重要。最初基于英语注释的自然图像标注已经扩展到包括中文、日语和其他语言的版本，促进了多语言标注模型的显著进步[27]、[28]。这一演变推动了复杂的多语言视觉-语言大型模型的发展。尽管多语言性在自然图像领域的重要性已得到充分认可，但现有的RSIC数据集仍然以英语为中心，造成了多语言能力的巨大差距。

其次，多语言适应性表示模型在不同语言数据集上的性能，无论模型架构是否与语言无关。虽然自然图像领域已经证明多语言数据整合和架构创新可以产生具有强大多语言性能的模型[27]、[29]，但这一能力在遥感背景下仍很大程度上未被探索。尽管当前模型在基于英语的任务中表现出色，但它们在不同语言边界上的有效性仍不确定。缺乏多语言注释以及不一致的评估协议造成了重大的方法论挑战。一个显著的例子是RSICD数据集的修改，研究人员[26]实施了句子校正和验证集与测试集的交换，导致不同研究之间的性能指标不可比较。这种不一致性破坏了系统评估，并阻碍了多语言解决方案的发展。目前将高性能的英语模型迁移到其他语言的做法虽然直观吸引人，但缺乏实证验证。

为了解决第一个问题语言多样性，我们基于三个广泛使用的英语注释RSIC数据集UCM、Sydney和RSICD构建了一个中文数据集RSICN。与它们原始的英语对应数据集一起，它们构成了BRSIC数据集，总共包含13,634张图像和68,170条双语标注句子。RSICN数据集的构建涉及利用机器翻译生成初始中文描述，然后进行手动校正以消除翻译错误，确保数据质量的同时显著减少了手动注释所需的时间和精力。随后，我们对英语和中文数据集在数据分布、词频分布、词汇量、物体分布和词性分布方面进行了全面的比较分析。结果揭示了几个关键见解：1) RSICD数据集的训练、验证和测试分割之间的文本特征分布不均。当Li等人[26]交换测试集和验证集时，这导致了评估指标的改善。然而，后续研究没有指定是否进行了这样的交换，导致评估结果不一致，方法之间缺乏可比性。2) 英文和中文数据集之间的词汇量和词频差异导致了性能差异。具体来说，中文词汇量显著更大，每个单词的出现频率较低，这引入了更大的建模复杂性，导致中文的标注性能低于英文。

为了解决第二个问题多语言适应性，我们设计了一个全面的评估框架，解决了方法论不一致性和多语言挑战。我们首先通过在相同的条件下重新训练代表性的RSIC模型，在英语、修改后的英语和中文版本的BRSIC上建立了受控测试平台。这种标准化的评估消除了以前研究中由于数据集配置不一致造成的歧义。此外，我们通过三种评估设置对当前的LVLMs进行了首次全面评估：零样本推理以评估其固有的多语言能力，监督微调以探索其适应潜力，以及多语言训练以提高其多语言性能。此外，我们进行了跨数据集迁移以考察它们在不同遥感场景下的泛化能力。如图1所示，我们的广泛实验表明，监督微调在所有数据集上的一致性优于其他方法，特别是在英文标注方面表现强劲。然而，零样本推理的性能明显较低，揭示了多语言泛化能力的显著限制。值得注意的是，多语言训练作为一种有前景的中间方法出现，在不同语言之间保持了一致的性能水平，而无需特定语言的微调。这些发现强调，尽管现有的LVLMs在自然图像任务中取得了成功，但在有效处理多语言遥感场景方面仍面临相当大的挑战，特别是在零样本设置中。

贡献可以总结如下：

•

数据集构建：我们开发了RSICN，这是一个全面的中文注释数据集，补充了三个广泛采用的英语RSIC数据集。由此产生的BRSIC数据集包含两种语言的并行注释，为多语言RSIC研究提供了必要的资源。据我们所知，这是第一个同时包含英语和中文并行注释的RSIC数据集。

•

基准建立：我们通过系统地重新训练和评估现有的RSIC方法，在统一条件下创建了一个标准化的评估框架。该框架解决了以往研究中评估协议不一致的普遍问题，使得跨语言设置的性能比较成为可能。

•

LVLMs评估：我们在BRSIC数据集上进行了广泛的实验，通过零样本推理、监督微调和多语言训练评估了8个最先进的LVLMs的性能。此外，我们还在跨数据集迁移设置下将这些模型与传统方法进行了比较，以分析它们的泛化能力。

章节片段

多语言自然图像标注

多语言图像标注已成为计算机视觉和自然语言处理中的一个重要研究方向。早期的工作主要集中在以英语为中心的数据集和模型[30]，后续的工作通过各种方法扩展到了多种语言。这一演变反映了对于能够服务于多样化语言社区的包容性AI系统的日益增长的需求。多语言数据集的开发对这一领域至关重要。

数据集注释

BRSIC数据集的构建涉及为三个广泛使用的英语RSIC数据集UCM-Captions[8]、Sydney-Captions[8]和RSICD[24]生成中文描述。由此产生的双语数据集包含13,634张图像和68,170条中文和英文的标注，为多语言RSIC研究提供了全面的资源。

评估设置

本研究建立了一个全面的评估框架，用于评估视觉-语言模型在遥感图像标注中的多语言适应性。评估指标包括BLEU@1-4[50]、METEOR[51]、ROUGE-L[52]和CIDEr[53]，这些指标共同衡量了生成标注的流畅性和语义准确性。具体来说，对于中文标注的评估，我们使用了Stanford CoreNLP分割工具对生成的句子和真实标签进行了分词

结论

本文介绍了BRSIC，这是第一个用于遥感图像标注的双语基准，以及对传统视觉-语言模型和跨语言的大型视觉-语言模型的全面评估。BRSIC的构建和分析包括13,634张图像和68,170对英文-中文平行标注对，涵盖了三个广泛使用的RSIC数据集，揭示了多语言RSIC挑战的重要见解。我们的系统评估框架解决了关键问题

CRediT作者贡献声明

王琦：写作 – 审稿与编辑、监督、资源整理。周青：写作 – 原始草稿、验证、方法论、形式分析、数据管理、概念化。杨涛：可视化、验证、方法论、数据管理。高俊宇：写作 – 审稿与编辑、验证、监督、资源整理。倪卫平：监督、资源整理、数据管理、概念化。吴俊正：验证、监督、资源整理、形式分析、数据管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

致谢

在准备这项工作时，作者使用了ChatGPT来提高文章的可读性。使用该工具后，作者根据需要审查和编辑了内容，并对出版物的内容负全责。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号