DHS-ViG：一种动态分层选择性图模型，用于实现全面且鲁棒的特征感知

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月09日 来源：Neurocomputing 6.5

编辑推荐：

　　动态分层选择视觉图卷积网络通过自适应邻居连接和低层语义适配器提升多尺度特征融合能力，在ImageNet上达到79.2%准确率。

陈超杰|吴星才|肖园园|于佩佳|王琦

中国贵州大学计算机科学与技术学院，公共大数据国家重点实验室，贵阳，550025

摘要

视觉图神经网络（ViGs）通过图建模已被证明能够有效捕捉视觉数据的复杂关系和结构信息。然而，当前的ViGs通常依赖于每个阶段固定数量的邻居交互，这限制了它们学习不同大小视觉特征的能力。此外，随着网络深度的增加，较低层次的视觉语义信息往往会聚合并可能被丢弃，导致对较高层次特征的表示不够全面。为了解决这些问题，我们提出了一种动态分层选择性视觉图卷积网络（DHS-ViG），该网络增强了低层次语义特征的表示。我们的方法包括一个分层选择性图（HSG）模块，该模块通过构建分层图和动态选择性图卷积来关注重要节点，提供多种感受野并强调不同大小的关键语义特征。此外，还设计了一个中间层次语义适配器（MSA），以通过保留低层次语义信息来解决更深层次的信息丢失问题。在各种任务上的广泛分析和实验验证了我们方法的有效性，DHS-ViG-Ti在ImageNet上的top-1准确率达到了79.2%，比Pyramid ViG-Ti高出1%。这一性能凸显了DHS-ViG在增强低层次语义信息学习中的关键作用，这对于视觉任务至关重要。我们的代码可在以下链接获取：https://github.com/GZU-SAMLab/DHS-ViG

引言

随着深度学习的快速发展，计算机视觉任务取得了显著成就。卷积神经网络（CNNs）[1]由于其固有的优势，在通用计算机视觉任务中占据主导地位。近年来，视觉变换器（ViTs）[2]也通过自注意力机制捕获图像的全局信息而取得了显著成功。然而，CNNs和ViTs都以固定方式处理输入图像，这限制了它们在图像表示方面的能力。相比之下，图神经网络（GNNs）[3]在探索图像内部的语义信息关系方面具有优势，从而推动了基础视觉任务的进步。

传统上，GNNs主要应用于场景图生成[4]、情感识别[5]和行人轨迹预测[6]等领域。最近，研究人员开始探索将GNNs作为视觉模型的核心，通过图结构建模实现更灵活的图像表示。例如，韩等人[7]引入了视觉图神经网络（ViG），该网络通过将图像划分为节点并在这些节点之间建立连接来构建图，从而实现灵活的图像表示。韩等人[8]使用超图结构来获得更灵活的图结构，从而消除了节点对的唯一连接限制并增强了表示能力。然而，现有的基于GNN的视觉模型[7]、[8]、[9]、[10]、[11]主要侧重于设计更有效的图结构，同时仍然依赖于固定数量的邻居节点进行消息传递。这种固定的邻域大小无法适应视觉模式固有的多样化空间尺度，使得难以准确覆盖不同大小的特征区域。结果，在大的感受野中可能会错过重要线索，而在小的感受野中可能会引入冗余或噪声信息。这些限制限制了模型在同一阶段捕捉异构视觉特征的能力，最终限制了其表示能力。

先进的视觉模型通常通过调整卷积核大小[12]或改进注意力机制[13]来处理多样化的视觉语义信息。受这些方法的启发，我们认识到处理低层次（例如纹理和形状）语义信息的能力对于提高模型性能至关重要。然而，直接使用自注意力机制和卷积神经网络提取视觉特征存在一些缺点（图1(a–b)），例如图像细节的丢失以及无法关注关键区域。同时，如前所述，当前的视觉图神经网络（ViGs）通常通过识别中心节点周围固定数量（

）的最近邻居来构建图（例如，

=9），这限制了捕获特征的多样性和准确性（图1(c)）。如图1(d)所示，使用不同

构建的分层图可以捕捉不同感受野中的各种视觉语义特征。通过选择这些图中的关键视觉语义信息，可以有效地捕获关键语义信息，促进图像的学习。此外，随着网络深度的增加，早期阶段获得的低层次语义信息可能会丢失，阻碍模型在后续阶段的学习和理解。因此，关注多样化的低层次视觉特征的捕获和保留对于视觉模型的学习和理解能力至关重要。

在本文中，我们提出了一种动态分层选择性视觉图卷积网络（DHS-ViG），以增强低层次语义特征的表示。具体来说，我们设计了一个分层选择性图（HSG）模块来解决之前ViGs中视觉感知有限的缺点。与现有方法[7]、[8]、[9]、[11]不同，该模块由具有不同数量邻居节点的分层图组成，允许各种感受野。为了实现动态选择机制，我们在HSG模块中设计了动态选择性图卷积，动态地加权节点的重要性，提取各种显著的语义特征。借助HSG模块，DHS-ViG可以更准确地捕捉不同尺度的特征，促进模型在后续阶段的学习。此外，我们设计了一个中间层次语义适配器（MSA）来生成包含低层次和高层次语义信息的中间特征，从而在后续阶段学习高层次特征，保留更多的低层次语义信息。我们在图像分类、对象检测和实例分割任务上进行了广泛分析和实验，验证了所提出方法的有效性，取得了显著的性能。我们的贡献总结如下：•

我们提出了一种动态分层选择性视觉图卷积网络（DHS-ViG），以增强视觉语义表示，为计算机视觉任务提供了一个强大的模型。

•

我们设计了一个HSG模块，以灵活地获取不同尺度上的关键低层次语义特征，并设计了一个MSA来补充高层次特征学习所需的关键低层次语义。

•

为了证明DHS-ViG作为视觉模型的有效性，我们进行了大量分析和实验，取得了令人印象深刻的性能。

章节片段

用于视觉的CNNs和变换器

卷积神经网络（CNNs）在图像分类[14]、对象检测[15]和语义分割[16]等计算机视觉任务中取得了显著成功。它们的变体专注于优化网络架构和卷积操作。例如，DO-Conv[1]通过将额外的深度卷积折叠为标准卷积来提高CNN性能，而不增加推理复杂性。RIC-C[17]设计了无需额外参数的旋转不变CNNs，

初步

图神经网络（GNNs）特别擅长捕捉局部和全局上下文信息，这使它们能够揭示图像中的复杂语义关系。给定一个输入图像

，我们首先将其划分为大小为

的补丁，得到

。然后

被投影为一组特征向量

，其中

表示补丁的数量，每个

表示特征维度。这些特征向量被视为图中的节点，表示为

。连接

数据集

对于图像分类任务，我们采用了ImageNet ILSVRC 2012数据集[35]，其中包含1000个类别、120万张训练图像和5万张验证图像。对于对象检测和实例分割任务，我们使用了COCO 2017数据集[36]，其中包含80个对象类别、11.8万张训练图像和5000张验证图像。

实验设置

在DHS-ViG的所有提取器中，我们在图卷积中使用了膨胀聚合，将

层的膨胀率设置为

。同样

结论

在这项工作中，我们提出了动态分层选择性视觉图卷积网络（DHS-ViG），该网络通过集成到低层次语义提取器中的HSG模块来增强特征表示。具体来说，HSG模块使用分层图和动态选择性图卷积来控制中心节点的邻居节点数量，并动态突出每个图中的语义丰富节点。此外，还设计了一个MSA模块来保留足够的低层次

CRediT作者贡献声明

陈超杰：写作——审阅与编辑，撰写——原始草稿，可视化，验证，方法论，概念化。吴星才：写作——审阅与编辑，方法论，概念化。肖园园：监督，项目管理，概念化，方法论，写作——审阅与编辑。于佩佳：监督，项目管理。王琦：写作——审阅与编辑，监督，项目管理，资金获取。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

王琦报告称获得了国家自然科学基金的支持。王琦报告称获得了贵州省科技厅的支持。如果有其他作者，他们声明没有已知的利益冲突或可能影响

致谢

本研究得到了国家自然科学基金（编号62506089, 62566010）、贵州省科技项目（[2024]002, CXTD [2023]027）、贵州省青年科技人才项目（[2024]317）以及公共大数据国家重点实验室基金会（编号PBD2024-0516）的支持。

陈超杰目前正在中国贵州大学公共大数据国家重点实验室攻读硕士学位。他的研究兴趣包括计算机视觉、特征表示、深度学习架构和技术以及多模态学习。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

用于视觉的CNNs和变换器

初步

数据集

实验设置

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行