CoSTAA YOLO：结合注意力机制和锚框优化的卷积Swin Transformer，在YOLOv7框架下实现鲁棒的行人检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：CoSTAA YOLO: Convolutional Swin Transformer with Attention and Anchor box Optimization on YOLOv7 for robust pedestrian detection

【字体：大中小】 时间：2026年02月27日 来源：Image and Vision Computing 4.2

编辑推荐：

　　行人检测面临遮挡、拥挤及多尺度挑战，现有YOLO、DETR等模型在复杂场景下性能不足。本文构建Enriched CamPed数据集，提出CoSTAA模型，融合卷积Swin Transformer、通道-空间注意力机制及IoU锚框优化，显著提升行人检测精度与鲁棒性，在CrowdHuman、PennFudan等数据集上验证优于基线方法。

Sukesh Babu V.S. | Rahul Raman

印度坎切普拉姆的IIITDM

摘要

行人检测是计算机视觉任务中一个复杂而重要的挑战，与行人安全、交通管理、自动驾驶、人群处理等领域密切相关。传统的目标检测算法（如YOLO、SSD和DETR）在许多通用场景中实现了实时且准确的行人检测。然而，为了自动化交通信号灯、ADAS系统等关键系统，行人检测算法的鲁棒性至关重要。在我们的研究中，我们发现了一些场景下，现有的预训练目标检测算法表现不佳，例如在小规模或被遮挡的行人、拥挤环境中的检测、多尺度行人以及区分行人与类似行人的物体时。这是因为现有训练数据集的多样性不足。为了解决这些问题，我们开发了一个名为Enriched CamPed的专用行人数据集，其中包含了实时行人检测可能遇到的各种场景。然后，我们提出了一种名为CoSTAA的鲁棒行人检测算法，该算法结合了卷积Swin变换器、注意力机制和锚框优化。该算法对YOLOv7进行了改进，加入了复杂的卷积Swin变换器、通道空间注意力模块（CSMA）和基于IoU的锚框选择优化。这种方法显著提升了模型在复杂环境（尤其是存在遮挡、人群或非行人物体的场景）中准确检测行人的能力。所提出的模型在CrowdHuman、PennFudan和Enriched CamPed数据集上进行了训练和评估，结果证明我们的模型性能优于现有的最先进模型，在实际行人检测挑战中表现出色。

引言

目标检测[1][2][3][4]是计算机视觉中的关键任务，其目标是在图像中识别和定位物体。它在各种应用中发挥着重要作用[5][6][7][8][9][10][11][12][13][14][15]，从自动驾驶到监控，检测特定物体（如行人、车辆或障碍物）对于确保安全和功能至关重要。特别是行人检测[16][17][18][19][20][21][22]，由于其广泛的应用范围（包括交通管理、智慧城市、自动驾驶和安全系统），已成为一个重要的研究领域。可靠的行人检测系统对于减少事故、提高公共安全和实现智能交通解决方案至关重要。行人检测面临多种挑战，包括恶劣天气、视频采集困难、遮挡以及拥挤环境中存在多尺度或类似行人的物体。大多数目标检测模型（如YOLO[23]、DETR[24]和RT-DETR[25]）都是在通用数据集（如MSCOCO[26]和PASCAL VOC[27]）上训练的，这可能导致在专门用于行人检测时出现过拟合和性能不佳的情况。使用预训练模型进行行人检测时也会出现失败案例，例如未检测到行人、边界框不准确、错误检测行人以及无法区分类似行人的物体。这些问题源于现有训练数据集的局限性，它们通常无法捕捉到室内与室外环境、光照变化以及行人不同规模等多样化条件。为了解决这些不足，我们开发了Enriched CamPed数据集，旨在反映实时行人检测中可能出现的各种场景。

传统的目标检测模型依赖于卷积神经网络（CNNs）[29]，通过预定义的锚框和从图像像素中提取的特征来检测和分类物体。然而，准确检测行人（行人的姿态和大小经常变化且容易受到遮挡）带来了独特的挑战，需要更复杂的方法。在这方面，先进的深度学习架构（尤其是变换器）通过建模图像中的长距离依赖性和上下文证明了其有效性。

变换器[30]通过解决CNN的局限性，在计算机视觉领域产生了重大影响。它们能够捕捉图像中的全局关系，并更好地理解CNN可能忽略的复杂模式。Swin变换器（Shifted Window Transformers）[31]作为原始变换器架构的变体，通过结合分层特征表示和计算效率进一步增强了目标检测能力。通过在不重叠的窗口中处理图像并移动窗口位置，Swin变换器有效地平衡了全局注意力和局部特征提取，使其特别适合密集检测任务（如行人检测）。在此基础上，卷积Swin变换器（CST）结合了卷积层和Swin变换器的优势。通过将卷积操作与变换器的注意力机制相结合，这种混合模型利用了CNN强大的局部特征提取能力和Swin变换器的全局上下文理解能力。这种方法对于行人检测特别有益，因为它使模型能够在复杂的城市环境中捕捉到细节，同时保持鲁棒检测所需的整体上下文。

为了实现鲁棒的行人检测，需要一个在专用行人数据集上训练的模型。在这项工作中，我们提出了CoSTAA模型（结合了注意力机制和锚框优化的卷积Swin变换器），探索了将锚框优化与CST结合以提高行人检测准确性的潜力。我们的方法利用基于IoU的聚类进行锚框选择，确保检测模型更符合真实世界中行人的大小和形状。此外，通过将CoSTA模块（结合了注意力的卷积Swin变换器）集成到YOLOv7[32]框架中，我们旨在增强局部和全局特征表示，从而在遮挡、不同规模和复杂背景等具有挑战性的条件下提高行人检测能力。

本工作的主要贡献包括：

•
一种改进的YOLOv7架构CoSTAA，用于鲁棒的行人检测。
•
使用IoU聚类和基于肘部的K值选择进行锚框优化。
•
全面的消融研究和跨数据集评估。
•
在各种具有挑战性的场景中提高了模型的定性鲁棒性。

所提出的工作扩展了在[28]中提出的研究，该研究专注于创建Enriched CamPed数据集并对在其上训练的现有目标检测模型进行基准测试。这项初步工作主要关注数据集的创建和标准检测模型的评估。在当前的工作中，我们引入了一种名为CoSTAA的新检测架构。该架构利用了卷积Swin变换器，结合了显式的注意力机制，并在YOLOv7框架内使用了锚框优化。我们进行了逐个组件的消融研究、模型复杂性分析、跨数据集基准测试和失败案例分析。这些改进显著增强了我们研究的方法论和实验贡献。

提出的工作

所提出的CoSTAA模型通过集成CoSTA模块有效解决了这些问题，该模块具有显式的注意力机制，能够选择性地突出相关特征，同时最小化无关特征的影响。这种改进提高了前景和背景之间的区分度，并促进了更好的多尺度特征表示。此外，它优先处理被遮挡行人的可见部分，使模型在现实世界中更具韧性

数据集

使用了五个行人数据集来训练和验证所提出的以及其他目标检测模型以进行比较。COCO_Person数据集是MS COCO数据集[26]的一个子集，仅包含人物图像，包含64,115张训练图像和2,693张验证图像。PennFudan数据集[46]包含170张图像，其中包含345个人物实例。Widerperson数据集[41]包含13,382张图像，其中包含399,786个人物实例。INRIA数据集[47]包含1,800张图像，其中包含2,000个人物实例

结果

我们在标准行人数据集上训练和测试了不同的目标检测模型，并将每个模型的P值、R值、F1分数、map50和map50-95分数与使用我们提出的CoSTAA模型训练和测试得到的结果进行了比较。表2、3、4、5和6将结果与WiderPerson、PenFudan、INRIA、COCOP和Enriched CamPed数据集进行了比较。所提出的模型在标准数据集上的表现优于其他模型。所有在我们丰富的CamPed数据集上训练的模型

消融研究

为了评估集成到CoSTAA架构中的每个组件的单独贡献，我们使用Enriched CamPed数据集进行了详细的消融研究。分析重点关注三个关键设计元素：（1）CST（卷积Swin变换器），（2）显式的注意力机制，以及（3）基于IoU的锚框优化。所有实验均使用YOLOv7作为基线模型，并采用相同的训练配置以确保公平比较。

跨数据集基准测试

为了评估CoSTAA模型的泛化能力，我们使用三个行人检测数据集（CityPersons[40]、CrowdHuman[38]和WiderPerson[41]）进行了跨数据集基准测试。该模型仅在Enriched CamPed数据集上训练，然后在每个目标数据集上进行测试，无需微调。我们使用平均精度（AP）、AP50、AP75和尺度感知指标（APs、APm、APl）来报告性能，遵循基于YOLO的评估协议。这些实验评估了CoSTAA的性能

失败案例分析和局限性

CoSTAA模型在各种行人检测基准测试中表现出持续的改进；然而，它也存在一些实际局限性。CST和显式注意力块的结合导致计算成本增加，与基线YOLOv7相比，内存使用量更大，资源受限设备上的推理时间更慢。虽然我们的实验中训练过程保持稳定，但额外的变换器层可能会使模型更加

结论

所提出的CoSTAA模型通过有效应对拥挤场景、遮挡、不同规模和类似行人的干扰物体等挑战，提高了行人检测能力。通过集成优化的锚框、卷积Swin变换器和显式的注意力机制（CSAM），CoSTAA增强了局部和全局特征表示，从而在复杂环境中实现更可靠的检测。在包括CrowdHuman在内的标准基准测试上进行了广泛的实验

缩写

AP	平均精度
CamPed	校园行人
CNNs	卷积神经网络
COCOP数据集	Common Objects in Context Person数据集
CoSTA	结合注意力的卷积Swin变换器
CoSTAA	结合注意力的卷积Swin变换器和锚框优化
CSAM	通道空间注意力模块
CST	卷积Swin变换器
DETR	检测变换器
GPU	图形处理单元
IoU	交并比
mAP	平均精度
MSCOCO数据集	Microsoft Common Objects in Context数据集
NLP	自然语言处理

CRediT作者贡献声明

Sukesh Babu V.S.：撰写——原始草稿、可视化、验证、方法论、调查、数据整理、概念化。Rahul Raman：撰写——审阅和编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本文是题为“通过增强数据集实现鲁棒行人检测”[28]的文章的扩展版本，该文章被接受在2024年12月19日至21日在印度坎切普拉姆的IIITDM（600127）举行的第9届国际计算机视觉与图像处理会议上发表。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作