SBR-YOLO：融合行为感知上下文位置注意与自适应特征融合的课堂学生行为识别模型

《Frontiers in Computational Neuroscience》：SBR-YOLO: context-position attention and adaptive feature fusion for student behavior recognition

【字体：大中小】 时间：2026年03月18日 来源：Frontiers in Computational Neuroscience 2.3

编辑推荐：

　　本研究提出SBR-YOLO框架，针对复杂课堂环境中学生行为识别的高类内差异、细粒度区分难题及目标尺度变化大等挑战，设计了行为感知上下文位置注意（BCPA）模块，引入可学习位置编码和头间交互机制来建模行为区域的空间依赖；提出自适应空间特征融合（ASFF）机制，在检测头前的颈部各输出层自适应学习跨尺度特征融合权重以应对前后排学生显著尺度差异；并引入了类别感知判别损失（CADL）函数，通过类内紧凑和类间分离约束增强细粒度判别力。在SCB-Dataset3上的实验表明，模型mAP@50达到74.2%，较YOLOv8n基线提升6.4个百分点，参数量从3.0M适度增至4.6M，为复杂智慧课堂环境下的学生行为识别提供了有效解决方案。

1 引言

近年来，人工智能和计算机视觉技术的快速发展推动了智能监控系统在教育场景中的广泛应用。与主观、耗时、难以跨多个教室同时扩展的传统人工观察方法相比，自动化行为识别系统为实时课堂监控提供了一致、高效且可扩展的解决方案。目标检测方法为行为识别任务提供了成熟的技术范式。早期的两阶段检测器如R-CNN和Faster R-CNN计算成本高、推理速度慢，限制了其实时应用。YOLO系列等单阶段检测框架的引入显著提高了检测速度，同时保持了有竞争力的准确率，并在工业检测、安全监控和行人检测等领域得到广泛验证。

尽管如此，现有的课堂行为识别方法仍面临三个尚未得到充分解决的技术限制。首先，真实课堂图像中的学生行为表现出较高的类内视觉相似性，例如阅读和书写对应的上半身姿势几乎难以区分，而标准的卷积特征表示缺乏足够的区分力以进行细粒度行为识别。其次，教室中固定角度的监控摄像头导致前排和后排学生之间存在显著的尺度变化；现有的特征金字塔网络使用固定权重聚合多尺度特征，无法适应输入图像的空间尺度分布，导致对小目标和远场目标的召回率下降。第三，标准交叉熵损失对所有类别对施加统一的优化压力，没有施加明确的约束来分离视觉上易混淆的行为类别，在类别不平衡和视觉易混淆的训练条件下限制了分类准确率。

为应对上述挑战，本文提出了SBR-YOLO，这是一个基于YOLOv8构建的学生行为识别网络，包含三项针对性改进：设计了行为感知上下文位置注意（BCPA）模块，通过可学习位置编码和头间特征交互捕捉行为相关区域间的空间依赖，增强对视觉相似行为的细粒度区分能力；在颈部各输出层、检测头之前引入了自适应空间特征融合（ASFF）机制，以空间自适应的跨尺度融合权重替代固定权重的特征聚合，改善对尺度变化显著的小目标和远场目标的检测性能；制定了类别感知判别损失（CADL）函数，在特征空间中联合施加类内紧凑和类间分离约束，在类别不平衡和视觉易混淆的训练条件下加强对易混淆行为类别的分类鲁棒性。

2 相关研究

2.1 课堂行为检测方法

课堂行为检测与通用目标检测相比面临独特挑战，包括严重的学生间遮挡、高目标密度以及固定视角头顶摄像头引入的显著尺度变化。这些特征要求检测架构能够在固定视角监控条件下，在广泛的目标尺度范围内提取区分性特征。

2.2 注意力机制

注意力机制通过使网络能够为信息丰富的特征通道和空间区域分配自适应重要性权重来改进目标检测。然而，大多数现有机制独立地在通道或空间维度上操作，限制了其进行联合跨维度特征建模的能力。在多排教室环境中，行为区分线索是空间局部的且经常被遮挡，这种限制降低了对不同空间位置上视觉相似姿势的区分能力。

2.3 多尺度特征融合

多尺度特征融合对于处理课堂监控图像中广泛的目标表观尺寸至关重要。YOLOv8采用了基于PANet的颈部，但应用了固定权重的特征聚合，而没有内容感知的权重分配。在教室场景中，前排和后排学生产生的特征在语义和分辨率上存在显著差距，静态融合策略无法选择性地强调具有区分性的尺度特定信息，导致对小目标和远场目标的检测性能下降。

2.4 目标检测的损失函数

准确的边界框回归在目标密集、经常相互遮挡的学生检测场景中至关重要。尽管这些损失函数取得了进展，但现有的基于IoU的损失函数只专注于几何定位，并未施加明确的特征级约束来分离视觉上易混淆的行为类别（如阅读和书写），使得在拥挤课堂场景中细粒度分类和准确定位的联合挑战仍未解决。

3 方法

3.1 整体架构

Flowchart diagram of a neural network architecture, divided into Backbone, Neck, and Head sections. Layers include CBS, C2F, Concat, Up-sample, BCPA, SPPF, and ASFF, with connections showing feature map flow at different resolutions from input image to output Head modules.

SBR-YOLO的网络架构基于YOLOv8框架构建，包含三个主要阶段：特征提取骨干网络、多尺度特征聚合颈部网络和任务特定的检测头。集成了三个核心组件，即BCPA、ASFF和CADL。具体而言，骨干网络采用基于CSPDarknet的结构，通过级联的CBS和C2F模块构建多尺度特征金字塔，BCPA模块嵌入在空间金字塔池化层之后，通过可学习位置编码和头间交互机制显式建模行为区域间的空间依赖。颈部网络采用增强的路径聚合网络结构，以促进深层语义特征和浅层空间细节的双向流动与融合；为处理教室环境中的显著目标尺度变化，在颈部每个输出层引入了ASFF模块，采用可学习的空间自适应权重而非固定权重来实现跨尺度特征的空间自适应集成。检测框架采用多尺度并行检测头，通过解耦的卷积分支预测边界框坐标、目标性得分和类别概率。在训练期间，CADL取代了检测头中的CIoU，通过类内紧凑和类间分离约束联合优化边界框回归和特征级判别，增强对视觉相似行为的细粒度判别能力，而无需增加额外的推理成本。

3.2 行为感知上下文位置注意

Flowchart diagram illustrating a neural network attention mechanism with Conv1x1 BN layers at input and output, V, Q, and K^T matrices, softmax operation, positional encoding (PosE), and labeled paths such as Locality and Talking Head.

教室环境中的学生行为表现出非均匀的空间分布，不同的行为在图像中占据特征性的位置和区域。传统注意力机制独立处理空间和通道信息，难以建模行为区域之间的全局上下文依赖。此外，现有方法常常忽略显式的位置编码，尽管空间位置信息对于课堂场景中的准确行为识别至关重要。为解决这些限制，提出了行为感知上下文位置注意（BCPA）模块，它通过可学习位置编码和头间交互机制实现局部细节和全局上下文的联合建模。

BCPA模块采用查询-键-值（QKV）三分支结构作为其基础框架。与传统的自注意力机制不同，BCPA引入了可学习的相对位置编码P∈R^N×N来显式建模行为目标的空间位置信息。受到“说话头注意力”的启发，在注意力权重计算期间引入了头间交互机制，以增强不同注意力模式之间的信息流。在传统的多头注意力中，每个头独立计算而没有跨头信息交换，限制了复杂行为模式的表示能力。BCPA通过在Softmax归一化前后引入可学习的投影矩阵W_pre和W_post来解决这个问题，从而允许注意力头之间的信息交互和协作优化。

基于上述设计，BCPA模块的完整计算流程表达如下：

A = (W_pre· (QK^T+ P)) / √d

F_out= Conv_1×1(V (W_post· Softmax(A))^T) + F

其中QK^T计算查询和键之间的相似度矩阵，P表示可学习的相对位置编码，√d作为缩放因子以稳定梯度，W_pre和W_post分别表示Pre-Softmax和Post-Softmax头间交互的投影矩阵，残差连接确保了稳定的梯度传播。

BCPA模块提供了几个优点。首先，可学习的位置编码使网络能够捕获场景特定的位置-行为关联。其次，QKV自注意力机制允许每个空间位置与所有其他位置交互，有效建模行为区域之间的全局上下文依赖，这对于区分视觉相似但语义不同的行为尤为重要。第三，双重头间交互机制增强了多头注意力的表达能力，使不同的注意力头能够互补地捕获多样的行为模式。

3.3 自适应空间特征融合

Flowchart illustrating a neural network pipeline where three input feature maps X(1), X(2), and X(3) of sizes 20×20×1024, 40×40×512, and 80×80×256, respectively, progress through hierarchical levels Level1, Level2, and Level3. Outputs from each level feed into corresponding ASFF modules (ASFF-1, ASFF-2, ASFF-3), which generate predictions at three resolutions: 20×20, 40×40, and 80×80. Purple solid and dashed lines indicate multi-level connections between network components.

YOLOv8框架在其颈部内利用增强的PAN-FPN结构来促进分层特征聚合。然而，多尺度特征的直接融合可能在不同金字塔层级之间引入语义不一致和表示冲突。这些挑战在学生行为识别任务中由于杂乱的课堂背景和目标实例之间的显著尺度变化而变得更加突出。为应对这些限制，在颈部每个输出层、检测头之前引入了ASFF机制，该机制自适应地学习跨尺度特征融合的权重。

ASFF机制通过两个连续阶段运行：特征尺度对齐和自适应加权聚合。每个空间位置的融合特征通过尺度对齐特征图的加权求和来计算，公式化如下：

y^l_ij= α^l_ij· x^1→l_ij+ β^l_ij· x^2→l_ij+ γ^l_ij· x^3→l_ij

其中x^n→l_ij表示从层级n转换到层级l、在空间位置(i, j)处的特征向量。融合权重α^l_ij, β^l_ij, γ^l_ij∈[0,1]是空间自适应且可学习的，决定了每个尺度特定特征的贡献。这些权重通过Softmax激活进行归一化。权重参数λ^l_{α_i,j}, λ^l_{β_i,j}, λ^l_{γ_i,j}是通过1×1卷积从尺度对齐的特征层导出的。通过这种自适应加权方案，ASFF增强了学生行为在所有特征金字塔层级上的语义表示，实现了有效的跨尺度特征集成，并提高了行为检测的区分能力。

3.4 类别感知判别损失

教室环境中的学生行为通常表现出较高的视觉相似性，阅读和书写等代表性示例具有几乎相同的上半身姿势，对准确的细粒度分类构成了重大挑战。标准检测损失独立处理几何回归和分类，没有施加明确的特征级约束来分离易混淆的行为类别。提出了类别感知判别损失（CADL）以取代检测头中的CIoU。CADL将边界框回归与度量学习约束相结合，联合优化几何定位准确性和视觉相似行为类别之间的特征级区分。完整的训练目标表述如下：

?_total= ?_cadl+ ?_cls+ ?_dfl

其中?_cls表示二元交叉熵分类损失，?_dfl表示分布焦点损失，均直接应用于遵循默认YOLOv8训练目标的检测头输出。

CADL中的类内紧凑性项遵循中心损失的公式。不同之处在于，CADL额外包含了一个基于间隔的类间分离项，并且这两项都应用于从检测头提取的每个实例嵌入，而不是像原始中心损失公式中那样应用于全局图像级特征。该方法将中心损失概念扩展到目标检测领域，并针对多类行为区分进行了修改。类内紧凑性项鼓励同一类别的特征嵌入围绕其各自的质心聚类。类间分离项促进不同类别质心之间的间隔距离以增强区分性。遵循对比学习原理，类别质心被约束保持最小间隔。

完整的CADL函数结合了这两项：

?_cadl= ?_ciou+ λ (?_intra+ ?_inter/2)

CIoU项?_ciou通过联合惩罚预测边界框和真实边界框之间的重叠、中心距离和宽高比偏差来提供几何回归监督。度量学习项?_intra和?_inter在从检测头倒数第二层提取的特征嵌入上操作，强制执行类内紧凑性和类间分离，以增强对视觉相似行为的区分。平衡权重λ经验设置为0.5，以保持两个分量之间可比较的梯度幅度。

4 结果与讨论

4.1 数据集

采用SCB-Dataset3作为实验基准，该数据集源于真实中小学教学环境中的视频捕获和帧级标注。SCB-Dataset3包含5,015张图像和25,810个标注实例，涵盖三类代表性的学生课堂行为：举手、阅读和书写。

4.2 评估指标

使用七个指标评估所提算法的检测性能：精确率、召回率、交并比阈值为0.50时的平均精度均值（mAP@50）、交并比阈值从0.50到0.95的平均精度均值（mAP@50-95）、F1分数、参数量和浮点运算次数。采用TIDE评估框架来分析模型在六个类别上的错误：分类错误、定位错误、联合分类-定位错误、重复检测错误、背景错误和漏检错误。

4.3 实验环境

所有实验在统一的软硬件平台上进行。操作系统为Ubuntu 22.04 LTS，编程环境基于Python 3.10.14。深度学习框架为PyTorch 2.2.0，配置了CUDA 12.4和cuDNN 9.1.0以优化GPU计算效率。初始学习率设置为0.01，并通过余弦退火动态调整。优化器为随机梯度下降，动量为0.937，权重衰减为0.0005。批量大小为16，训练轮数为200，输入图像调整为640×640像素。在前150个训练周期应用马赛克数据增强以提高泛化能力。所有模型在比较实验中均从头开始训练，不使用预训练权重，以确保性能差异仅归因于架构设计而非初始化。

4.4 SBR-YOLO与YOLOv8的性能比较

在SCB-Dataset3上评估所提模型，并将实验结果与基线YOLOv8n进行比较。SBR-YOLO在所有评估指标上均实现了相对于YOLOv8n的一致性能提升。mAP@50从67.8%提高到74.2%，提升了6.4个百分点，参数量从3.0M适度增加到4.6M。TIDE错误分析详细揭示了在六个错误类别上检测质量的改进。具体而言，SBR-YOLO在分类错误、定位错误、背景错误和漏检错误等方面均优于基线模型，表明其引入的BCPA、ASFF和CADL组件有效解决了视觉相似行为区分、尺度变化和类别混淆等核心挑战，提升了模型在复杂课堂环境下的综合检测能力。

热点排行

新闻专题