《Journal of Visual Communication and Image Representation》:A miner behavior recognition approach: dynamic adaptive graph convolutional network with multi-dimensional feature synergistic fusion
编辑推荐:
针对井下矿工行为识别中现有GCN模型对相似动作幅不同时长的特征提取不足问题,提出MEAGCN模型。通过动态自适应空间图卷积模块DAS-GC优化图结构,多尺度时间卷积模块MT-Conv增强时序建模,多维特征协同注意力模块MFSA整合空间时序信息,实验表明在NTU RGB+D和自建数据集上准确率分别达到93.0%和94.6%。
郑王|段思远|潘洪光|刘艳
西安科技大学电气与控制工程学院,中国西安710054
摘要
为了解决现有图卷积网络(GCN)在提取具有相似动作幅度但动作持续时间不同的矿工行为特征方面的局限性,本文提出了一种基于多维特征增强的自适应图卷积网络用于矿工行为识别。首先,动态自适应空间图卷积模块(Dynamic Adaptive Spatial Graph Convolution)为每一层的每个通道动态配置邻接矩阵,有效捕捉空间特征;其次,多尺度时间卷积模块(Multi-Scale Temporal Convolution)通过整合多个时间尺度上的信息来增强时间建模,适应不同持续时间和速度的行为;最后,多维特征协同注意力模块(Multi-Dimensional Feature Synergistic Attention)通过融合不同维度的特征来提高对关键帧和关节的关注度,从而增强空间和时间信息的整合。在NTU RGB+D数据集和自建数据集上的广泛实验验证了该模型的有效性。在NTU RGB+D 60的X-View基准测试中,该模型达到了93.0%的准确率,在自建数据集上达到了94.6%,证明了其在矿工行为识别中的有效性。
引言
煤矿生产环境复杂,需要实时监控。然而,目前关于煤矿智能监控的研究主要集中在采矿和运输过程上,对于识别地下矿工行为的研究相对较少。煤炭行业劳动密集,主要依赖矿工,而不安全行为是事故的主要原因[1]。因此,研究煤矿场景下的行为识别技术对于推动行业的智能化发展具有重要意义[2]。然而,煤矿生产环境复杂,传统的行为识别方法准确率较低。因此,迫切需要提出一种适用于地下煤矿环境实时部署的高效矿工行为识别模型。
近年来,许多学者对地下矿工行为识别进行了研究,主要分为基于卷积神经网络(CNN)的方法和基于图卷积网络(GCN)的方法。王等人[3]提出了CBAM-PoseC3D模型,并将其与RGB模态的CBAM-SlowOnly结合,形成了CBAM-MFFAR框架,增强了特征提取能力,在识别地下矿工的不安全行为方面取得了显著成果。王等人[4]提出了一个时空双分支框架用于矿工行为识别,引入了TWR机制来增强对相似行为的特征提取。该模型能够有效捕捉快速的行为变化,确保在复杂采矿环境中的稳健检测。上述研究方法主要基于CNN。2D CNN在处理具有时间维度信息的数据(如视频)时存在局限性,无法很好地处理时间信息。对于大规模输入数据(如视频),3D CNN的计算要求较高,有效训练需要高性能硬件设备。基于CNN的行为识别方法主要以视频数据作为输入。尽管视频数据易于收集且包含丰富的视觉信息,但也包含大量与矿工行为无关的背景信息,从而干扰了行为识别。此外,基于视频数据的CNN方法会受到地下各种遮挡和视角变化的影响,存在一定的局限性[5]。
与基于CNN的方法相比,基于GCN的方法以骨架数据作为输入。骨架数据可以通过姿态估计算法获得,数据收集相对容易。骨架数据本质上代表了视频中矿工身体姿态和运动变化的浓缩表示,不含冗余的背景信息。因此,基于GCN的方法对光照、视角变化、复杂背景干扰和遮挡问题具有较好的鲁棒性。此外,基于GCN的行为识别方法具有速度快、计算要求低和简单等优点[6]。近年来,许多学者在地下矿井中应用了基于GCN的行为识别算法。史等人[7]提出了一种基于优化后的Alphapose-ST-GCN框架的地下异常行为识别方法,该方法利用CycleGAN增强地下监控视频图像,通过LTWOA-Tiny-YOLOv3模型优化Alphapose,并采用ST-GCN进行行为识别。杨等人[8]提出了ANODE-GCN模型用于矿工动作和违规行为的识别,结合了神经ODE和GCN来处理不完整的骨架数据。该模型利用预测的运动序列、混合注意力机制和双元策略来提高对相似动作和复杂违规行为的识别准确率。曹等人[9]提出了NP-AGCN模型,利用多帧人体关键点重构图谱以减少环境干扰,提高了对攀爬和打斗等复杂动作的识别能力。同时,引入了多种自注意力机制来解决小接收场范围的限制。
因此,考虑到基于GCN方法的优点,本文将图卷积网络应用于煤矿环境。然而,由于地下环境复杂、光线昏暗以及设备遮挡,收集到的骨架数据质量往往较差。例如“非法乘坐”和“跨越”等动作涉及局部肢体运动,而“跌倒”和“行走”等动作持续时间较长,导致现有方法的行为识别准确率相对较低。本文提出了一种基于多维特征增强的自适应图卷积的矿工行为识别模型。首先,为了解决手动定义的邻接矩阵参与卷积时无法保证模型灵活性的问题,引入了动态自适应空间图卷积模块(DAS-GC)来解决空间时间图卷积网络无法建模地下矿工复杂动作的问题;其次,为了解决单个固定大小的时间卷积核在提取不同时间范围信息时的局限性,引入了多尺度时间卷积模块(MT-Conv);最后,引入了多维特征协同注意力机制(MFSA)来捕捉空间和时间维度之间的依赖性,整合全局和局部信息,从而提高图卷积模型在煤矿场景中的性能。本文的研究贡献如下:
•在识别复杂且多变的矿工行为时,固定的邻接矩阵可能无法完全捕捉动作之间的细微差异。为此,我们提出了DAS-GC模块。该模块在保留预定义邻接矩阵的同时,根据输入特征动态学习邻接矩阵,并将其配置到每一层的每个通道中,从而增强了模型对复杂矿工行为的建模能力,更准确地捕捉他们的动作。
•在矿工行为识别中,不同动作可能在不同时间尺度上表现出来。为了捕捉这些多尺度行为特征,我们引入了MT-Conv模块。该模块通过不同分支中的不同时间尺度的时间卷积,实现了不同时间粒度下的特征提取和整合,增强了模型在时间维度上对矿工动作的建模能力。
•在行为识别中分别处理空间和时间维度信息可能导致信息丢失或冗余。我们引入了MFSA来整合空间和时间信息。该模块融合了不同维度和尺度的特征,生成权重图,提高了模型对关键帧和关键关节的关注度,从而提高了特征表示的质量,帮助模型更好地理解和识别矿工行为。
部分摘录
图卷积神经网络
骨架序列是指一段时间内人体各关键点坐标的序列,它抽象地表示了人体在这一时期内的姿势和运动变化。在生物学中,即使没有外观信息,人们也可以通过观察关键点的运动来识别动作类别。近年来,基于骨架的动作识别算法因其计算效率高等优点而受到越来越多的关注
矿工行为特征识别网络
地下矿工的行为复杂,现有图卷积模型的识别准确率目前并不令人满意。本文提出了一种适用于地下环境的多维特征增强自适应图卷积网络(MEAGCN)用于矿工行为识别。该模型的结构如图1所示,由9个基本模块组成。当骨架序列输入到MEAGCN时,输入数据首先NTU-RGB+D
NTU-RGB+D数据集[30]是最大的3D骨架数据集,用于人体动作识别任务,包含两个版本:NTU60和NTU120。骨架的3D坐标(X,Y,Z)由Kinect v2传感器获取,包含25个人体关节。NTU 60有56,880个骨架序列,包含60个动作类别。由于该数据集包含不同的受试者和视角,其评估标准包括两部分:跨受试者(Cross Subject,X-sub)和跨视角(Cross-View,X-view)。结论
在本文中,我们提出了一种用于煤矿场景中矿工行为识别的MEAGCN。首先,为了解决手动定义的邻接矩阵参与卷积时无法保证模型灵活性的问题,MEAGCN采用了DAS-GC来建模不同网络层中每个通道的关节拓扑结构,提高了模型的灵活性;其次,为了解决单个固定大小的时间卷积核在提取不同时间范围信息时的局限性
CRediT作者贡献声明
郑王:撰写——原始草稿、方法论、概念化。段思远:撰写——原始草稿、验证、软件。潘洪光:撰写——审阅与编辑、资源收集、调查。刘艳:撰写——审阅与编辑、资源收集、调查。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。