多尺度时空层次化协作网络与电网建设视频动作数据集,用于电力施工场景中的动作识别

《Engineering Applications of Artificial Intelligence》:Multi-scale spatio-temporal hierarchical collaborative network and powergrid construction video action dataset for action recognition in power construction scenarios

【字体: 时间:2026年05月11日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  张硕|孔亚光|郑晓青|张创勋|张伟斌 中国浙江省杭州市杭州电讯大学自动化学院 **摘要** 在电力工程中,施工事故通常由工人的不安全行为引发。传统的人工检查效率低下且覆盖范围有限,难以满足复杂场所的安全监控要求。近年来,视频理解和计算机视觉技术被广泛应用于开发并部署

  张硕|孔亚光|郑晓青|张创勋|张伟斌
中国浙江省杭州市杭州电讯大学自动化学院

**摘要**
在电力工程中,施工事故通常由工人的不安全行为引发。传统的人工检查效率低下且覆盖范围有限,难以满足复杂场所的安全监控要求。近年来,视频理解和计算机视觉技术被广泛应用于开发并部署用于识别不安全行为的人工智能(AI)系统。然而,电力施工场景存在目标规模变化大、遮挡复杂以及类别分布不平衡等问题,这些因素对识别性能产生了负面影响。为了解决这些问题,本文实现了一个多尺度时空分层协作网络(MSST-HCNet),并将其应用于电力施工现场的安全监控。MSST-HCNet通过自适应融合多尺度分层特征来实现对动作表示的深度建模。其自适应时空分层模块(ASHM)能够选择性地整合慢速路径不同阶段的特征,捕捉连续的动作轨迹,增强对小型和被遮挡目标的识别能力,并实现多级特征学习。为了评估该系统,我们构建了PowerGrid Construction Video Action(PCVA)数据集,包含8300个视频片段,涵盖了30种典型的施工行为。实验结果表明,MSST-HCNet的平均精度(mAP)达到了38.16%,比最佳对比方法高出7.54个百分点,显著优于现有算法。本研究不仅展示了高效AI模型的实现,还展示了其在电力施工现场安全监控中的实际应用效果,降低了事故风险和检查时间,同时提高了运行安全管理水平。代码可在以下链接公开获取:https://github.com/ys-sy/MSST

**引言**
在电网基础设施建设过程中,施工现场的安全管理一直是行业的关键问题(张等人,2024年;史等人,2024年;哈什米等人,2024年;阿尔马斯卡蒂等人,2024年)。尽管安全监督政策不断加强,并制定了严格的法律法规和操作程序,但施工现场的安全事故仍时有发生。研究发现,这些事故往往与操作人员未严格遵守安全规定以及未能及时发现不安全行为等因素密切相关(阿巴斯和贾拉尔,2024年;德伊和比斯瓦斯)。目前,主要的电力施工公司通常通过视频监控进行远程安全监督。虽然这在一定程度上确保了安全,但随着电力施工场所数量的增加,效率低下和漏检率高等问题日益突出(奥帕博拉和加拉萨索,2024年)。人工监控过度依赖主观判断,这种主观局限性容易导致错误判断或疏忽。此外,人工巡逻需要大量人力,进一步增加了管理成本。因此,提高电力施工现场的自动化安全监督水平已成为当务之急(方 Wang等人,2025年;王和 Bu,2024年)。

随着计算机视觉技术应用于电力施工等建设项目中的安全监督,当前的研究主要采用目标检测和跟踪方法来识别施工现场中的静态目标(如人员、设备和机械),以发出安全警告(皮埃蒙テ和波洛克,2024年;萨拉亚达尔等人,2024年;费希滕霍费尔等人,2019年)。随着视频理解技术的进步,现有方法开始关注施工工人的动态行为识别。虽然这克服了静态分析的局限性,但仍存在挑战:动作类别的覆盖范围有限,某些行为仍需通过静态方法进行识别(陈等人,2023年)。为了增强动态视频特征的建模,研究人员提取了人体运动信息,并通过处理各种类型的长视频来训练模型以实现动作分类(林等人,2023年;苏等人,2024年;王等人,2023年;库马瓦特等人,2023年;安等人,2024年)。该领域的主流方法可以分为以下几类:视频级动作分类(Limin Wang等人,2021年;赵凡 Wang等人,2021年)、时间动作定位(Singh等人,2023年)和时空动作检测(Dai等人,2022年;潘等人,2021年)。基于Transformer的方法(Tong等人,2022年)利用定向注意力机制捕捉全局时空依赖性,利用其灵活性处理不同分辨率的视频(Ranasinghe等人,2022年;吴等人,2024年)。在数据集方面,当前研究主要依赖于两种类型的数据:通用动作识别数据集(如Kinetics(Kay等人,2017年)、中佛罗里达大学101动作数据集(UCF101)(Soomro等人,2012年)、人体运动数据库51动作数据集(HMDB51)(Kuehne等人,2011年)、原子视觉动作数据集(AVA)(Gu等人,2018年))和行为识别数据集(如中佛罗里达大学犯罪数据集(UCF-Crime)(Sultani等人,2018年)、上海工业大学数据集(Liu等人,2018年),这些数据集为视频分析任务提供了基础数据。

尽管在动作识别和数据集构建方面取得了一定进展,但这些领域仍面临以下挑战。在基于视频的动作识别中,准确定位视频级动作分类过程中的时空坐标仍然困难。在复杂场景中,动作边界往往不明确;此外,当多个动作连续发生时,现有方法在时间分割和冗余信息抑制方面的能力不足。此外,模型架构的复杂性通常导致推理效率低下和跨场景泛化能力有限。时空动作检测在细粒度定位动作实例边界和处理小目标和严重遮挡等复杂条件方面存在显著局限。虽然基于Transformer的动作识别方法(Pan等人,2021年;Oquab等人,2025年;Benmessabih等人,2025年)在特定场景中表现出优势,但计算复杂度高。其中一些方法严重依赖大规模标注数据集。在处理复杂背景、遮挡或区分相似动作时,其准确性仍有待提高。关于数据集,现有的动作识别数据集与现实世界的电力工程施工场景存在显著差异。施工场景中的数据通常具有小目标规模和频繁的遮挡现象,且目前缺乏与施工相关安全违规行为的标注。

为有效应对上述挑战,本文提出了一种多尺度时空分层协作网络(MSST-HCNet),用于电力施工场景中的动作识别。MSST-HCNet以SlowFast网络作为其特征提取主干。通过快速-慢速双路径协调机制,它对关键帧及其相邻帧进行多级提取和融合,从而捕捉视频序列中的上下文语义信息。同时,利用基于区域的卷积神经网络(Faster R-CNN)算法实现高精度的人体对象检测,生成包含动作主体的边界框。在此基础上,设计了自适应时空分层模块(ASHM),以整合慢速路径网络中不同残差阶段的特征,实现多粒度语义特征的提取。在特征整合阶段,应用区域对齐(ROI Align)精确提取上下文特征和多尺度语义特征,生成有效编码人体动作的特征表示。通过集成高阶关系推理运算符(HR2O)模块,模型深入探索动作主体与其环境背景之间的语义关系,显著提高了对复杂动作语义的理解能力。最后,通过卷积运算和HR2O模块,将融合特征输入分类器,实现电力场景中的高精度动作分类。为减轻动作类别分布不均和电力场景中小目标样本频繁误判的问题,本文引入了Focal Loss机制,动态调整样本权重,增强网络从困难样本中学习的能力。此外,还建立了一个新的PowerGrid Construction Video Action(PCVA)数据集。PCVA定义了30种典型基本施工场景中的专业动作,有效捕捉了电力施工环境的复杂性,为电力行业中的动作识别算法研究提供了高质量的数据支持。

**总结**
本文的贡献如下:
(1) 提出的多尺度时空分层协作网络(MSST-HCNet)通过整合多尺度分层时空特征并引入Focal Loss函数,有效提高了电力施工场景中的动作识别精度,减轻了动作类别的长尾分布问题。该设计使模型更加关注复杂场景中的困难样本和判别性特征。实验结果表明,MSST-HCNet在本研究中构建的数据集上取得了领先性能。
(2) 本文提出了一种自适应时空分层模块(ASHM),通过逐步捕捉连续动作轨迹的变化,增强了对小型和被遮挡目标的识别能力,从而提高了不同层次动作特征的学习能力。
(3) 设计了一个新的数据集PowerGrid Construction Video Action(PCVA),用于电力施工场景中的动作识别。PCVA定义了30种典型的基本动作,填补了公开可用电力电网建设数据集的空白,为后续研究提供了宝贵的数据支持。

**部分摘录**
**基于视频的动作识别方法**
基于视频的动作识别方法模拟视频的动态特征以捕捉人体运动信息。训练有素的模型可以通过处理不同时间段的长时间视频来对动作进行分类。基于视频的动作识别任务主要包括视频级动作识别(AR)、时间动作定位(TAL)和时空动作检测(STAD)。

**整体框架**
为应对电力施工场景中的小目标规模、频繁遮挡和类别不平衡等挑战,本文提出了一种多尺度时空分层协作网络(MSST-HCNet)用于动作识别。MSST-HCNet的总体框架如图1所示。MSST-HCNet以SlowFast网络作为特征提取主干。其双路径设计使得慢速路径能够捕捉丰富的空间语义,而快速路径能够...

**实验**
实验在配备四个NVIDIA GeForce RTX 4090 24 GB GPU的计算平台上使用PyTorch环境进行。基于AVA、UCF101-24和PCVA数据集(我们的数据集),与当前主流动作识别方法进行了性能比较,并通过消融实验系统验证了ASHM的有效性。在评估过程中,对于通过帧级检测得到的字符边界框,如果目标有交集...

**结论**
在电力施工场景中,大量小目标、严重遮挡和高度不平衡的动作类别分布显著增加了工人行为识别的难度。为应对这些挑战,本文提出了一种多尺度时空分层协作网络(MSST-HCNet)。通过利用快速-慢速双路径架构和分层特征融合,所提出的方法增强了小规模和...

**CRediT作者贡献声明**
张硕:概念化、数据策划、撰写——初稿、撰写——审阅与编辑。
孔亚光:撰写——审阅与编辑、资源、项目管理。
郑晓青:撰写——初稿、软件、方法论、概念化。
张创勋:监督、资源、项目管理。
张伟斌:验证。

**利益冲突声明**
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:孔亚光报告称得到了杭州电讯大学自动化部门的财务支持。如果还有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。

**致谢**
本工作得到了浙江省应用基础研究计划新苗项目(资助编号2026XMHD021)和中国国家自然科学基金(资助编号62476076)的支持。本文在IEEE ICASSP 2026年发表的早期工作的基础上进行了大量新内容的扩展和额外分析。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号