基于持续学习和双注意力机制的公平性可解释卷积网络，用于缓解人类行为识别关键决策系统中的偏见问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Continuous Learning Enabled Dual Attention-based Fairness-aware eXplainable Convolutional Network for bias mitigation in a critical decision system for human action recognition

【字体：大中小】 时间：2026年03月06日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　针对传统人类动作识别方法存在的误差高、依赖手工特征、缺乏透明度等问题，本文提出CLDA-FaXCoNet模型，结合持续学习、双注意力机制和SHAP可解释性技术，在UCF50数据集上实现98.14%召回率等优异性能。

Rahmat Ali|Mahammad Shabana|Muneeruddin Mohammed|Kaja Masthan

坎伯兰大学信息技术系，6178 College Station Drive，Williamsburg，KY，40769，美国

摘要

人类行为识别对于增强安全系统至关重要，因为它可以通过识别个人或一群人的行为来降低公共区域受到威胁的可能性。因此，已经开发出多种传统方法来识别行为，但这些方法存在许多挑战，如高错误率、依赖于手工制作的特征、缺乏透明度以及计算成本高等问题。因此，提出了一种基于连续学习和双注意力机制的公平性感知可解释卷积网络（CLDA-FaXCoNet）模型，以克服这些传统挑战，从而提供准确的行为识别结果。通过基于任务的连续学习和分布式机制采用公平性感知方法有助于缓解公平性和偏见问题，使模型更加可靠。此外，CLDA-FaXCoNet模型中双注意力的应用通过选择性地关注捕捉最相关的上下文长距离信息，从而实现更精确的行为识别。另外，Shapley加性解释（SHAP）的集成提高了CLDA-FaXCoNet模型的透明度。广泛的实验结果表明，该模型表现出色，在中央佛罗里达大学50（UCF50）数据集的90%的训练数据上，其召回率、准确率、F1分数和精确率分别达到了98.14%、98.32%、98.41%和98.67%。

引言

人类行为不仅仅是身体各部分的运动；这些行为还反映了个人的想法和意图（Ramanathan等人，2014年）。因此，识别人类行为至关重要，因为它可以帮助阻止诸如盗窃企图等多种破坏性行为（Ahmad等人，2023年）。此外，这种行为识别技术已被广泛应用于视频检索、人机通信、行为监控、公共舆论监控和监控系统等多个领域（Li等人，2020年；Zhou等人，2023年）。识别人类行为的过程是检查输入视频序列中的隐藏连续模式，并根据感官上下文确定行为的状态。通常，人类行为是身体各部分运动的组合（Ullah和Munir，2023年）。最近，计算机视觉研究界对从视频片段中识别人类行为给予了大量关注，这是一个有趣的研究方向。在训练过程中，行为识别系统会分析特定的视频帧或序列以获取人类行为的特征；在测试过程中，则利用这些知识来识别相似的行为（Sun等人，2015年；Wu等人，2017年）。

最近，研究人员探索了多种方法，如基于机器学习（ML）的方法、变换器以及迁移学习，以提高人类行为识别的准确性和性能（Hassan等人，2024年）。随着技术的发展，用于识别行为的方法逐渐转向基于深度学习（DL）算法的方法，这些算法通常在网络中提取特征并执行识别任务（Cob-Parro等人，2024年）。一些现有方法仅从人类行为中提取局部特征，这些特征仅适用于简单的行为识别，在某些情况下效果不佳，例如多人同时执行某些行为时（Ahmad等人，2023年；Cho等人，2020年）。此外，传统方法从视频的每一帧中提取特征，并根据这些特征进行训练。因此，即使特征是自动提取的，它们也仅用于特定问题。这些技术的主要缺点是它们依赖于特定问题，这使得在实际应用中存在困难（Wu等人，2017年；Sahoo等人，2020年）。

近年来，已经开发出多种技术可以从普通的RGB（红、绿、蓝）视频中估计人体姿态。这些方法有助于在RGB视频中应用可靠的基于姿态的解决方案进行人类行为识别（Perez等人，2021年）。大多数人类行为识别解决方案涉及手工制作的特征和分类算法，这些算法有效地结合了不同身体部位之间的关系，然后创建了一个高度依赖于人体骨骼结构先验知识的刚性架构（Zheng等人，2020年；Du等人，2017年）。最近的大多数方法基于卷积神经网络（CNN），它们对行为期间的姿态进行高级特征建模（Muhammad等人，2021年）。尽管在一般行为识别方面取得了有希望的结果，但传统方法在处理两个人或多个个体之间的交互时无法充分利用姿态之间的关系信息，导致性能不佳（Perez等人，2021年）。另一方面，深度神经网络（DNN）具有更强的表示能力，但需要更多的标注数据。此外，人类行为识别的主要挑战在于收集标注或“真实标记”的训练数据。尽管DNN模型在自动提取相关特征方面表现出色，但它们仍需要严格的标注来标记真实情况，这增加了从大型视频序列中标记目标活动的劳动强度（Gao等人，2021年）。此外，传统方法无法直接处理像素数据，而是通过手动标注的区域来关注帧中的特定区域，以捕捉关键信息来提高交互识别的能力（Tian等人，2020年；Meng等人，2018年）。

鉴于现有方法的不足，本研究提出了CLDA-FaXCoNet模型，以提供精确的人类行为识别结果。具体而言，双注意力的应用使模型能够选择性地关注目标区域的特定部分，突出关键细节，同时抑制其他不相关信息。此外，采用Peakutils.Peak Detection Function-based Keyframe选择方法来减少冗余和计算量，仅选择关键帧。Fast Non-Local Means（FNLM）预处理方法有助于去除关键帧中的噪声。提取显著的Deep Structural Skeletonization Gradient（DS²G）特征有助于降低维度，从而降低所提方法的计算复杂度。所提方法的主要贡献如下：

基于连续学习和双注意力的公平性感知可解释卷积网络（CLDA-FaXCoNet）： 在该模型中，双注意力的应用有效地捕捉了最具信息量的长距离上下文特征，从而提供了精确的行为识别结果。此外，通过集成SHAP，CLDA-FaXCoNet模型的鲁棒性和透明度得到了提升，这有助于清晰理解其识别过程。基于分布式权重更新的公平性感知方法有助于减轻偏见，通过基于任务的连续学习使模型更加可靠。总体而言，CLDA-FaXCoNet模型在精确识别人类行为方面表现优异。

本研究的其他部分安排如下：第2节概述了现有方法、它们的挑战和问题陈述；第3节定义了CLDA-FaXCoNet模型在识别人类行为中的工作原理；第4节讨论了CLDA-FaXCoNet模型的结果；第5节总结了研究内容并提出了未来工作方向。

部分摘录

文献综述

本节回顾了现有的行为识别方法，以深入了解这些方法。

Zaidi等人（Zaidi等人，2024年）开发了一种时间分布的CNN模型，用于从视频中检测和识别可疑的人类行为。该模型使用了监督学习算法对数据集进行标注，从而提高了模型识别可疑人类活动的准确性。然而，该模型未能充分利用...

利用基于连续学习和双注意力的公平性感知可解释卷积网络进行人类行为识别

CLDA-FaXCoNet模型用于从UCF50（UCF50行为识别数据集）和MOD20数据集中收集的视频中正确识别人类行为。图1展示了CLDA-FaXCoNet模型用于人类行为识别的框图。首先，从UCF50和MOD20数据集收集的视频被传递到关键帧选择阶段。这里使用了Peakutils.Peak Detection Function-based Keyframe选择技术来选择...

结果与讨论

本节描述了通过CLDA-FaXCoNet模型获得的实验结果，主要包括比较分析和性能分析。

结论

CLDA-FaXCoNet模型通过消除传统方法的缺点，实现了精确的人类行为识别。由于计算量较大导致执行时间较长的问题，通过使用Peakutils.Peak Detection Function-based Keyframe选择方法得到了有效解决。此外，基于FNLM的预处理技术消除了影响CLDA-FaXCoNet模型性能的噪声。同时，计算成本也显著降低。

CRediT作者贡献声明

Rahmat Ali： 数据整理。Mahammad Shabana： 数据整理。Muneeruddin Mohammed： 数据整理。Kaja Masthan： 数据整理。

资助

本研究未获得任何特定资助。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号