编辑推荐:
提出多模态时空知识融合框架,通过分层重连模块解耦时空特征并重构,优化MixUp增强数据泛化能力,跨模态辅助特征学习提升融合效果,显著提升制造业组装动作识别准确率。
Mahdi Bonyani|Maryam Soleymani|Chao Wang
美国路易斯安那州立大学Bert S. Turner建筑管理系博士生
摘要
本文介绍了一种新颖的多模态动作识别框架,该框架通过时空知识融合来解决制造装配任务中人类活动识别的复杂性问题。传统的单模态和简单多模态融合方法往往无法捕捉空间、时间和模态之间的复杂依赖关系,尤其是在实际工业环境中,动作通常是微妙的、重复的并且依赖于具体情境的。为了克服这些挑战,我们提出了一种统一的架构,包括:(i)一个多阶段层次重构模块,用于强大的空间和时间特征解耦与重构;(ii)一种时空正则化技术Optimized-MixUp(OMU),它在空间和时间轴上共同增强数据以提升泛化能力;(iii)一个跨模态辅助特征学习组件,通过利用特定模态的互补信息来增强后期融合效果。在四个基准数据集NTU RGB+D、NTU RGB+D120、HA4M和Northwestern-UCLA上进行的广泛实验表明,我们的方法优于最近的最先进方法,分别达到了98.4%、93.5%、92.0%和97.3%的顶级准确率。这些结果证实了该框架的鲁棒性、可扩展性以及其在制造环境中进行高精度人类活动识别的适用性。所提出的方法通过提供一种原理性的方法来整合异构时空数据,从而推进了信息融合领域的发展。
引言
制造业自动化的发展已经达到了一个有趣的转折点。虽然机器人技术已经成功自动化了许多简单和重复的制造任务,但需要适应性和鲁棒性的复杂装配操作仍然需要人类的参与[1]、[2]。这一现实促使人们越来越关注人机协作(HRC)作为推进智能装配程序的关键策略,它带来了生产率提高、可靠性增强和工作条件改善等好处[1]、[3]、[4]。有效HRC的核心在于理解装配任务中的人类行为。此外,实现有效HRC的一个关键挑战是机器人能够视觉感知工人并识别装配过程的当前状态[5]、[6]。大多数制造装配过程可以分解为基本动作,如拾取、放置和拧紧[7]。识别和分割这些人类动作对于工作场所的安全和效率尤为重要,因为它使机器人能够了解共享工作空间中的人类活动[7]、[8]。
传统的动作识别方法主要依赖于单一模态,如RGB视频或深度数据。然而,这些单模态方法往往难以处理实际装配任务中的复杂性和模糊性,因为动作可能表现出显著的类别内变化,并受到微妙的时空线索的影响[9]、[10]。现代方法通过分析检测到的物体与人体姿态之间的关系(特别是利用图网络处理RGB-D数据[7]、[11])在识别这些动作方面取得了成功。改进制造装配任务中的多模态动作识别的目标是通过整合多个数据源来克服传统单模态方法的局限性,从而实现对复杂人类动作的更准确解释。
在处理不确定输入时,上下文在提高识别准确性方面起着至关重要的作用。现代系统已经证明,结合上下文信息对于识别由低级动作序列组成的复杂任务是必不可少的[12]。为了解决这些挑战,最近的研究探索了利用来自多种传感模态(如RGB和深度数据RGB-D)的互补信息的多模态融合技术[13]、[14]、[15],如图1所示。例如,深度数据提供了有价值的3D结构信息,补充了RGB视频中的外观线索,而RGB视频则捕捉到了深度数据单独无法提供的动态纹理和运动模式[16]、[17]。
然而,有效融合这些异构数据源仍然是一个重大的研究挑战。简单的方法,如后期融合策略(例如PoseMap [18]),通常无法充分利用模态之间的内在协同作用。更先进的功能级融合技术显示出潜力;例如,TSMF [19]利用时间偏移模块来融合RGB和深度数据,而DRDIS [20]采用循环结构进行领域不变学习。同样,在骨骼领域,InfoGCN[21]和DSTA [22]等方法通过利用图卷积来建模几何关系,树立了基准。然而,这些最先进的方法在制造背景下常常受到几个未解决的缺点的限制。首先,基于骨骼的方法(如BlockGCN [23]和PRG-Net [24])严重依赖于准确的姿态估计,这在工业环境中经常因严重遮挡和工具交互而受到影响。其次,像DMCL [25]这样的多模态方法经常难以处理以外观为中心的RGB数据和以结构为中心的深度数据之间的语义异质性,导致模态主导,从而抑制了微妙线索。最后,现有的时空方法通常学习到高度纠缠的表示,使得难以建模识别复杂装配任务所需的复杂长距离依赖关系。本研究旨在通过引入一个明确解决这些限制的框架来弥合这些差距,该框架通过层次解耦和辅助特征学习来实现这一目标。
在这项工作中,我们提出了一个基于时空知识融合的框架来解决这些限制。我们通过将“知识”定义为不仅仅是符号规则,而是控制空间、时间和模态交互的高级语义抽象,从而将我们的方法与标准特征融合区分开来。我们的框架超越了静态融合,能够智能地:(1)解耦和重新连接时空特征以提取结构知识;(2)明确挖掘互补的、特定于模态的知识以实现协同融合。我们的关键贡献包括:
- 1.
一种改进的MixUp数据增强技术,保留了视频数据的时空结构,使得特征学习更加稳健。
- 2.
一个多阶段层次重构模块,学习领域独立的空间和时间表示,然后通过自蒸馏过程捕捉它们复杂的时空关系。
- 3.
一个跨模态辅助特征学习组件,增强了RGB和深度模态之间的互补性,从而提高了多模态融合的性能。
相关研究
现代制造动作识别系统采用了多种传感模态来捕捉工人活动。惯性测量单元(IMUs)已成为一种流行的选择,通常佩戴在工人的手腕上或集成到工具中,以高精度跟踪装配任务中的运动模式[26]、[27]。这些系统可以检测常见的装配活动,如抓取工具、敲钉子和使用螺丝刀以及操作扳手[26]。通过相机进行的视觉感知仍然
方法论
本文通过一种新颖的方法和数据增强技术,提高了RGB-D对装配动作的识别能力。首先,分解了用于可扩展特征学习的时空方法,然后使用层次重构技术恢复了时空关系。为了增加数据量,本文提供了一种独特的视频增强技术。最后,我们研究了特定于模态的辅助特征,以增强多模态后期融合的效果。
实验
本文在三个关键基准数据集上进行了广泛试验,提供了顶级准确率,以验证所提出方法的有效性。
结果与讨论
与现有模型相比,我们的框架在基准数据集上展示了显著的改进,如表1所示。如表1所示,所提出的多模态动作识别框架在所有基准数据集上都实现了卓越的顶级准确率,明显优于最先进的模型,证明了我们的时空知识融合策略的有效性。在NTU RGB+D数据集上,我们的模型在跨视图情况下达到了98.4%的准确率
时空正则化的影响
时空正则化在提高动作识别模型的鲁棒性和泛化能力方面起着关键作用,如表3所示,特别是在序列性和空间复杂性至关重要的场景中,例如制造装配任务。所提出的Optimized-MixUp(OMU)增强技术通过在训练过程中引入空间和时间扰动,克服了传统MixUp的局限性,使模型能够更好地捕捉复杂关系
结论
在这项工作中,我们提出了一个针对制造装配任务需求的多模态框架,重点在于时空知识融合。我们的方法通过多阶段层次重构机制整合了RGB和深度数据,该机制解耦并细化了空间和时间特征;一种时空增强技术(OMU)在数据稀缺和类别内变异性下提高了泛化能力;以及一个跨模态
CRediT作者贡献声明
Mahdi Bonyani:撰写——原始草稿、软件、方法论、概念化。Maryam Soleymani:撰写——原始草稿、可视化、调查、形式分析、数据管理。Chao Wang:撰写——审阅与编辑、验证、监督、资源管理、项目协调、资金获取。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。