《Engineering Applications of Artificial Intelligence》:Amharic static alphabet sign language recognition based on hybrid feature extraction approach
编辑推荐:
埃塞俄比亚阿姆哈拉手语(AMASL)识别系统融合CNN与HOG特征提取,通过多场景数据采集(三星A30手机于Debre Tabor等两城市)构建34个静态字母数据集,采用Min–max归一化实现异构特征融合,5折交叉验证下SVM模型平均准确率达94.83±0.94%。
梅克万恩特·埃尔基·阿耶莱(Mequanent Erkie Ayele)| 梅库安因特·阿格涅胡·比特乌(Mekuanint Agegnehu Bitew)| 乌比·恩格德乌·海卢(Wubie Engdew Hailu)| 梅布拉图·辛蒂·格雷梅乌(Mebratu Sintie Geremew)
埃塞俄比亚德布雷塔博大学(Debre Tabor University)加法特理工学院(Gafat Institute of Technology)电气与计算机工程系
摘要
手语是听力障碍者的一种交流方式。除非听力正常的人学习手语,否则与听力障碍者的交流会变得困难。为了解决这一沟通障碍,需要一个手语识别系统。埃塞俄比亚阿姆哈拉字母手语(AMASL)与其他国家的手语有所不同,因为阿姆哈拉语是在埃塞俄比亚使用的,而且关于AMASL的研究很少。为了弥合这些沟通差距,我们提出了一种混合特征向量提取方法,以开发适合AMASL的识别模型。我们使用两部不同的手机在两个不同的城市录制了手语数据。由于卷积神经网络(CNN)具有很强的鲁棒性,能够抵抗平移、局部变形和有限的旋转变化(Lecun等人,1998年),因此将CNN与定向梯度直方图(HOG)结合用于特征提取。HOG特征在低分辨率条件、强光照变化和小规模训练数据集下也表现良好,因为它们依赖于归一化的梯度方向分布而不是原始像素值(Dalal和Triggs,2005年)。通过最小-最大特征归一化,使HOG和CNN提取的特征具有可比性。使用5折组交叉验证支持向量机(SVM),该混合特征向量的平均准确率为94.8320 ± 0.9448。
引言
手语是一种通过手势形状、动作、面部表情和身体姿势的视觉传递来传达意义的自然语言。它的发展旨在弥合聋人或听力障碍者与听力正常人群之间的沟通障碍。由于大多数听力正常的人不学习手语,沟通障碍仍然存在,导致听力障碍者被社会排斥。为了解决这个问题,需要自动手语识别(SLR)系统来促进听力正常者和听力障碍者之间的有效互动。因此,SLR不仅在工程学上具有重要意义,而且对社会也有潜在影响。
世界上存在许多手语,包括美国手语(ASL)、印度手语(ISL)、英国手语(BSL)、法国手语(FSL)、中国手语(CSL)和埃塞俄比亚手语(Dutta等人,2016年)。手语识别任务通常分为孤立识别和连续识别:孤立识别只识别单个手势或单词,而连续识别则处理视频序列中的完整从句或句子(Fakhfakh和Jemaa,2019年)。
尽管深度学习,特别是卷积神经网络(CNN),在特征提取方面代表了当前的最先进技术,但当训练数据集较小、图像质量较低或背景和光照条件变化较大时,基于CNN的模型往往表现不佳(Piramu Kailasam和Mohamed Sathik,2019年)。这些局限性促使人们探索混合或互补的特征提取策略。
许多研究人员一直在研究不同手语的SLR。然而,关于埃塞俄比亚手语(ETHSL)的研究进展较少。例如,有关ETHSL识别的研究工作有(Zerubabel,2008年)、(Admasu和Raimond,2010年)、(Tsegay和Raimond,2012年)、(Gimbi,2014年)、(Gebretinsae,2017年)、(Tamiru,2018年)以及(Yigremachew Eshetu,2019年)。尽管他们付出了努力,但在某些方面仍需进一步改进。
为此,本研究将回答以下研究问题:
?如何通过结合手工特征和深度特征来设计适合AMASL的特征提取方法?
?如何对来自手工特征和深度特征的特征向量进行归一化?
?识别的准确率达到了什么程度?
部分摘录
阿姆哈拉手指拼写手语
埃塞俄比亚正式开始使用手语是在20世纪60年代之后,这得益于美国和北欧传教士开设的聋人学校。传教士带来了他们国家使用的手语。50多年来,外国手语逐渐融入了埃塞俄比亚的聋人社区。最初,ETHSL起源于美国手语。在发展ETHSL的过程中,也融入了当地聋人学校的一些手势。以下是一些例子:
系统架构
图3展示了AMASL的总体架构。它描述了系统的总体流程,包括预处理(如调整大小、从RGB转换为灰度、亮度调整、去噪)、结合HOG和CNN的混合特征提取、特征归一化,最后使用训练样本构建KNN和SVM模型,并通过测试样本进行验证。
图像预处理
图像预处理对于改善图像数据至关重要,可以消除不必要的失真或增强某些图像特征。
数据集
由于没有标准的AMASL手语数据集或语料库,我们自己准备了数据集。我们使用来自两个不同城市的两种手机摄像头拍摄了34个阿姆哈拉静态字母手势,以确保数据的可靠性。第一部手机是三星Galaxy A30,配备三摄(5 MP+8 MP+25 MP),支持1920x1080像素的全高清视频录制和3000x4000像素的图像拍摄。
结论
在这项研究中,我们提出了一个AMASL模型,该模型包括一些图像处理(如调整大小、颜色转换、对比度受限的直方图均衡化(CLAHE)以调整对比度和亮度,以及去噪以增强数据集的图像质量),特征提取和分类。所提出的模型采用了结合CNN和HOG的混合特征提取方案,以实现有效的特征提取。经过集成处理后的手语特征
CRediT作者贡献声明
梅克万恩特·埃尔基·阿耶莱(Mequanent Erkie Ayele):撰写 – 审稿与编辑、撰写 – 原稿、软件开发、方法论、数据分析、正式分析、数据整理。梅库安因特·阿格涅胡·比特乌(Mekuanint Agegnehu Bitew):撰写 – 审稿与编辑。乌比·恩格德乌·海卢(Wubie Engdew Hailu):撰写 – 审稿与编辑。梅布拉图·辛蒂·格雷梅乌(Mebratu Sintie Geremew):撰写 – 审稿与编辑。
数据和材料的可用性
本研究使用的数据集可向相应作者索取。利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。