《Knowledge-Based Systems》:Advanced Object Categorization through Temporal Channel Reconfiguration Multi-Graph Convolutional Neural Networks Optimized with Lotus Effect Optimization Algorithm
编辑推荐:
对象分类与场景理解面临复杂背景和计算负担的挑战,传统分割方法难以适应真实环境。本文提出OC-TCRMCNN-LEOA框架,通过RBAEKF预处理去噪和尺寸调整,SREC实现鲁棒区域分割,FA-ResNet提取动态几何特征,结合TCRMCNN建模时空通道关系,最终利用莲效应优化算法(LEOA)优化权重参数。实验表明该方法较现有方法准确率提升99.4%,召回率98.65%,错误率仅0.6%。
苏达卡先生(Mr. Sudhakar C) | 苏甘蒂博士(Dr. Suganthi S)
印度泰米尔纳德邦特里奇市萨马亚普拉姆(Samayapuram)达纳拉克什米·斯里尼瓦桑大学(Dhanalakshmi Srinivasan University)电子与通信工程系,邮编621112。
摘要
由于现有的基于像素的处理技术存在杂乱现象和计算负担,对象识别和场景理解面临重大挑战。传统的分割方法在复杂的真实世界环境中往往无法有效适应,这限制了它们的可靠性。为了克服这些限制,本文提出了一种利用时间通道重构多图卷积神经网络(Temporal Channel Reconfiguration Multi-Graph Convolutional Neural Networks)并结合莲花效应优化算法(Lotus Effect Optimization Algorithm,简称LEOA)进行优化的先进对象分类方法(OC-TCRMCNN-LEOA)。首先,从PASCAL VOC 2012数据集中收集低质量的输入图像。然后,将输入图像送入预处理阶段。在预处理过程中,使用规则化偏差感知集成卡尔曼滤波器(Regularized Bias-Aware Ensemble Kalman Filtering,简称RBAEKF)去除图像中的噪声,并通过该滤波器调整图像大小。预处理完成后,将处理后的图像送入稀疏重构证据聚类(Sparse Reconstructive Evidential Clustering,简称SREC)算法,将图像划分为有意义的区域。接着,将分割后的图像送入特征仿射残差网络(Feature Affine Residual Network,简称FA-ResNet)以提取动态几何特征,如形状、结构和颜色。提取的动态几何特征随后被送入TCRMCNN进行对象分类,能够识别出飞机、猫、椅子、牛、餐桌、狗、自行车、鸟、船、瓶子、公交车、汽车、马、摩托车、人、盆栽植物、羊、沙发和电视显示器等对象。最后,利用LEOA算法优化TCRMCNN的权重参数,以提高对象分类的准确性。实验验证表明,与现有方法相比,OC-TCRMCNN-LEOA的准确率提高了99.4%,召回率提高了98.65%,错误率降低了0.6%。这些结果突显了所提出框架在多种应用领域的有效性和可靠性。
引言
在复杂的视觉环境中进行对象分类是计算机视觉中的一个基本挑战,因为现实世界图像中存在较大的类别内变化、背景杂乱、光照变化以及噪声[1]。对于包括自动驾驶系统、监控、医学分析和智能多媒体检索在内的许多应用而言,准确解读视觉内容至关重要[[2],[3],[4]]。图像数据集的规模和多样性不断增加,因此设计能够在不同条件下可靠提取区分性表示并泛化的强大框架变得越来越重要[5]。基于学习的视觉分析技术的进步提高了识别性能[6]。然而,许多现有方法依赖于对整个图像的直接处理,当无关的背景信息占据主导地位时,这通常会导致性能下降[7]。噪声、遮挡和模糊的对象边界使传统的特征提取和分类方法的效果受到限制[8,9]。因此,先进的对象分类方法越来越强调结构化表示学习,通过多个阶段逐步细化视觉信息[10]。在区域级分析中保留有意义的空间和语义关系的同时实现局部特征建模已成为一个有前景的方向[11]。此外,结合视觉实体之间的关联推理使模型能够捕捉到在杂乱场景中进行准确分类所需的关键上下文依赖性[12]。
在智能系统中理解场景是一项要求很高的任务,在研究社区中引起了广泛关注,尤其是在基于视觉的系统领域。尽管取得了进展,并且有各种实际应用,如自动驾驶、无人机定位、医疗保健、人工视觉、基于GPS的定位、人类活动识别和无人机(UAV)等,但由于背景杂乱、遮挡、尺度变化等问题,准确的场景识别和标注仍然难以实现。这些挑战需要强大且具有适应性的方法来弥合低级视觉特征和高级场景解释之间的语义差距,这也是开展这项工作的动机。
所提出的OC-TCRMCNN-LEOA框架的创新之处在于其分层和优化意识的对象分类策略,它不同于传统的端到端卷积神经网络(CNN)检测器。与现有方法不同,该方法引入了使用LEOA优化的TCRMCNN,以在区域层面明确建模区域间依赖性和时间特征相关性。证据区域划分、仿射残差特征增强和基于图的推理的集成使得对象表示超越了像素级学习,而LEOA则能够自适应地优化网络权重参数,避免在高度非凸目标空间中过早收敛。
本研究的主要贡献总结如下:
•在预处理阶段使用RBAEKF有效去除噪声并自适应调整图像大小,提高了来自PASCAL VOC 2012数据集的低分辨率输入图像的质量。
•引入SREC进行鲁棒且有意义的图像分割,使系统能够在对象边界之间保留上下文和结构信息。
•使用FA-ResNet提取动态几何特征,如形状、结构和颜色,提高了方法区分相似对象类别的能力。
•TCRMCNN能够有效建模通道间和类别间的关系,提高了对象分类的精确度和上下文理解能力。
•利用LEOA优化TCRMCNN的权重参数,从而提高了收敛速度、分类准确率并降低了错误率。
本文的其余部分结构如下:第2节为文献综述,第3节描述了提出的技术,第4节展示了结果和讨论,第5节提出了结论。
文献综述
文献中提出了许多与深度学习(DL)驱动的对象分类相关的研究工作;这里回顾了一些当前的研究:
Waheed等人[13]提出了一种基于深度信念网络(deep belief network)的多对象检测和场景检测方法,该方法使用最大熵缩放超像素(Maximum Entropy Scaled Super-Pixels,简称MEsSP)分割模型,通过局部能量项识别像素,并根据熵方法进行超像素分割。
提出的方法论
在本节中,介绍了通过先进的元启发式优化策略优化分类性能的OC-TCRMCNN-LEO对象分类方法。该框架包括四个主要阶段:图像采集、预处理、特征提取和带有优化的对象分类。首先,从PASCAL VOC 2012数据集收集输入图像,并使用RBAEKF进行预处理。预处理后的图像被分割成有意义的区域
结果与讨论
本节展示了OC-TCRMCNN-LEOA技术的实验结果。所有实验均使用一致的评估协议在各个数据集上进行。每个数据集被随机划分为50%的训练集和50%的验证集,并保持类别分布平衡。为防止数据泄露,所有预处理操作仅在训练数据上执行。学习到的预处理参数随后被固定并应用于验证集,而无需对验证集进行任何修改
讨论
结果表明,所提出的OC-TCRMCNN-LEOA框架能够在具有挑战性的视觉环境中实现强大的对象分类。通过结合基于RBAEKF的预处理来减少噪声和进行图像标准化,使用SREC进行不确定性感知的区域划分,以及使用FA-ResNet提取动态几何特征,TCRMCNN进一步通过捕捉区域间关系并自适应强调区分性通道来提高分类效果,而LEOA则增强了收敛性
结论
在本节中,成功实现了OC-TCRMCNN-LEO。该方法实现了特征一致性的提升、稳定的图构建以及在不同对象类别间的更好区分能力。所提出的方法达到了98.65%的召回率和0.6%的错误率。OC-TCRMCNN-LEO框架的一个关键局限性是其性能对区域划分的质量敏感,因为聚类阶段的错误可能会传播并影响后续特征处理
潜在利益冲突的披露
作者声明没有利益冲突。
伦理批准和参与同意
本文不包含任何由作者进行的涉及人类参与者的研究。
人类和动物伦理
不适用
出版同意
不适用
支持数据的可用性
由于本研究没有创建或分析新的数据,因此不涉及数据共享。
资助
本研究未获得公共部门、商业部门或非营利部门的任何特定资助。
材料与方法
不适用
结果与讨论
不适用
声明
不适用
作者贡献
苏达卡先生(Mr. Sudhakar C) - (通讯作者):概念化、方法论、撰写-原始草案准备
苏甘蒂博士(Dr. Suganthi S) – 指导
CRediT作者贡献声明
苏达卡先生(Mr. Sudhakar C):撰写 – 原始草案。
苏甘蒂博士(Dr. Suganthi S):指导。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作