《Knowledge-Based Systems》:HyTexNet: Percentile-Guided Local Encoding and Deep Feature Fusion for Enhanced Texture Classification
编辑推荐:
HyTexNet提出一种混合框架,结合自适应百分位局部编码和DenseNet-121的深度特征,有效处理光照变化,提升纹理分类的准确性和鲁棒性,在多个数据集上表现优异且计算高效。
范达娜·古普塔博士|阿希什·米什拉博士|尼尚特·施里瓦斯塔瓦
印度北方邦诺伊达市杰皮信息技术学院计算机科学与工程系
摘要
纹理分类在计算机视觉中仍然是一个具有挑战性的问题,尤其是在光照、姿态和尺度变化的情况下。虽然深度网络提供了强大的语义表示能力,但它们往往忽略了细粒度的局部结构;而手工制作的描述符虽然具有可解释性,但在适应性方面存在不足。为了解决这些限制,本文介绍了HyTexNet,这是一个混合框架,它将基于百分位数的局部编码与DenseNet-121的深度嵌入相结合。所提出的编码方案使用基于邻域强度差异第75百分位数的自适应阈值,使描述符能够捕捉到显著的局部对比度,同时抑制冗余变化。这种局部表示与通过全局平均池化获得的全局语义特征相结合,一个轻量级的融合头优化了用于分类的联合特征空间。在四个基准数据集(UIUC、Kylberg、Brodatz和KTH-TIPS2b)上的广泛实验表明,HyTexNet的分类准确率分别为95.65%、100%、99.22%和99.79%,显示出在多种纹理类别和成像条件下的强大性能。在具有挑战性的真实世界纹理数据集(DTD)上的额外评估进一步证明了该框架的鲁棒性和泛化能力,超出了受控基准设置的范围。除了准确性之外,该框架还紧凑且计算效率高,适用于数据和技术资源有限的场景。这些结果使HyTexNet成为近期纹理分析方法的一个平衡替代方案,它结合了鲁棒性、可解释性和可扩展性,填补了手工制作方法和基于深度学习的方法之间的差距。
引言
纹理分类是图像分析中的一个关键任务,涉及识别区分不同材料或表面的重复空间模式。这种能力在许多应用中至关重要,例如医学诊断[1]、面部表情分析[2]、工业检测[3]、物体识别[4]、农业监测[5]和地形分析[6]。在触觉感知和自主机器人等新兴领域,快速准确的表面识别也非常重要[7,8]。最近,纹理分析在实时系统(如触觉互联网(TI)中也变得相关,其中快速的表面解释可以提高响应性。尽管没有一种被广泛认可的纹理定义,但纹理通常被描述为形成尺度不变和旋转不变的空间模式的像素强度的局部变化[9]。
尽管卷积神经网络(CNN)在通用图像识别方面取得了巨大成功,但它们直接用于纹理处理的效果有限。CNN倾向于强调全局语义特征,经常忽略纹理的细粒度、重复的结构属性。此外,卷积层中编码的空间依赖性在全连接层中被稀释,降低了对平移、旋转和缩放等常见变化的鲁棒性[10]。为了解决这些限制,最近引入了分形池化[7]和基于图的建模[8]等池化方法,这突显了对特定于纹理的架构的持续需求。
深度神经网络的迁移学习已被广泛采用,以利用预训练的backbone并降低训练成本[[11], [12], [13], [14], [15]]。全局平均池化(GAP)[13,16, 17]和中级特征提取[18]等方法提供了密集的、变换不变的表示,但通常需要大型、带注释的数据集,并且计算成本较高。同时,手工制作的描述符(如局部二值模式(LBP)[19]及其扩展提供了可解释性和简洁性,但牺牲了在不同情况下的适应性。局部二值卷积网络(LBCNNs)[20]试图弥合这一差距,但仍继承了固定局部编码的局限性。更近期的自适应描述符,包括尺度和模式自适应LBP[21],再次证明了手工制作方法的竞争力,但需要精心设计才能确保其鲁棒性。
为了克服这些限制,提出了HyTexNet,这是一种将基于百分位数的局部纹理编码与DenseNet-121深度嵌入相结合的混合架构。与固定阈值的LBP扩展不同,它采用了自适应的第75百分位数阈值机制,增强了对光照变化的鲁棒性。得到的直方图与通过全局平均池化(GAP)提取的全局语义特征相结合,形成了微结构模式和高级语义的紧凑且互补的表示。重要的是,HyTexNet在无需重新训练backbone的情况下实现了鲁棒的泛化,确保了高准确性和较低的计算成本。该工作的主要贡献包括:
•提出HyTexNet,
一种结合基于百分位数的局部编码与DenseNet-121嵌入的混合模型。•引入了一种自适应的百分位数阈值机制,以实现鲁棒的照明和尺度不变的纹理表示。
•开发了一种轻量级的特征融合策略,共同优化了手工制作的特征和深度特征。
•在四个基准数据集上实现了最先进的准确率,超过了手工制作的方法、混合方法和CNN基线。
•证明了效率和可扩展性,使该框架适用于资源受限的真实世界应用。
总结来说,HyTexNet验证了将自适应局部描述符与密集连接的深度特征相结合可以产生一种强大、轻量级且可泛化的纹理分类解决方案。在四个基准数据集(UIUC(95.65%)、Kylberg(100%)、Brodatz(99.22%)和KTH-TIPS2b(99.79%)上的全面评估表明,HyTexNet的表现始终优于手工制作的描述符和独立的CNN。这些结果确立了HyTexNet作为一个通用、可扩展且计算效率高的真实世界纹理分类框架的地位。
本文的其余部分结构如下。第2节讨论了关于手工制作纹理描述符、深度学习方法和混合融合技术的相关工作。第3节描述了所提出的HyTexNet架构,包括基于百分位数的编码和CNN-手工制作特征的融合。第4节报告了实验设置、数据集和结果,以及扩展的消融研究和鲁棒性分析。第5节总结了本文并概述了未来的工作方向。
相关工作
纹理分类研究逐渐从手工制作的描述符转向深度学习方法。最早且最具影响力的技术之一是局部二值模式(LBP)[19],它通过围绕中心像素对像素强度进行阈值处理来实现灰度和旋转不变性。尽管LBP简单且计算效率高,但其固定的阈值机制使其对光照变化和噪声敏感。后续的扩展引入了自适应阈值处理
提出的HyTexNet框架
所提出的HyTexNet框架结合了基于百分位数的局部纹理编码与DenseNet-121深度嵌入,以实现强大且准确的纹理分类。该方法包括四个主要阶段:
1.自适应局部编码 – 使用基于百分位数的阈值处理捕获细粒度的纹理模式,使表示对光照和噪声变化更加鲁棒。
2.深度语义特征提取 – 利用DenseNet-121嵌入提取高级语义和上下文线索
结果与讨论
在实验中,HyTexNet与四个基准数据集(KTH-TIPS2b [46]、UIUC [23]、Brodatz [47]和Kylberg [48] [图4])上的各种现有纹理分类方法进行了比较。竞争方法包括SBP [49]、CLBP [24]、BRINT [50]、EMD-GMM [51]、CJLBPABMV [52]、LGONBP [53]、DSTNet [54]、DCN-LS [33]、AlexNet [55]、VGGVD [56]、6LBP+CellNN [57]、6LBP+dCellNNs [57]、MGLCM [58]、EWCC-LCFB [59]、SVM-PSO [60]、RALBGC [61]、LBP [19]、Modified CNN+WOA [62]、CLBC [63]等
结论
本研究提出了HyTexNet,这是一种混合纹理分类框架,它将基于百分位数的局部纹理编码与DenseNet-121的深度语义嵌入相结合。通过使用基于邻域强度差异第75百分位数的自适应阈值,所提出的编码有效地保留了具有区分性的微纹理模式,同时抑制了噪声和光照引起的变化。由此产生的混合表示结合了可解释性
伦理批准和参与同意
不适用。(因为没有涉及人类或动物受试者。)
资助
本研究没有从公共、商业或非营利部门的资助机构获得任何特定资助。
数据和材料的可用性
本研究使用的数据集(UIUC、Brodatz、Kylberg、KTH-TIPS2b和DTD)是公开可用的。处理后的数据和实现代码将在合理请求下提供。未引用的参考文献
[[68], [69], [70]]
CRediT作者贡献声明
范达娜·古普塔博士:撰写 – 原始草案、验证、方法论、调查、数据管理、概念化。阿希什·米什拉博士:撰写 – 审稿与编辑、监督、资源管理、项目管理、形式分析。尼尚特·施里瓦斯塔瓦:撰写 – 审稿与编辑、可视化、验证、项目管理、方法论、调查、数据管理、概念化。
利益冲突声明
作者声明与本手稿无关的利益冲突。没有任何财务、个人或专业关系影响了本研究中的研究、分析或结论。
如果出现任何未公开的冲突,作者将立即通知期刊。
致谢
作者感谢杰皮信息技术学院和杰皮大学阿努普沙尔在本研究期间提供的学术和计算支持。