用于自闭症谱系障碍评估的多模态行为分析
《Pattern Recognition》:Multimodal Behavioral Analysis for Autism Spectrum Disorder Assessment
【字体:
大
中
小
】
时间:2026年02月10日
来源:Pattern Recognition 7.6
编辑推荐:
概率嵌入与可靠性感知三重损失框架提升图像匹配和3D重建中的鲁棒描述符学习。通过显式建模数据不确定性,结合自适应损失函数优化特征表示。实验验证该方法在多场景下的有效性优于传统确定性嵌入方法。
包伟超|魏晓辉|周彩霞|刘海波
湖南大学人工智能与机器人学院,中国湖南省长沙市庐山南路2号,410082
摘要
从图像块中学习局部描述符对于许多下游任务(如图像匹配和3D重建)至关重要。由于传感器噪声和几何变化等因素导致的固有观测不确定性,基于确定性嵌入的现有方法在生成适用于实际应用的鲁棒描述符方面存在局限性。因此,本文提出了一种新的鲁棒描述符学习框架,该框架采用概率嵌入和基于可靠性的三元组损失。具体来说,我们使用概率嵌入在潜在空间中表示图像块,通过预测一个分布而不是一个确定性点来明确建模不确定性。为了进一步提高鲁棒性,我们提出了一种基于可靠性的三元组损失,其核心思想是根据估计的不确定性自适应地增强可靠样本的贡献,同时减少不可靠样本的影响。所提出的框架可以无缝集成到现有的基于学习的描述符方法中。广泛的实验结果表明,所提出的框架非常有效,其衍生方法在三个不同的数据集上均优于原始方法和其他基线方法。代码可在此处获取:
https://github.com/hnu-VML/bwc/tree/main/UNCERTAINTY_DESC
引言
提取局部特征对于许多计算机视觉应用至关重要,包括SLAM[1]、[2]、[3]、视觉定位[4]、[5]和3D重建[7]、[8]。提取局部特征的方法可以分为两大类:联合检测与描述(JDD)方法和先检测后描述(DtD)方法。JDD方法以整个图像作为输入,在统一的框架内同时学习关键点检测和特征描述。尽管JDD方法有所进步,但DtD方法在多个任务中仍然具有竞争力,并且如[9]所示能够实现最佳性能。DtD方法将特征提取分为两个连续步骤:首先检测关键点位置,然后从每个检测到的关键点为中心的图像区域提取基于块的局部描述符。这种方法的性能在很大程度上依赖于这些基于块的局部描述符来编码视觉信息,以实现鲁棒的图像匹配[10]。
一般来说,基于块的局部描述符可以分为两大类:手工制作的描述符[11]、[12]和基于学习的描述符[13]、[14]、[15]、[16]。得益于专门的滤波器和采样策略,手工制作的描述符(如尺度不变特征变换(SIFT)[11]和加速鲁棒特征(SURF)[12])能够有效捕获结构信息,同时忽略对外部干扰高度敏感的局部细节。然而,这些描述符严重依赖于专家的先验知识,仅在特定场景下表现良好,这限制了它们的进一步发展。
与手工制作的描述符不同,基于学习的描述符[13]、[14]、[15]、[16]使用深度网络自动从数据中提取高级特征,在处理复杂场景时表现出更高的鲁棒性。然而,基于学习的描述符通常基于确定性嵌入,这无法考虑图像块中的固有观测不确定性。这种不确定性由传感器噪声和几何变化等因素引起,会破坏视觉观测与其潜在语义之间的一致性。如图1所示,和形成的匹配对对应于同一个物理点,而和形成的非匹配对对应于不同的物理点。这些块是从在不同条件下捕获的图像中提取的。如图1(a)所示,现有的基于学习的描述符将图像块表示为潜在空间中的确定性点,表示为,其中g是一个映射函数。匹配块对的描述符之间的距离大于非匹配块对的距离,导致错误匹配。造成这个问题的原因是确定性嵌入无法处理数据不确定性。
为了解决上述问题,本文提出了一种新的概率框架用于局部描述符学习。具体来说,我们首先使用概率嵌入通过将输入块映射到潜在空间中的多变量高斯分布来明确建模不确定性,而不是使用确定性嵌入。多变量高斯分布的均值表示最可能的特征,因为它是分布中概率最高的点。同时,高斯分布的方差捕获了不确定性。如图1(b)所示,图像块由概率嵌入表示
。这种概率表示方法鼓励匹配对的描述符之间的距离更小
,而非匹配对的描述符之间的距离更大
,从而提高了描述符的鲁棒性。然后,我们设计了一种基于可靠性的三元组损失,通过根据估计的不确定性自适应地减少对不可靠样本的关注来指导模型在训练过程中学习更鲁棒的表示。最后,我们提出了一种组合优化函数来指导模型的优化。总之,本文的贡献可以总结如下:
•我们提出了一种可以集成到现有描述符学习方法中的概率框架。
•我们提出使用概率嵌入来表示局部块,以解决数据不确定性问题,这有助于减小(或增大)匹配(或非匹配)描述符对之间的距离,从而提高描述符的鲁棒性。
•我们设计了一种基于可靠性的三元组损失,使模型能够关注重要特征并有效地学习描述符。
•广泛的实验表明了该框架的有效性,其衍生模型在三个不同的数据集上取得了有竞争力的性能。
本文的其余部分组织如下。第二节简要概述了相关工作。第三节详细介绍了所提出的方法。第四节展示了广泛的实验结果。最后,第五节提供了结论。
部分内容片段
基于块的局部描述符学习
手工制作描述符的核心基于特定的数学原理。计算机视觉中一个著名且成功的局部描述符是SIFT[11]。它构建了一个高斯尺度空间来检测关键点,并通过局部区域内的梯度方向直方图来描述特征。在SIFT出色的判别能力和鲁棒性的基础上,研究人员提出了许多变体。
背景和动机
局部描述符学习的目标是通过编码器f将图像块映射到< />维描述符空间[35]。f的核心功能是从块中提取不变特征,同时抑制传感器噪声和几何变化等不确定性因素的影响。理想情况下,不同条件下对应于同一物理点的块应该映射到描述符空间中的相邻区域。
现有的基于学习的方法依赖于
实验
我们首先详细介绍了实验设置,包括所提出方法的实现细节和所使用的数据集。接下来,我们展示了在这些数据集上获得的验证结果,并通过消融研究分析了我们方法的每个组成部分。
结论
在本文中,我们提出了一种结合概率嵌入和基于可靠性的三元组损失的鲁棒描述符学习框架。通过将图像块表示为多变量高斯分布,我们的方法既捕获了最可能的特征表示,也捕获了相关的不确定性,从而在视角变化等具有挑战性的条件下提高了鲁棒性。为了进一步利用估计的不确定性,我们引入了一种基于可靠性的三元组损失
CRediT作者贡献声明
包伟超:撰写——原始草案、方法论、调查、概念化。魏晓辉:撰写——审阅与编辑、监督、资金获取。周彩霞:可视化、软件、形式分析。刘海波:验证、监督、项目管理、资金获取。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
致谢
本工作部分得到了中国国家自然科学基金(项目编号12072366、62571187和62101183)和中央高校基本科研业务费(项目编号531118010744)的支持。
包伟超于2018年获得安徽科技大学的学士学位,2021年获得中国科技大学的硕士学位。他目前正在湖南大学攻读博士学位。他的研究兴趣包括计算机视觉和3D重建。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号