通常情况下,人类在与环境互动时严重依赖视觉。一个简单的动作,比如从桌子上拿起咖啡杯,涉及大量的视觉计算任务,包括识别物体及其空间位置。视觉搜索是日常生活中各种活动的关键方面。对于盲人和视力受损者(BVI)来说,这可能具有挑战性,他们在日常任务中可能需要帮助[1]、[2]、[3]、[4]。通过智能手机或可穿戴设备提供的实时远程人类协助可能对BVI有所帮助[5]、[6]、[7]。然而,成本和可用性限制了这种协助的普及。历史上,计算机视觉方法已被用于帮助BVI完成各种对象识别任务,包括导航[8]、[9]。机器学习算法和硬件的进步使得为BVI开发智能移动和可穿戴辅助设备成为可能[10]。然而,在实际应用中为特定场景开发定制的对象检测解决方案是不可行的。目前,有效的视觉辅助搜索和导航辅助对于BVI来说仍是一个未满足的需求。
在进行日常活动时,我们几乎总是有特定的目的。例如,我们通常知道自己在寻找什么,在许多情况下我们也知道所寻找物体的特征。理想情况下,辅助系统应该能够理解所执行任务的本质目的,并通过沟通始终让人类参与其中。随着大型语言模型(LLMs)的出现,用户可以与AI系统进行交流。视觉语言模型(VLMs)可以通过文本描述帮助解释视觉场景。这一理念在某些最近的可穿戴设备中得到了实现,例如Ray-Ban Meta眼镜[11](其他例子包括Envision [12]、Orcam [13]、ARx AI头盔[14])。
这些支持AI的眼镜/设备配备了摄像头、扬声器和麦克风,允许用户通过语音与设备互动以获取场景信息。例如,BVI用户可以要求Ray-Ban Meta眼镜描述他们看到的内容,眼镜会拍照,然后云端的AI提供场景描述并回答一些相关问题[15]。然而,尽管这些支持AI的设备在BVI社区中普遍受到好评,但在涉及搜索和寻找周围物体的日常任务中仍存在一些局限性。
其中一个主要限制是,这些设备中使用的通用型LLMs和VLMs并未针对解释或传达各种视觉搜索任务所需的精确空间信息进行训练。因此,这些设备经常无法对方向相关查询提供具体且明确的响应。我们最近评估了最先进的大型视觉语言模型ChatGPT 4o(OpenAI)在导航场景中的方向和定位引导能力[16]。在该研究中,一个典型的方向查询是——“从这里怎么去商店?”,给定一张显示商店的图片。所需的方向信息不需要包含精确的距离,简单的指令如“向右转”和“直走”也是可以接受的。然而,AI代理只能正确回答64%的方向查询。相比之下,当人类提供场景描述(通常比AI生成的描述短,但经常包含一些空间布局信息)时,正确率提高到了81%。除了错误识别场景物体相对于用户的位置或方向外,提供空间方向引导时还可能出现幻觉现象,这可能会让用户感到困惑,甚至在多次误导性响应后完全不再信任该设备。
现有支持AI的智能眼镜的另一个主要限制是,它们通常通过单张快照或短时间内的多张快照来捕捉场景,因为它们依赖云端AI来处理捕获的图像。这限制了系统的速度和响应能力。虽然这种操作模式在用户需要一般性环境描述时可能有用,但对于在与其他物体或环境进行互动时引导BVI来说是不够的。由于这些限制,通过现有智能可穿戴设备访问的AI代理可能无法有效帮助BVI完成日常生活中的各种任务(图1)。
总体而言,有效帮助BVI在周围环境中找到物品的关键要求包括:i) 理解需求的能力,ii) 准确表示和定位搜索目标,以及 iii) 能够正确沟通并主动引导用户找到目标。特别是实时反馈的主动引导,对于BVI用户在自然环境中高效进行视觉搜索至关重要。尽管现有的支持AI的可穿戴设备在某些方面有所改进,但它们往往无法满足BVI用户在视觉搜索方面的需求,尤其是在需要精确空间定位的情况下。这主要是因为驱动这些设备的底层AI模型并未针对此类任务进行优化。然而,用于对象检测和分割的深度学习计算机视觉模型可以帮助实时定位场景中的物体[17]。
有一些低视力应用和设备提供了对象识别功能,例如SeeingAI、Lookout、TapTapSee、Supersense等。然而,这些应用/设备中使用的模型通常是针对特定类别或特定情况进行训练的。虽然在某些特定场景下有用,但在面对多样化的自然使用场景时,有限的类别标签限制了传统对象检测模型的实用性。
最近在零样本开放词汇对象检测方面的进展有助于扩展检测多种物体的能力。此外,开放词汇对象检测模型为用户提供了一种与设备互动的方式,类似于支持AI的消费级眼镜,从而使搜索可以以交互方式进行。
由于视觉语言模型不提供空间定位信息,因此目前仍存在有效检测/定位以及向用户提供反馈的未满足需求。我们提出了一种结合本体感觉反馈和与设备交互的新概念,用于在自然环境中进行对象检测。基于这一概念的原型视觉辅助系统实现了开放词汇对象检测,并根据物体相对于用户的空间位置通过实时音频反馈为用户提供引导。该解决方案实现在一个智能眼镜平台上,用户可以通过扫描头部来无拘无束地搜索周围环境中的物体。眼镜通过内置摄像头捕捉视频,原型系统实时处理帧以检测物体,并通过眼镜中的立体声扬声器传达物体在水平和垂直方向上的空间位置(相对于用户头部的位置)。
我们使用一系列家用物品来评估我们的实现,展示了开放词汇对象检测模型在现实世界环境中的能力和局限性。我们还通过对蒙眼受试者进行视觉搜索任务时间的测量来评估所提出系统的效果,并将其结果与Ray-Ban Meta眼镜进行了比较。我们进行人体受试者研究的假设是,所提出的基于智能眼镜的解决方案比当前的支持AI的消费级设备更有效地帮助用户寻找物体。我们还与一位盲人在真实世界环境中进行了对象定位任务的案例研究。