利用智能眼镜帮助盲人获取日常使用的物品

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

利用智能眼镜帮助盲人获取日常使用的物品

《Displays》：Assisting the blind to reach daily objects using smart glasses

【字体：大中小】 时间：2026年02月12日 来源：Displays 3.4

编辑推荐：

　　视障人士通过智能眼镜实时检测周围物体并接收空间音频反馈，可显著提升寻物效率。实验表明，该方案平均任务时间（53秒）较Meta眼镜（126秒）缩短超50%（p<0.001），且成功应用于超市购物场景。

阿迪亚·辛格（Aditya Singh）| 认识阿尼尔·巴努沙利（Anil Bhanushali）| 罗景武（Jingwu Luo）| 罗刚（Gang Luo）| 施里尼瓦斯·彭德利克（Shrinivas Pundlik）

美国马萨诸塞州波士顿市Mass Eye & Ear的Schepens眼科研究所

摘要

对于盲人和视力受损者（BVI）来说，在日常生活中寻找周围环境中的物体是一项具有挑战性的任务。目前由大型语言模型（LLMs）和视觉语言模型（VLMs）驱动的辅助技术可以通过对话为BVI提供场景描述。然而，这些通用型LLMs/VLMs在帮助BVI找到日常物品或目的地方面往往效率低下，因为它们并未针对解释或传达空间信息进行优化。我们开发了一种智能眼镜解决方案，该方案可以利用开放词汇对象检测模型来协助BVI寻找各种特定物体，而不仅限于模型训练中固定的类别。在我们的实现中，眼镜拍摄的视频流可以在本地或其他连接设备（如智能手机或计算机）上使用开放词汇对象检测模型进行处理。用户可以口头输入自定义搜索指令。这种免提解决方案允许人们通过移动头部自然地扫描周围环境，立体声音频提示会提供水平和垂直方向的方向指引，从而帮助准确找到目标物体。我们进行了一项涉及5名蒙眼受试者的初步研究，他们在各种干扰因素中成功找到了特定物体（例如拿起红色瓶子、找到空椅子）。将这种智能眼镜解决方案与内置Meta AI进行场景识别的Ray-Ban Meta眼镜进行了比较。使用我们的解决方案完成任务的平均时间（53秒）显著低于Meta眼镜（126秒，p<0.001）。该设备还被证明可以在杂货购物场景中成功协助盲人用户。这项工作表明，主动的方向引导（通常在VLMs中缺失，但我们的智能眼镜解决方案提供了这一功能）有助于与周围环境互动，例如在寻找物体和目的地时。

引言

通常情况下，人类在与环境互动时严重依赖视觉。一个简单的动作，比如从桌子上拿起咖啡杯，涉及大量的视觉计算任务，包括识别物体及其空间位置。视觉搜索是日常生活中各种活动的关键方面。对于盲人和视力受损者（BVI）来说，这可能具有挑战性，他们在日常任务中可能需要帮助[1]、[2]、[3]、[4]。通过智能手机或可穿戴设备提供的实时远程人类协助可能对BVI有所帮助[5]、[6]、[7]。然而，成本和可用性限制了这种协助的普及。历史上，计算机视觉方法已被用于帮助BVI完成各种对象识别任务，包括导航[8]、[9]。机器学习算法和硬件的进步使得为BVI开发智能移动和可穿戴辅助设备成为可能[10]。然而，在实际应用中为特定场景开发定制的对象检测解决方案是不可行的。目前，有效的视觉辅助搜索和导航辅助对于BVI来说仍是一个未满足的需求。

在进行日常活动时，我们几乎总是有特定的目的。例如，我们通常知道自己在寻找什么，在许多情况下我们也知道所寻找物体的特征。理想情况下，辅助系统应该能够理解所执行任务的本质目的，并通过沟通始终让人类参与其中。随着大型语言模型（LLMs）的出现，用户可以与AI系统进行交流。视觉语言模型（VLMs）可以通过文本描述帮助解释视觉场景。这一理念在某些最近的可穿戴设备中得到了实现，例如Ray-Ban Meta眼镜[11]（其他例子包括Envision [12]、Orcam [13]、ARx AI头盔[14]）。

这些支持AI的眼镜/设备配备了摄像头、扬声器和麦克风，允许用户通过语音与设备互动以获取场景信息。例如，BVI用户可以要求Ray-Ban Meta眼镜描述他们看到的内容，眼镜会拍照，然后云端的AI提供场景描述并回答一些相关问题[15]。然而，尽管这些支持AI的设备在BVI社区中普遍受到好评，但在涉及搜索和寻找周围物体的日常任务中仍存在一些局限性。

其中一个主要限制是，这些设备中使用的通用型LLMs和VLMs并未针对解释或传达各种视觉搜索任务所需的精确空间信息进行训练。因此，这些设备经常无法对方向相关查询提供具体且明确的响应。我们最近评估了最先进的大型视觉语言模型ChatGPT 4o（OpenAI）在导航场景中的方向和定位引导能力[16]。在该研究中，一个典型的方向查询是——“从这里怎么去商店？”，给定一张显示商店的图片。所需的方向信息不需要包含精确的距离，简单的指令如“向右转”和“直走”也是可以接受的。然而，AI代理只能正确回答64%的方向查询。相比之下，当人类提供场景描述（通常比AI生成的描述短，但经常包含一些空间布局信息）时，正确率提高到了81%。除了错误识别场景物体相对于用户的位置或方向外，提供空间方向引导时还可能出现幻觉现象，这可能会让用户感到困惑，甚至在多次误导性响应后完全不再信任该设备。

现有支持AI的智能眼镜的另一个主要限制是，它们通常通过单张快照或短时间内的多张快照来捕捉场景，因为它们依赖云端AI来处理捕获的图像。这限制了系统的速度和响应能力。虽然这种操作模式在用户需要一般性环境描述时可能有用，但对于在与其他物体或环境进行互动时引导BVI来说是不够的。由于这些限制，通过现有智能可穿戴设备访问的AI代理可能无法有效帮助BVI完成日常生活中的各种任务（图1）。

总体而言，有效帮助BVI在周围环境中找到物品的关键要求包括：i) 理解需求的能力，ii) 准确表示和定位搜索目标，以及 iii) 能够正确沟通并主动引导用户找到目标。特别是实时反馈的主动引导，对于BVI用户在自然环境中高效进行视觉搜索至关重要。尽管现有的支持AI的可穿戴设备在某些方面有所改进，但它们往往无法满足BVI用户在视觉搜索方面的需求，尤其是在需要精确空间定位的情况下。这主要是因为驱动这些设备的底层AI模型并未针对此类任务进行优化。然而，用于对象检测和分割的深度学习计算机视觉模型可以帮助实时定位场景中的物体[17]。

有一些低视力应用和设备提供了对象识别功能，例如SeeingAI、Lookout、TapTapSee、Supersense等。然而，这些应用/设备中使用的模型通常是针对特定类别或特定情况进行训练的。虽然在某些特定场景下有用，但在面对多样化的自然使用场景时，有限的类别标签限制了传统对象检测模型的实用性。

最近在零样本开放词汇对象检测方面的进展有助于扩展检测多种物体的能力。此外，开放词汇对象检测模型为用户提供了一种与设备互动的方式，类似于支持AI的消费级眼镜，从而使搜索可以以交互方式进行。

由于视觉语言模型不提供空间定位信息，因此目前仍存在有效检测/定位以及向用户提供反馈的未满足需求。我们提出了一种结合本体感觉反馈和与设备交互的新概念，用于在自然环境中进行对象检测。基于这一概念的原型视觉辅助系统实现了开放词汇对象检测，并根据物体相对于用户的空间位置通过实时音频反馈为用户提供引导。该解决方案实现在一个智能眼镜平台上，用户可以通过扫描头部来无拘无束地搜索周围环境中的物体。眼镜通过内置摄像头捕捉视频，原型系统实时处理帧以检测物体，并通过眼镜中的立体声扬声器传达物体在水平和垂直方向上的空间位置（相对于用户头部的位置）。

我们使用一系列家用物品来评估我们的实现，展示了开放词汇对象检测模型在现实世界环境中的能力和局限性。我们还通过对蒙眼受试者进行视觉搜索任务时间的测量来评估所提出系统的效果，并将其结果与Ray-Ban Meta眼镜进行了比较。我们进行人体受试者研究的假设是，所提出的基于智能眼镜的解决方案比当前的支持AI的消费级设备更有效地帮助用户寻找物体。我们还与一位盲人在真实世界环境中进行了对象定位任务的案例研究。

系统设计

该系统由一个智能眼镜平台组成，该平台捕捉场景视频帧并将其流式传输到本地计算机或智能手机上进行模型推理。我们总共实现了3种配置：(1) 作为独立的基于智能眼镜的解决方案，其中感测和处理在本地完成；(2) 智能眼镜与智能手机配对；(3) 智能眼镜与计算机配对（图2）。之所以实现3种不同的配置，是为了研究它们的

模型评估

在我们的测试集（n = 67个物体）上，开放词汇模型的整体精度、召回率和假阳性率分别为56%、41%和1.2%。对于属于COCO类别且提示与类别名称相同的物体（n = 6），精度、召回率和假阳性率分别为64%、76%和4%。对于属于COCO类别但提示修改后的物体（n = 15），精度、召回率和假阳性率分别为58%、46%和1%。最后，对于

讨论

LLMs和VLMs的最新进展推动了支持AI的可穿戴设备的引入，这些设备可以用作BVI的视觉辅助工具。VLMs能够识别的物体似乎不受传统模型训练固定类别的限制。然而，由于LLMs/VLMs在提供精确和有意义的空间信息方面的能力有限，以及基于快照的云处理方式，它们在主动引导用户方面仍然不够有效

结论

我们提出了一种使用智能眼镜的概念验证视觉辅助系统，帮助BVI在周围环境中找到并到达特定物体。这是最早评估新型实时开放词汇模型在帮助BVI进行对象检测方面的应用之一。我们的目标是展示基于开放词汇模型的方法潜力，并指出广泛采用的VLM（Meta AI）的局限性，希望激励研究社区进一步探索这一领域。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。

致谢

这项研究部分由One step forward基金会和NIH资助（EY034345项目）。

联系信箱：

粤ICP备09063491号

摘要

引言

系统设计

模型评估

讨论

结论

利益冲突声明

致谢

热点排行