通过基于视觉-语言模型的乘客识别技术提升机器人出租车的接客效率

《IEEE Transactions on Intelligent Transportation Systems》:Enhancing Robotaxi Pick-Up Through Vision-Language-Model-Based Passenger Identification

【字体: 时间:2026年02月27日 来源:IEEE Transactions on Intelligent Transportation Systems 8.4

编辑推荐:

  Robotaxis作为城市交通的重要组成部分,预设上车点导致活动集中、交通拥堵、绕路等问题,且GNSS定位在城区不可靠。本文提出VLMIdentification框架,通过多模态交互(文本/语音)和实时视觉识别(LVLM)实现精准乘客定位,包含输入处理、候选搜索、身份匹配三模块,并构建HID数据集验证其鲁棒性和跨场景泛化能力。

  

摘要:

机器人出租车正成为城市交通的关键组成部分。然而,目前大多数机器人出租车依赖于预设的接客点,这导致机器人出租车活动集中,加剧了局部交通拥堵,增加了空驶距离和绕行距离,延长了道路占用时间,并提高了运营成本。基于GNSS的定位技术在城市区域可能不可靠。通常,人类驾驶员可以通过文本/语音交互与乘客沟通,以准确找到并到达乘客的位置。如何将机器人出租车的视觉识别结果与人类的文本/语音描述对齐是一个关键挑战。因此,我们提出了一个全面的框架,包括其架构、需求、操作逻辑和工作流程,以增强乘客与机器人出租车之间的互动,从而实现无需预设接客点的准确接客。在该框架中,核心算法是VLMIdentification,这是一种基于LVLM的实时人类识别模型。VLMIdentification包含三个模块:i) 人类输入处理,从乘客的文本/语音中提取文本特征,并将以人类为中心的描述转换为以机器人出租车为中心的属性;ii) 候选者搜索,将传统检测器与LVLM结合使用,以适应场景复杂性并将检测结果转换为文本描述符;iii) 人类识别,将处理后的乘客描述与候选者进行匹配,以找到正确的人。我们定义了多模态任务的人类识别方法,提出了评估指标,并基于现有的自动驾驶数据集构建了一个新的HID(带描述的人类识别)数据集。实验结果表明,VLMIdentification在综合指标上优于基线方法,并且在恶劣环境和跨场景泛化测试中保持了稳健的性能,从而证实了其泛化和鲁棒性。代码可在以下链接获取:https://github.com/fanwu66/V...

引言

在现代交通系统中,出租车长期以来一直通过提供灵活便捷的交通服务发挥着重要作用。随着智能联网车辆的进步,由自动驾驶技术驱动的出租车(即机器人出租车)逐渐成为自动驾驶平台的核心应用形式。机器人出租车继承了传统出租车的交通服务价值,同时通过自动驾驶技术在安全性、效率和运营模式方面引入了创新。截至2025年8月,全球机器人出租车已提供了超过3000万次出行服务。从传统的人工驾驶出租车到机器人出租车[1]、[2],智能车辆正在逐步改变传统的交通服务模式,未来甚至可能出现自动驾驶公交车和货运卡车[3]、[4]、[5]。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号