通过基于视觉-语言模型的乘客识别技术提升机器人出租车的接客效率

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Intelligent Transportation Systems》：Enhancing Robotaxi Pick-Up Through Vision-Language-Model-Based Passenger Identification

【字体：大中小】 时间：2026年02月27日 来源：IEEE Transactions on Intelligent Transportation Systems 8.4

编辑推荐：

　　Robotaxis作为城市交通的重要组成部分，预设上车点导致活动集中、交通拥堵、绕路等问题，且GNSS定位在城区不可靠。本文提出VLMIdentification框架，通过多模态交互（文本/语音）和实时视觉识别（LVLM）实现精准乘客定位，包含输入处理、候选搜索、身份匹配三模块，并构建HID数据集验证其鲁棒性和跨场景泛化能力。

摘要：

机器人出租车正成为城市交通的关键组成部分。然而，目前大多数机器人出租车依赖于预设的接客点，这导致机器人出租车活动集中，加剧了局部交通拥堵，增加了空驶距离和绕行距离，延长了道路占用时间，并提高了运营成本。基于GNSS的定位技术在城市区域可能不可靠。通常，人类驾驶员可以通过文本/语音交互与乘客沟通，以准确找到并到达乘客的位置。如何将机器人出租车的视觉识别结果与人类的文本/语音描述对齐是一个关键挑战。因此，我们提出了一个全面的框架，包括其架构、需求、操作逻辑和工作流程，以增强乘客与机器人出租车之间的互动，从而实现无需预设接客点的准确接客。在该框架中，核心算法是VLMIdentification，这是一种基于LVLM的实时人类识别模型。VLMIdentification包含三个模块：i) 人类输入处理，从乘客的文本/语音中提取文本特征，并将以人类为中心的描述转换为以机器人出租车为中心的属性；ii) 候选者搜索，将传统检测器与LVLM结合使用，以适应场景复杂性并将检测结果转换为文本描述符；iii) 人类识别，将处理后的乘客描述与候选者进行匹配，以找到正确的人。我们定义了多模态任务的人类识别方法，提出了评估指标，并基于现有的自动驾驶数据集构建了一个新的HID（带描述的人类识别）数据集。实验结果表明，VLMIdentification在综合指标上优于基线方法，并且在恶劣环境和跨场景泛化测试中保持了稳健的性能，从而证实了其泛化和鲁棒性。代码可在以下链接获取：https://github.com/fanwu66/V...

显示更多

引言

在现代交通系统中，出租车长期以来一直通过提供灵活便捷的交通服务发挥着重要作用。随着智能联网车辆的进步，由自动驾驶技术驱动的出租车（即机器人出租车）逐渐成为自动驾驶平台的核心应用形式。机器人出租车继承了传统出租车的交通服务价值，同时通过自动驾驶技术在安全性、效率和运营模式方面引入了创新。截至2025年8月，全球机器人出租车已提供了超过3000万次出行服务。从传统的人工驾驶出租车到机器人出租车[1]、[2]，智能车辆正在逐步改变传统的交通服务模式，未来甚至可能出现自动驾驶公交车和货运卡车[3]、[4]、[5]。

联系信箱：

粤ICP备09063491号

摘要：

引言

热点排行