面向直观人机协作的多模态智能体AI框架：融合自然用户界面以构建类人化伙伴关系

《Sensors》：A Multimodal Agentic AI Framework for Intuitive Human–Robot Collaboration Xiaoyun Liang and Jiannan Cai

【字体：大中小】 时间：2026年03月21日 来源：Sensors 3.5

编辑推荐：

　　文章内容推荐为解决协作机器人(cobots)界面复杂、依赖用户专业知识、意图传递模糊等问题，研究人员开展了“融合自然用户界面(NUIs)与智能体AI(AI agents)以实现直观人机协作(HRC)”的主题研究。他们开发了名为iBotAssistant的多模态智能体AI框架，整合语音和视线跟踪，使人类能通过自然语言结合视线指定物体来指挥机器人。该框架通过协调多个基于大语言模型(LLMs)的智能体来处理多模态信息，进行任务规划和执行，并生成自然语言反馈以实现透明沟通。实验在木材装配协作任务中进行，结果表明，与纯语言方法相比，该框架在存在多个相似物体时能更高效地识别目标，并降低了用户的交互负担和工作量。这项研究为提升人机协作的直观性和效率，克服现有交互壁垒，提供了切实可行的技术路径。

随着人工智能(AI)技术的飞速发展，机器人系统正从传统的工业流水线，大步迈进到充满动态变化的人类生活场景之中。协作机器人(cobots)、社交机器人、家庭服务人形机器人等，正越来越多地成为我们工作和生活的伙伴。特别是在劳动力日益紧张的背景下，人机协作(Human-Robot Collaboration, HRC)被寄予厚望，有望在建筑、医疗、农业等劳动密集型领域大展身手。然而，要让非专业用户也能轻松、高效地与机器人并肩作战，一个巨大的挑战横亘在面前：如何搭建一座连接人类意图与机器人动作的“认知桥梁”？现有的机器人交互界面，往往需要用户具备一定的机器人控制知识，自己去规划和下达一条条底层指令，这对于广大普通工人而言，无疑是一道高墙。

问题不止于此。即便是使用了更自然的交互方式，比如语音，在复杂、非结构化的现实场景（如建筑工地）中，人类语言的模糊性也常常让机器人“一头雾水”。“把那个木材递给我”是哪个木材？这种误解轻则导致效率低下，重则可能引发安全事故。另一方面，机器人也像个“闷葫芦”，它为何做出某个动作、下一步打算做什么，人类操作者常常无从得知，这种不透明的沟通方式阻碍了信任的建立和流畅的协作。为了克服这些障碍，实现真正“类人化”的伙伴式协作，研究者们正在探索将更智能的AI大脑与更自然的交互方式深度融合。

本研究正是对这一挑战的回应。由Xiaoyun Liang和Jiannan Cai进行的研究，提出了一种名为iBotAssistant的多模态智能体AI框架。这个框架的核心目标是让人与机器人的合作变得像与人类伙伴合作一样直观、高效。它巧妙地融合了两种人类最自然的交流方式：语言和视线。当你需要机器人帮忙时，只需像对人说话一样下达指令（“拿一块木材给我”），同时看向你需要的那个特定物体。你的语音和视线数据被系统捕捉后，会交由一组由大语言模型(Large Language Models, LLMs)驱动的智能体(AI agents)协同处理。这些智能体分工明确：有的负责转录语音，有的通过视线和第一视角图像精准定位你注视的目标物体，还有一个“规划师”负责理解上下文，将你的高级请求分解成机器人可以一步步执行的微观动作序列，比如“导航至存储区”、“抓取标签5的木材”、“返回并放置”。更有趣的是，这个系统还能“开口说话”，当它不确定你的意图时，会主动用自然语言向你提问或确认（“你指的是哪块木材？”），从而建立起透明的双向沟通循环。

为了验证这一框架的可行性和效果，研究团队在一个模拟的建筑木材装配场景中进行了“概念验证”实验。七名没有或仅有少量机器人经验的参与者，与一台集成了该系统的移动机械臂（Husky A200底盘+UR5e机械臂）合作，共同完成一个窗框的组装任务。实验中设置了两种条件进行对比：一是启用视线引导的多模态框架；二是仅使用语音交互的基线方法。研究人员从任务完成时间、人类干预次数、以及NASA TLX工作量评估量表等多个维度，对两种方法进行了定量和定性评估。

这项研究成果发表在国际期刊《Sensors》上，为构建下一代直观、高效的智能协作机器人系统提供了宝贵的理论和实践洞见。

研究采用的关键技术方法

本研究构建并实现了一个完整的人机协作系统。在硬件层面，参与者佩戴Pupil Core视线追踪设备，其语音、视线点及第一视角图像被采集。软件架构上，研究提出了名为iBotAssistant的多模态智能体AI框架。该系统在本地运行，利用多个AI智能体协同工作：通过语音唤醒词触发交互，由Whisper模型进行语音转写，结合Apriltag视觉标签和视线点数据精准识别目标物体。核心的规划智能体(planner)基于量化版的Llama 3.2模型构建，负责将语音指令和目标物信息转换为分步的机器人微观任务，并生成自然语言反馈。机器人执行层基于ROS (Robot Operating System)搭建，集成了自主导航、Apriltag跟踪、机械臂运动规划（通过MoveIt!）等模块，将高层任务转化为底盘和机械臂的可执行指令。在木材装配实验中，通过对比“语音+视线”与“仅语音”两种交互模式，评估了系统的性能、用户工作负荷及主观体验。

研究结果

5.1. 任务评估结果

实验结果显示，提出的框架能有效将人类通过语音和视线传达的高级请求转化为机器人的控制指令。在基线（仅语音）场景中，由于缺乏目标物信息，机器人频繁要求用户澄清，其平均干预率是视线引导方法的两倍，这表明系统需要参与者提供更多信息。视线引导方法也存在干预，主要原因是机器人偶尔会请求用户重复指令。值得注意的是，基线方法的平均任务完成时间反而更低，这可能是因为实验顺序固定（先视线后语音），参与者在第二次实验（基线）中对任务流程更熟悉，产生了学习效应。在两种条件下，窗框均被成功组装，证明了该智能体AI框架能有效建立直观的语音HRC，且在存在多个外观相似的物体时，视线引导方法在目标识别上优于基线。

5.2. 用户体验(UX)指标结果

NASA TLX工作量评估结果显示，七名参与者中有六名在基线场景中给出了更高的工作负荷评分，这表明视线引导框架在实际HRC中需要更少的交互努力。对参与者的访谈进行定性分析（使用DECOTA工具）后发现，多数参与者提到了人机交互的效率问题，由于计算资源和数据传输延迟，机器人约10秒的响应时间与人类交互的300-500毫秒预期相差较大。同时，沟通的鲁棒性（如语音识别失败）也是关注点。另一方面，参与者肯定了该框架通过自然语言操作真实机器人的便利性，并指出了其提高工作生产力的潜力。对于下一代界面的设想，参与者最常提及的主题是“机器人能力与系统集成”，强调了硬件驱动初始化等问题的重要性，并期望增强机器人的环境上下文理解能力，例如“添加计算机视觉以获得全面的环境理解”。

5.3. 讨论

研究结果表明，提出的多模态智能体AI框架能够在现实应用中建立直观、高效的HRC。它允许用户通过NUIs的直观性和LLMs的推理能力，轻松地与机器人沟通和协作。与纯LLM方法的基线相比，参与者表现出对提出方法的更好交互体验和更高偏好。一个有趣的发现是，尽管体验了视线在隐式传递空间信息方面的优势，几乎所有参与者仍强调他们对语音交互的偏爱，这验证了在复杂环境（如建筑）中，以语言为中心的界面设计的重要性。这一发现揭示了广泛的数据集成并非总是最佳方案，实际考量（如佩戴额外眼动设备的负担）需优先考虑。此外，用户对极低延迟的强烈期望、对机器人记忆任务状态能力的需求，以及对环境上下文（如合作伙伴、场景、变化）更全面理解的要求，为下一代智能体AI集成HRC系统的优化指明了方向，包括利用边缘计算优化处理速度、集成记忆智能体，以及增强环境感知能力。

研究结论与意义

这项先导研究提出了一个集成多模态自然用户界面（视线与语音）的智能体AI框架，旨在提升人机协作的直观性和沟通透明度。该系统包含数据采集、iBotAssistant智能体框架和机器人系统三大组件，通过融合隐式（视线）和显式（语音）线索来传达用户意图，并通过自然语言反馈建立双向透明沟通，从而提高了HRC的交互效率和效能。在木材装配实验的概念验证中，该框架在一台移动机械臂上成功实现，并通过与纯语音方法的对比评估证明了其有效性。结果显示，在存在多个相似外观物体的场景中，提出方法比纯语音方法更高效。用户体验评估表明，用户在使用提出系统时工作负荷更低。定性分析揭示了参与者对提出交互方式（尤其是语音沟通）的喜爱，同时也指出了未来改进的关键方向：优化计算速度、增强上下文理解、集成记忆系统以提升机器人的综合能力。

本研究也存在一些局限性：智能体框架包含的机器人动作有限；七名参与者的小样本量限制了定量发现的普适性；实验中使用Apriltag进行物体检测，未能完全反映真实工作环境；采用的简化木结构任务限制了系统可行性的全面评估。未来研究应在更丰富的任务中测试系统，并整合语义对象分割（如Segment Anything模型）、AI上下文工程等，以增强对真实复杂环境（如建筑工地）的理解，最终向能够自主、灵活调用不同智能体的多智能体系统发展。这项研究为克服现有HRC壁垒，推动智能体AI赋能的机器人走向实用化，提供了重要的框架参考和实践见解。

热点排行