VLM-PoseManip：基于视觉-语言模型的灵巧机器人操控技术，通过指导性姿态估计实现人机协作

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：VLM-PoseManip: Dexterous robotic manipulation via Vision-Language model based instructive pose estimation for Human-Robot collaboration

【字体：大中小】 时间：2026年02月28日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　人机协作中基于语义空间推理与扩散模型的6D姿态估计及几何引导抓取框架，有效解决复杂工具灵巧操作中的语义理解与物理精度不足问题，实验显示执行准确率达92%，任务成功率83%，平均耗时5.25秒。

王莹光|裴文灿|高一平|刘晨毅|李新宇|高亮

华中科技大学机械科学与工程学院，中国武汉430074

摘要

基于开放集指令的灵巧机器人操控是人机协作（HRC）的基础，使机器人能够理解人类意图并在动态的智能制造环境中进行交互。尽管最近的视觉-语言-动作（VLA）模型和分层框架在语义任务规划方面取得了显著进展，但它们往往缺乏工业工具操控所需的几何精度和物理感知的接触推理能力。现有方法通常依赖于隐式映射或稀疏的关键点约束，这在处理具有复杂几何形状的开放集工具时常常导致抓取结构不稳定。这些限制常常导致任务指令的误解、物体定位不准确以及操控行为不稳定，最终导致任务失败。为了解决这些问题，本文提出了VLM-PoseManip框架，该框架整合了语义-空间推理、指令性6D姿态估计和几何引导的操控优化，以实现精细化和任务感知的灵巧操控。通过利用大型语言模型（LLMs）和视觉语言模型（VLMs）进行语义解析和可供性定位，扩散模型进行类别级别的6D姿态估计，以及多因素抓取质量评估来进行操控规划，其中估计的6D姿态进一步通过逆向运动学（IK）转化为可解释且几何精确的末端执行器运动。在实验室环境中使用指令驱动的推理和动态任务操控来评估所提出的框架，该框架在工具类别和各种任务中展现了强大的泛化能力。值得注意的是，我们的方法实现了92.0%的语义执行准确率、83.0%的平均任务成功率以及不到5.25秒的平均完成时间，从而推动了HRC中复杂场景下的灵巧操控技术。

引言

现代智能制造越来越依赖于能够处理复杂、动态协作任务的灵活和适应性强的机器人系统，特别是在个性化定制和非结构化工业环境中[1]。这些场景要求协作机器人执行高精度操控，并灵活解释多样化的自然语言指令。此外，它们必须根据变化的物体和工作流程动态调整操作策略[2]。然而，满足这些多维度需求面临着重大挑战。主要瓶颈包括在协作任务中理解复杂指令、在动态环境中精确感知细粒度物体姿态，以及缺乏有效的灵巧操控模式规划方法[3]。这些限制共同阻碍了机器人系统在复杂的人机协作（HRC）场景中的部署和有效应用。

传统的机器人操控流程主要采用预定义的动作序列、视觉感知或教学编程技术。虽然这些方法在结构化环境中有效，但在动态、非结构化的工业环境中，它们在适应性和泛化应用方面存在显著局限性[4]。为了解决传统方法中普遍存在的泛化能力差和语义理解有限的问题，视觉-语言-动作（VLA）模型作为一种集成架构应运而生，它融合了视觉感知、语言语义和动作控制。通过利用深度多模态特征融合，VLA模型使机器人能够理解自然语言指令并在开放式场景中进行多模态决策。例如，RT-2 [5]和TinyVLA [6]等先进框架显著提升了机器人在新物体类别和未见过的操控指令下的泛化能力。然而，这些方法主要关注高级任务理解和直接命令到动作的映射，往往缺乏对适应性可供性识别和操控精细化的中间推理机制，而这在HRC中至关重要。

为了解决这些挑战，最近的研究探索了结构化推理架构。CoT-VLA [7]通过中间子目标图像生成引入了可解释的视觉思维链，使VLA模型能够进行显式的视觉任务分解。ManipVQA [8]将操作知识（如工具检测和可用性识别）注入多模态大型语言模型（LLM）和视觉语言模型（VLM）中，而AffordDexGrasp [9]通过分层能力表示扩展了开放集灵巧抓取。然而，特别是在需要高精度物理交互的工业环境中，仍存在重大挑战。一个主要限制是大多数VLA框架依赖于直接的端到端映射策略。虽然这种“黑箱”范式提供了强大的语义泛化能力，但它牺牲了传统模块化流程中固有的几何确定性和物理可解释性。在没有基于姿态的逆向运动学（IK）的显式指导的情况下，VLA模型往往难以保证执行的可解释性和几何精度，导致开放集细粒度姿态跟踪和灵巧仿生手操控策略的不稳定性。

同时，最近的分层或闭环视觉-语言操控系统（如π₀ [10]、RoboDex VLM [11]、ReKep [12]和OmniManip [13]）开始将指令理解与中间表示和在线校正相结合。然而，这些系统通常仍然没有提供显式的姿态到IK接口和物理感知的接触推理，这对于HRC环境中的灵巧工具操控至关重要，尤其是在动态运动、部分可观测性和高语义复杂性情况下。这激发了一个统一框架的需求，该框架能够将语言层面的意图理解与几何精确的目标和物理兼容的灵巧执行联系起来。

出于紧密连接语义理解和物理执行的需要，本文提出了VLM-PoseManip框架，该框架将视觉-语言推理与精确操控相结合。具体而言，本文关注机器人操控中关键的可供性感知和传输阶段，这些阶段是成功下游协作任务的物理前提。该框架的主要贡献有三个方面：

1.
语义-空间推理模块：一种协同的LLM-VLM架构，通过联合语义-空间感知实现精确的自然语言指令解释和任务相关可供性表示的提取，从而促进稳健的物体分类和功能区域识别。
2.
基于扩散的6D姿态估计：一个类别级别的跟踪模块通过扩散模型提高目标姿态估计的准确性，为后续操控提供空间指导。估计的6D姿态进一步作为逆向运动学求解的目标，与VLA框架中的直接动作映射相比，提高了可解释性和几何精度。
3.
物理约束操控策略：一种基于几何深度的方法结合质量指标来优化灵巧手的定位，并通过接触稳定性分析提高物理兼容性。

实验表明，VLM-PoseManip在高度语义复杂的任务中显著优于现有的最佳基线方法，实现了稳健的指令理解和稳定的抓取执行。这些发现验证了将语义理解与几何精度相结合在智能HRC中的有效性。为了将我们的工作置于更广泛的背景下，我们在第2节的表1中提供了VLM-PoseManip与代表性最佳系统（包括VLA和分层方法）之间的全面定性比较。本文的其余部分组织如下：第2节分析多模态机器人操控的技术演进和挑战。第3节详细介绍了VLM-PoseManip的三层架构和算法实现。第4节展示了该方法在准确性、泛化和鲁棒性方面的优势。第5节讨论了限制和未来研究方向。

章节片段

任务的推理与感知

LLMs和VLMs的最新进展彻底改变了HRC中的机器人感知和推理能力[14]。传统方法通常依赖于命令和动作之间的规则基或符号映射，这些方法在动态工业场景中显示出适应性不足[15]。随着LLMs的出现，范式转向了数据驱动的语义推理，使机器人能够解释广泛的自然语言指令以推断结构化任务

视觉-语言引导的灵巧操控框架

为了解决非结构化工业环境中的适应性HRC问题，我们提出了VLM-PoseManip，这是一个统一的框架，它将高级指令理解与物理基础的灵巧执行联系起来。我们的设计目标是将开放式语言命令转换为可解释的中间目标——包括任务相关的可供性区域和时间一致的6D物体姿态——这些目标可以验证其几何和物理可行性，然后通过几何感知的

实验设置和数据集

为了全面评估所提出的VLM-PoseManip框架的有效性、鲁棒性和工业适用性，我们设计了一个包含两个不同阶段的结构化实验协议：感知模型评估和实际操作执行。对于视觉-语言和姿态估计模块的训练和定量评估，我们使用了HANDAL [46]数据集。选择这个数据集是因为它具有高多样性和与工业工具的相关性

结论与未来工作

本文提出了VLM-PoseManip，这是一个统一的框架，它整合了语义-空间推理、基于扩散的6D姿态估计和几何引导的灵巧操控，以解决HRC中的关键挑战。该框架在多种工具类别和指令类型中表现出高性能，在低语义复杂性和高语义复杂性场景中都能实现稳健的执行。与现有的基于VLA的方法相比，我们的方法

CRediT作者贡献声明

王莹光：写作——审阅与编辑，撰写原始草稿，可视化，方法论，形式分析，数据整理，概念化。裴文灿：写作——审阅与编辑，撰写原始草稿，验证，数据整理。高一平：写作——审阅与编辑，监督。刘晨毅：写作——审阅与编辑，可视化。李新宇：写作——审阅与编辑，监督。高亮：写作——审阅与编辑，监督，资金获取。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家自然科学基金的资助（编号：52205523，52188102）。

联系信箱：

粤ICP备09063491号

摘要

引言