基于信息论的图融合技术结合视觉-语言-动作模型，用于策略推理与双机器人控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control

【字体：大中小】 时间：2026年01月30日 来源：Information Fusion 15.5

编辑推荐：

　　本文提出图融合视语言行为（GF-VLA）框架，通过信息论提取关键手-物体交互，构建时空场景图，融合语言条件Transformer生成可解释行为树和笛卡尔运动命令，并引入跨手选择策略优化双臂机器人执行效率。实验表明该方法在多种场景下成功率超过93%，验证了其强泛化性和鲁棒性。

　　
随着智能机器人技术向更复杂的场景应用发展，如何让机器人在动态环境中具备类人的灵活操作能力成为关键挑战。当前主流的视觉语言行动（VLA）模型虽然在自然语言指令到机器人动作的映射上取得突破，但在物理交互建模方面仍存在显著局限。例如，当处理需要双手协作的装配任务时，传统方法往往难以准确解析手部与物体的动态关系，导致执行失败率较高。针对这一痛点，浙江大学电气工程学院研究团队提出的图融合视觉语言行动（GF-VLA）框架，通过创新性地融合信息论驱动的场景表征与多模态语义理解，为双臂机器人任务执行提供了全新的解决方案。

在技术实现层面，GF-VLA构建了双通道的决策系统。首先，基于信息熵理论的多模态感知模块能够从RGB-D视频流中实时提取关键交互信息。通过分析手部动作与物体的空间关系，系统自动识别出对任务完成具有最高贡献度的手部与物体组合。这种信息驱动的方法不仅提升了场景理解的准确性，更有效规避了传统单目视觉可能导致的误判问题。实验数据显示，该模块在复杂装配场景中能够保持超过95%的物体交互关系识别准确率。

在语义规划阶段，GF-VLA创造性地将语言模型与物理场景图进行融合。通过引入条件Transformer架构，系统将动态场景图转化为可解释的行为树结构。这种树状结构不仅清晰展现了任务分解的逻辑，还通过链式思维（Chain-of-Thought）提示技术实现了多步骤推理的可视化。在几何重构任务测试中，该框架生成的执行方案中82%的关键动作节点能够被追溯验证，这为调试机器人异常行为提供了有效手段。

执行控制模块的创新体现在跨手部协同策略上。通过分析不同手部组合的任务完成效率，系统自主优化了抓取分配机制。在双臂装配测试中，这种动态角色分配使工具放置成功率提升至89%，较传统固定分配方案提高23个百分点。值得关注的是，该策略完全避免了复杂的几何碰撞检测，通过强化学习预训练模型实现了97%的初始抓取成功率。

实验验证部分覆盖了四个典型场景：符号形状组装、空间布局重构、多物品协同抓取和动态环境适应。在符号字母R的组装任务中，GF-VLA展现出强大的任务分解能力，将原本需要五个步骤的流程优化为三个逻辑单元，同时保持100%的指令理解准确率。当测试环境随机改变物体摆放位置时，系统通过动态重标定机制，使执行成功率保持在91%以上，这显著优于依赖固定训练集的现有VLA模型。

在复杂装配场景测试中，GF-VLA在工具定位精度（误差小于2cm）、任务完成速度（较传统方法提升18%）和能源效率（能耗降低22%）等关键指标上均优于同期其他方案。特别是在多物体交互任务中，系统通过时序场景图建模，成功预测了78%的未预训练物体间的潜在接触，这在同类研究中属于领先水平。

研究团队还特别设计了对比实验组，包括纯视觉伺服控制、强化学习驱动的VLA模型以及传统信息论方法。结果显示，GF-VLA在动态变化场景下的泛化能力提升40%，且通过可解释的决策树结构，使机器人异常行为的诊断时间缩短60%。这种平衡了计算效率与执行可靠性的设计，为工业机器人部署提供了重要参考。

在跨场景应用方面，GF-VLA展示了优异的迁移学习能力。通过仅需3%的领域数据增强，系统在医疗器械装配、电子元件组装等不同子领域的任务完成率均超过85%。这种少样本适应能力主要得益于其构建的通用场景图知识库，该知识库成功捕捉了73类常见工业场景中的物理交互规律。

技术突破点主要体现在三个维度：首先，信息熵驱动的场景建模方法突破了传统固定传感器配置的限制，在真实车间环境测试中，系统成功适应了5种不同机械臂的硬件差异；其次，语言指导的行为树生成机制将任务规划效率提升3倍，同时保持98%的语义一致性；最后，动态角色分配策略在双臂协作测试中使任务完成时间缩短至2.8秒，较基准模型快1.2秒。

值得关注的是，该框架在处理物理接触场景时表现出色。在模拟装配线突发故障的测试中，GF-VLA能够自主识别出12种可能的接触情形，并通过时序场景图调整策略，使系统在接触发生后的任务恢复成功率保持在91%。这种鲁棒性主要得益于系统内置的物理约束验证模块，该模块能够实时评估超过200项操作可行性指标。

研究团队在工程实现方面也进行了创新优化。通过开发专用场景图压缩算法，系统在NVIDIA Jetson AGX Orin平台上实现了每秒23帧的实时处理能力。这种硬件友好型设计使得GF-VLA可以部署在现有的工业机器人控制系统中，无需额外硬件投入。在能源效率测试中，系统平均功耗为28.7W，在同等性能要求的方案中处于最优水平。

未来发展方向主要聚焦于三个方面：首先，计划引入触觉反馈模块以提升物理交互精度；其次，正在研发多模态知识蒸馏技术，期望将模型推理速度提升至5ms级别；最后，团队致力于构建跨行业场景图数据库，目前已收录15个工业领域的2.3万组典型装配场景。这些进展将推动GF-VLA从实验室环境向真实产线逐步落地。

该研究对机器人技术发展具有三重启示意义：其一，验证了信息论方法在机器人感知层面的普适性价值；其二，建立了可解释性AI在工业机器人领域的有效实现路径；其三，开创了多模态融合的新范式，为未来通用机器人开发提供了关键技术参考。这些创新成果不仅提升了机器人操作精度，更重要的是构建了人机协同的透明化交互界面，这对智能制造领域的智能化升级具有重要推动作用。

联系信箱：

粤ICP备09063491号

热点排行