DREAM：基于注意力混合模型的专家动态路由方法，用于视觉-语言-动作建模

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：DREAM: Dynamic Routing of Experts via Attention-based Mixture for Vision-Language-Action Modeling

【字体：大中小】 时间：2026年02月27日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　动态路由专家框架DREAM通过AESA模块和TCAG模块实现多模态VLA任务的高效专家分配，在CALVIN基准上提升11%任务成功率并减少40%参数调用。

　　
本文针对Vision-Language-Action（VLA）任务中专家分配效率不足的问题，提出动态路由专家混合（DREAM）框架。该研究聚焦于多模态动态环境下的专家系统优化，通过三个核心模块实现任务成功率与计算效率的双重提升。

在问题分析层面，VLA任务涉及视觉感知、语言理解和动作规划三者的实时协同。现有MoE架构存在两大局限：其一，静态路由机制无法适应任务复杂度的动态变化，导致高难度任务资源不足或简单任务资源浪费；其二，传统专家模块功能重叠度过高，难以实现多模态信息的精准分工。这种静态设计在场景切换频繁、任务需求多变时尤为明显，例如在机器人抓取过程中既需要精细的手势控制，又需快速环境感知，传统架构难以动态调整资源分配。

DREAM框架通过三个创新模块构建动态专家系统：首先，自适应专家选择与聚合（AESA）模块采用分层专家设计，将原始网络拆分为多个轻量级专家子网络。这种结构使得专家数量从固定值变为动态可调，配合Top-P路由策略，既能保证复杂任务所需的多专家协作，又能避免简单任务的多余计算。实验显示，该设计使专家参数量减少40%的同时，任务成功率提升11.3%。

核心突破在于时空感知路由机制。时空上下文感知门控（TCAG）模块将三个关键要素融入路由决策：扩散过程的时间步信息作为动态锚点，捕捉任务执行阶段的时序特征；跨模态注意力机制融合视觉特征、语言指令和历史动作，形成多维决策依据；多尺度特征提取网络分别处理3D视觉、文本语义和动作序列数据，确保不同模态信息的有效整合。这种设计使路由决策准确率提升27.6%，特别是在长序列任务中展现出更强的时序建模能力。

为解决专家激活冗余问题，作者设计了稀疏条件路由效率损失（SCoRE）函数。该损失函数包含两个优化方向：一是通过对抗训练增强专家的模态专属性，使视觉专家更关注空间特征，语言专家侧重语义解析；二是采用动态稀疏度约束，在保证任务成功率的前提下，强制模型在多数情况下仅激活5-8个专家。这种双重优化策略使平均激活专家数从传统MoE的12个降至7个，同时保持90%以上的任务成功率。

实验验证部分展现了DREAM的显著优势。在LIBERO数据集的长任务场景（LIBERO-10）中，系统成功率和计算效率分别提升14.2%和31.5%；在CALVIN基准测试中，动作规划任务完成率达到89.7%，较基线模型提升23.4个百分点。特别值得关注的是资源分配的动态平衡：在低复杂度任务（如取物）中，模型仅激活3-5个专家，计算量减少62%；而面对复杂场景（如物体组装），专家数量自动扩展至9-12个，同时保持每步推理时间低于0.3秒。

该研究的理论价值体现在建立了动态路由的三维评估体系：时空适应性（动态调整频率）、模态融合度（跨模态信息利用率）、计算稀疏性（资源分配效率）。实验数据表明，这三个维度存在显著相关性，时空特征融合度每提升10%，激活专家数量可减少1.8个，同时保持任务成功率稳定。

应用层面，DREAM框架为多模态AI系统提供了可扩展的架构范式。在机器人领域，系统可根据任务阶段自动切换专家组合：初始阶段侧重环境感知专家，中期加入动作规划专家，后期强化执行控制专家。这种动态调整机制使机械臂在复杂装配任务中的成功率从72%提升至89%。在医疗影像分析场景，系统根据诊断阶段自动组合视觉分析、文本标注和结果预测专家，诊断准确率提升17.3%。

研究还揭示了动态路由与模型规模的非线性关系。当专家数量超过25个时，性能提升边际效益递减，但计算成本呈指数增长。DREAM通过智能路由机制，在20-35个专家区间实现了性能与效率的最佳平衡。这种动态规模控制机制使模型在GPU显存占用方面减少58%，同时保持SOTA性能水平。

在跨领域迁移方面，作者进行了对比实验。将DREAM应用于自然语言处理任务（如文本分类），通过调整专家功能模块和路由策略，在GLUE基准测试中达到92.3%的准确率，较传统MoE提升6.8%。这验证了动态路由机制在多模态任务中的普适性。

未来研究方向集中在三个方面：1）动态路由的端到端优化算法，2）轻量化专家知识蒸馏技术，3）跨模态时序建模的通用框架。特别值得关注的是将动态路由机制与神经架构搜索结合，自动生成适合不同VLA场景的专家配置方案。

该研究为多模态大模型开发提供了重要启示：在保持模块功能专化的同时，通过动态路由机制实现计算资源的智能分配。这种设计思路不仅适用于机器人控制，在自动驾驶、智能客服等需要多模态实时协同的领域同样具有广泛的应用前景。实验数据显示，在自动驾驶决策场景中，动态专家分配使系统在突发路况下的响应速度提升40%，决策正确率提高22.5%。这充分证明了DREAM框架在复杂多模态任务中的泛化能力。

联系信箱：

粤ICP备09063491号

热点排行