综述：基础模型时代中融入物理知识的具身智能：推动智能制造领域的机器人操控技术发展

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：Physics-informed embodied intelligence in the foundation model era: Advancing robot manipulation for smart manufacturing

【字体：大中小】 时间：2026年01月21日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　基础模型推动机器人智能化，物理指导具身智能在智能制造中提升灵活性和精确性，需融合数据驱动与物理定律，发展多物理场交互、虚实扩展及人机协同技术。

李书飞|刘成|赵建庄|郑佩|王锡文|王丽辉

天津大学机械工程学院，中国天津

摘要

近年来，基础模型作为人工智能领域的一股变革力量，推动了机器人智能概念和实现方式的转变。然而，尽管取得了快速进展，但物理推理在这些大规模模型中的整合仍然有限，导致从复杂的操控任务到制造过程的衔接存在差距。结合当前机器人认知发展的趋势，我们对基于物理知识的方法论基础进行了全面回顾，并分析了将数据驱动学习与物理定律和约束相结合的架构框架。通过综合学术研究和工业应用中的最新进展，本文强调了这些领域的融合不仅提高了机器人系统的鲁棒性和可解释性，还加速了它们从仿真到实际应用的转变。此外，我们还讨论了关键案例研究、基准技术以及新兴方向，揭示了现有方法中存在的协同效应和权衡。我们的分析为未来的研究指明了有希望的方向，旨在进一步缩小理论进展与实际应用之间的差距。本综述将基于物理知识的具身智能定位为基础模型时代智能制造的关键推动者。

引言

具身智能是人工智能（AI）领域的长期愿景，逐步探索AI理解和与物理世界互动的能力[1]，超越了网络空间。机器人作为AI在现实世界中的关键体现，负责在动态环境中执行类似人类的复杂操作。虽然通过使用集成感知、规划和控制的模块化流程，机器人已经能够执行诸如组装宜家椅子[2]等复杂任务，但它们的整体智能水平仍然有限，远未达到AI代理的水平。

基础模型的最新进展为创建能够主动协调网络空间和物理世界的机器人AI代理提供了有希望的解决方案[3]。基础模型是在庞大且多样化的数据集上训练的大型AI模型，拥有超过十亿个参数，可作为不同领域（如语言和视觉[4]）中各种下游任务的通用基础。例如，GPT系列[5]和DeepSeek系列[6]等模型拥有广泛的知识基础，并可以针对特定应用进行微调。这种在机器人技术中的变革能力强化了具身智能的概念[7]。例如，RT-1[8]和RT-2[9]等算法的引入通过更紧密地结合感知和动作，改变了机器人技能的设计范式，超越了传统的模块化流程。在这种背景下，智能机器人具备了更高的移动性、自主性和灵活性，成为能够与环境灵巧互动的具身AI代理。

这项技术正在重新定义各个领域的机器人应用。例如，吴等人[10]利用大型语言模型（LLMs）的总结能力，概括用户对个性化家务清洁任务的偏好，使机器人能够通过拾取和放置物品来整理房间。Driess等人[11]提出了一个具身智能模型PaLM-E，该模型将现实世界的传感器模态整合到语言模型中，以支持各种机器人任务，包括序列操控规划和视觉问答。同时，Mandi等人[12]利用预训练的LLMs进行高级通信和多机器人协作中的低级路径规划，尽管任务有所不同，但仍取得了高成功率。此外，Bu等人[13]开发了一个开源的大规模操控平台，该平台包含超过100万个轨迹的数据集，用于双臂人形机器人（AgiBot G1）的精细技能学习。

毫无疑问，这些探索促进了机器人在复杂、真实世界、灵巧和长期任务中的可扩展和通用智能[14]。虽然机器人操控本质上涉及在复杂环境约束下重新配置物体[15]，但在基础模型时代，基于具身智能的机器人尚未充分发挥其潜力。确定机器人操作的下一步优先事项对于进一步发展至关重要。

智能制造[16]代表了一种变革性范式，提高了工业系统的效率、生产力和灵活性，其中机器人成为生产的核心要素。除了基本的物体操控之外，现代制造过程还要求机器人在操作过程中考虑力、形态甚至材料属性[17]。这需要多物理场建模能力，这与机器人所具备的智能相辅相成——我们称之为基于物理知识的具身智能。这种智能不仅使机器人能够与物理环境互动，还能使其行为符合基本物理定律，从而更准确地反映现实世界。例如，Genesis[18]的发布是一个为通用机器人技术、具身智能和物理AI应用设计的综合性物理仿真平台，强调了物理定律在机器人任务中的作用，引起了广泛关注。因此，能够在制造环境中智能、精确和灵活地运行的机器人值得进一步探索和发展。

随着越来越多的人认为基于物理知识的具身智能可以改变机器人在制造领域的能力，制定其发展路线图变得至关重要。关键问题包括：（1）从基础模型中衍生出的具身智能具有哪些特征？（2）机器人如何获取多方面的物理相关信息并利用它们来增强智能？（3）基于物理知识的具身智能可以实现哪些目标，它将在哪些方面影响制造业？一些综述已经讨论了基于物理知识的机器学习[20]、[21]、机器人基础模型[22]、[23]以及基于学习的机器人操控[24]、[25]，这些综述提供了有关物理原理如何启发机器学习架构、基础模型如何增强感知、规划和控制，以及如何实现适应性和仿真到现实转移机制的宝贵见解。然而，尚未提出一个全面的定义和概念框架，以推进基于物理知识的具身智能的发展，并将其影响扩展到现实世界的物理任务和智能制造。本文旨在填补这一空白，通过提出一个追踪机器人智能发展的框架，并为制造业应用中的机器人任务提出前瞻性视角。我们希望这一新兴范式能够激发大量讨论、辩论和进一步的发展，以实现其在现实世界中的应用。

本文的其余部分结构如下：第2节概述了机器人智能的发展和综述过程。第3节探讨了基于基础模型的具身智能。第4节介绍了基于物理知识的具身智能的概念及其核心组成部分。第5节展示了这一范式如何推动智能制造中机器人操控的应用。第6节讨论了未来方向，第7节得出了结论。

部分摘录

概述

本节首先探讨了机器人智能的发展，随后介绍了用于收集相关研究的文献综述过程。

基于基础模型的具身智能

基于物理知识的具身智能

推动智能制造中的机器人操控

制造环境中的机器人操控需要超越预编程自动化的灵活性和精确性。基于物理知识的具身智能通过整合环境、物体属性和动态约束的物理知识提供了解决方案。尽管其有效性取决于高质量训练数据的可用性，而这在接触频繁且安全要求高的环境中往往成本高昂且难以获取。尽管如此，智能机器人的部署正在不断增加

未来方向

基于物理知识的具身智能的进步重新定义了我们对机器人的理解，包括其身体、环境和认知，为弹性制造系统铺平了道路。未来的发展方向包括：从单物理场交互发展到多物理场交互；开发新颖的仿生设计与感知和执行；构建人机共生代理；实现学习技能的大规模虚拟到现实扩展；以及实现

结论

本综述追踪了机器人智能的发展轨迹，揭示了基础模型时代的一个关键转折点。我们认为，虽然基础模型在从大量数据集中学习方面解锁了前所未有的能力，但机器人操控的下一个飞跃，特别是对于智能制造的复杂需求，需要数据驱动方法与物理定律之间的协同作用。从模块化、特定任务的系统发展到广泛的、耦合的系统

CRediT作者贡献声明

李书飞：撰写——原始草稿、可视化、方法论、概念化。刘成：撰写——审阅与编辑、监督、资金获取、概念化。赵建庄：验证、资源获取、调查。郑佩：撰写——审阅与编辑、资源获取、概念化。王锡文：撰写——审阅与编辑、方法论、调查。王丽辉：撰写——审阅与编辑、监督、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本研究工作主要得到了香港特别行政区创新和技术基金（编号：PRP/030/24FX和PiH/260/25）、香港城市大学的新教师启动基金（编号：9610612、国家自然科学基金（编号：52405164和52422514）以及香港特别行政区一般研究基金（项目编号：PolyU 15210222和PolyU15206723）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言