具身机器人的进化路径

《Communications of the ACM》:An Evolutionary Path for Embodied Robotics

【字体: 时间:2026年02月28日 来源:Communications of the ACM

编辑推荐:

  机器人形态发展路径的演化与规模化悖论。

  
在过去的一年里,有一个问题被反复提出:未来的机器人是否会不可避免地变成人形?这个看似简单的问题背后隐藏着两种截然不同的哲学观点,这两种观点关于具身智能应该如何发展:我称之为创造论进化论
所谓机器人领域的创造论,是指这样一种信念:如果我们能够完善一种强大且通用的形式——即人形机器人,那么它最终将能够处理几乎所有现实世界中的任务。在这种观点下,开发出一种人形机器人平台来完成所有工作:搬动箱子、打扫卫生、烹饪、提供护理服务以及陪伴人类。其目标是“创造”一种通用的技术生命形式。
而进化论则持相反的观点:机器人应该多样化并发展成不同的形态,这种发展受到具体应用场景、成本以及大规模部署所产生的数据的驱动。没有任何一种具身形式被预先定义为最终答案。扫地机器人、仓库搬运臂、送货机器人、移动基地、外骨骼机器人,每种形式都通过市场和实际使用情况进行测试。只有那些能够适应实际场景和经济需求的形态才能存活下来。
随着具身人工智能从演示阶段走向实际应用,我个人认为未来的发展方向将是进化论。这更符合技术发展的规律、商业运作的方式,以及我们物理世界的实际结构。

观点1:一种机器人用于所有任务,逐步进化;多种形态并行发展。

试图用单一的机器人形态来覆盖所有应用场景几乎注定会是一条缓慢且循序渐进的道路。如果要求一个人形机器人能够打扫卫生、做饭、提供老年护理服务、取物品、整理家务等等,那么每个新场景都需要相应的运动系统、数据收集方式、感知技术、控制逻辑和安全测试。这些都是依次添加的组件:每个新场景都需要独立的工程开发工作。不同任务之间的技能转移非常有限,因此不存在“解决一个问题就能免费获得其他问题的解决方案”。
同时,人形机器人在高自由度控制、稳定平衡、柔顺力控制以及在杂乱环境中的感知能力方面仍面临诸多挑战。在许多日常任务中,与简单的机器相比,它们的结构优势微乎其微甚至不存在。试图让一个人形机器人“包揽所有工作”往往会导致一系列功能逐渐增加,但每个功能的实现都伴随着高昂的成本。
现实情况并非如此。目前已有多种机器人形态实现了大规模应用,并且在各自的领域内迅速发展。扫地机器人已经在全球范围内得到了数亿台的安装量。它们的导航、路径规划、避障和环境建模能力经过数十亿小时的真实家庭使用测试得到了优化。校园和城市区域的送货机器人在复杂环境中频繁执行任务,推动了定位、路线规划和错误恢复技术的快速进步。仓库中的操作臂和自动引导车辆(AGVs)每天执行大量的取放和运输操作,不断生成数据以优化抓取和运动策略。
这就是并行进化的表现:多种形态在各自的高频应用场景中并行发展,形成了一个网络化的、不断扩展的能力生态系统。效率的提高来自于并发性和专业化,而不是对单一“通用”形态的精雕细琢。

观点2:具有大规模应用规模的形态具有最强的进化动力。

如果多形态进化是正确的路径,那么下一个问题是:哪些形态最有可能实现最快的发展?实际上,答案是那些已经实现大规模应用的机器人。
扫地机器人、送货推车、服务平台和移动基地之所以成功,并非因为它们看起来像人类,而是因为它们的年销量达到了数百万甚至数千万台。这种规模带来了两个重要因素:首先,供应链得到优化——电机、轮子、变速箱、摄像头、激光雷达、惯性测量单元(IMUs)、电池和计算平台在批量生产下变得更便宜、更可靠、更节能;其次,它们积累了大量的真实世界数据——这些机器人在家庭、餐厅、酒店、校园和仓库等环境中运行,面对各种真实的环境挑战。它们的算法和机械设计在持续的反馈中不断成熟。
一旦某个平台具备了这样的基础,简单的扩展就能带来巨大的提升。例如,在扫地机器人上添加一个小臂,它就可以捡起玩具或袜子、将物品放入箱子里或进行基本的整理工作;在送货平台上添加一个夹持器或抽屉开启模块,它就能从“门到门”的服务扩展到“门到门并交接物品”的服务。导航、动力、连接性和安全性等问题已经得到解决,新的功能可以在此基础上实现。
这是一个真正的商业良性循环:规模扩大降低了成本,提高了可靠性;更高的性价比吸引了更多应用,更多的应用又产生了更多数据,从而进一步提升了性能。从进化的角度来看,具身人工智能不太可能从孤立设计的理想形态中诞生,而是通过升级和组合那些已经具备规模、数据和供应链的形态逐步发展而来。

观点3:将人形机器人用于所有任务会遇到成本障碍。

对于人形机器人来说,关键的瓶颈往往不是技术难题,而是经济因素。我们可以制造出令人印象深刻的原型,但更关键的问题是它们的成本结构是否与其所执行任务的价值相匹配。
目前的人形机器人通常包含数十个可动关节、昂贵的变速箱和电机、丰富的传感器以及高端计算设备。即使假设销量很大,单台机器人的成本也可能仍然在数万美元左右——更接近高端汽车的价格,而非家用电器。
如果这样的机器人大部分时间都在擦桌子、端饮料或折叠衣物等低至中等复杂度的任务上,那么大部分硬件资源都会被浪费。这就好比用火箭来运送包裹一样不经济。相比之下,那些已经实现大规模应用的专用或半通用机器人往往“恰到好处”:拥有足够的传感器、足够的自由度、足够的可靠性,能够在合理的成本范围内解决特定类型的问题。这就是为什么扫地机器人可以在几百美元的价格下取得成功,服务机器人可以在餐厅中使用,仓库搬运臂和AGVs可以作为资本投资。
在具身智能领域,成本是一个重要的选择因素。只有在可接受的成本下提供足够价值的形态才能存活并实现规模化;那些为了主要用途而过度设计的形态可能在展示时非常出色,但在商业应用中却难以普及。如果我们坚持要求人形机器人成为所有任务的通用解决方案,那么在许多实际工作中它们可能会因成本过高而无法生存。

观点4:大规模应用将催生通用功能,某些形态可能会向人形机器人靠拢。

这并不意味着人形机器人没有作用。从进化的角度来看,可以明确它们在哪些领域真正能够发挥作用。
随着不同机器人形态的规模化发展,它们的基础能力逐渐重叠:导航、同时定位与地图构建(SLAM)、避障、抓取技术、视觉理解、平衡能力、环境建模等。我们在实际应用中已经看到了这一点。例如,扫地机器人和室内自主移动机器人(AMR)的SLAM系统可能在代码和概念上有很多共同之处。随着时间的推移,一套可复用的“技能”库将在多种形态中逐渐形成。
在某些高价值场景中,将这些技能整合到人形机器人中是自然而然的选择——这并非因为人形机器人本身更优越,而是因为这个世界是为人类设计的。门把手、工具、楼梯、工作台、橱柜和走廊等都是为双足人设计的。当任务依赖于现有的工具和基础设施,或者机器人需要在未经改造的空间中与人类协同工作时,类似人形的形态确实具有优势。
如果这种融合真的发生,应该将其视为进化的结果,而非进化过程的起点。目前真正实现大规模应用的机器人是那些已经具备规模、数据和供应链的形态,而不是双足行走机器人。

数据驱动的决策

我个人认为,具身智能的未来形态不会由某个最具创意的人形机器人设计决定,而是由数百万机器人与现实世界互动的漫长、充满数据驱动的过程所决定——这些机器人要么存活下来,要么失败。
我们不应该试图制造一个全能的人形机器人,而应该接受多种机器人形态并行发展的生态系统,让成本、应用场景和规模自然发挥作用。如果人形机器人最终在某些领域成为最佳解决方案,那也是进化和市场选择的结果,而不是我们预先设定的。
Photo
刘少山是美国计算机协会(ACM)技术政策委员会的成员,也是美国国家公共行政学院技术领导力小组顾问组的成员。他的教育背景包括加州大学欧文分校的计算机工程博士学位和哈佛肯尼迪学院的公共管理硕士学位。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号