连续体机器人的形状感知是所有高级任务的基础,如闭环控制、路径规划和安全的人机交互[1]、[2]。这一过程涉及使用其结构上关键点的位置数据将机器人的形状表示为简化曲线[3]、[4]、[5]。通常,连续体机器人的形状感知方法可以分为三类:基于物理的方法[6]、基于外部视觉的方法[7]和基于传感器的方法[8]。
基于物理的方法是一种传统的形状感知方法,主要包括运动学和动力学模型。其中,分段常曲率(PCC)模型[9]因其简单性和效率而被广泛采用。然而,它们的理想化假设忽略了摩擦和重力等非线性效应,这限制了准确性。相比之下,虽然基于Cosserat杆理论[10]等更复杂的动力学模型可以提高准确性,但由于计算成本高和参数识别困难,它们难以满足实时要求。
基于外部视觉的方法使用外部相机系统捕捉机器人的表面或环境的实时图像,以提取有关其形状的信息[11]。在医疗外科机器人领域,已经广泛研究了成像技术,通过处理视觉数据直接提取连续体机器人的形状[12]、[13]。在二维空间中,最初使用单目相机来获取连续体机器人的形状[14]。为了重建连续体机器人的三维形状,应用了立体视觉系统[15]、[16]。尽管直观,但基于外部视觉的方法容易受到障碍物的遮挡,这限制了它们在复杂场景中的应用。
基于传感器的方法通过利用传感器的特性(如电学、磁性或光学特性)来确定机器人的形状。形状感知是通过使用柔性导电材料实现的,这些材料的电阻或电容会随着机械变形而变化[17]、[18]。然而,这些传感器经常面临材料滞后和复杂布线等挑战。磁性传感器已被集成到连续体机器人中以估计形状变化[19]。然而,这种方法容易受到环境磁场和铁磁材料的干扰。目前,最准确且最常用的传感器是光纤布拉格光栅(FBG)传感器。这种方法通过应变传感原理,建立了从光栅节点曲率到应变的映射,从而得到机器人的整体形状。FBG传感器被嵌入连续体机器人中,以检测二维[20]和三维形状[21]、[22]。这些FBG传感器的应用依赖于昂贵的光谱分析仪器。此外,光纤容易损坏[23],这限制了它们在低成本场景中的广泛应用。
使用低成本的惯性测量单元(IMU)已成为连续体机器人形状感知的一个有前景的方向。IMU已与其他传感器(如视觉和声学)结合用于形状感知,这种融合已被证明可以提高准确性[24]、[25]、[26]。与上述方法(如容易受到遮挡的视觉或容易受到电磁干扰的磁性传感器)相比,作为本体感觉器的IMU提供了显著更高的任务可靠性。它们的性能保持稳定,不受复杂环境中常见的外部干扰的影响。仅使用IMU配置的信息被用作基于物理模型的几何约束,用于纠正模型并重建整体形状[27]。然而,IMU的放置非常离散。因此,它们只能提供有限数量的几何约束点。这种稀疏性导致机器人连续形状的采样不足。结果,相邻传感器之间的段形状过度依赖于底层物理模型的插值,这对高保真度形状感知构成了挑战。
近年来,数据驱动方法为连续体机器人形状感知提供了新的途径。多层感知器(MLP)[28]、时间神经网络(TNN)[29]、Transformer编码器-解码器架构[30]、长短期记忆(LSTM)[31]以及带注意力的LSTM[32]等模型得到了改进,并被用于感知连续体机器人的形状。然而,这些端到端模型通常将系统视为黑盒。它们直接将传感器读数映射到机器人形状,忽略了机器人的内在物理拓扑和串行运动学结构,这限制了它们的性能。为了更准确地建模系统,需要考虑机器人的形状具有明显的层次特征:每个段内的局部几何形状以及沿运动链在段之间传播的全局依赖性。
为了有效地捕捉这些层次特征,我们从先进的网络架构中获得了灵感。首先,图神经网络(GNN)[33]在处理具有拓扑结构的数据方面表现出色。我们将每个机器人段抽象为一个图,其中传感器和观测点是顶点,物理连接是边。由于其特征聚合和局部结构编码的效率和稳定性,图卷积网络(GCN)[34]成为编码段内局部几何形状的理想工具。其次,Transformer[35]已成为序列处理的优秀方法。连续体机器人的各段在物理上形成了一个有序的运动学序列,其中上游段明确影响所有下游段的姿态。这一特性与因果Transformer[36]的建模范式非常吻合。最后,受到特征调制[37]和隐式神经表示[38]领域最新进展的启发,我们将形状感知问题重新定义为连续函数合成任务。通过预测相对于初始模型的位移场来纠正固有误差,从而以结构化且物理上合理的方式生成最终形状。
基于上述分析,我们提出了融合形状网络(FSN),以实现使用低成本IMU传感器的连续体机器人高精度形状感知。FSN是一种编码器-解码器架构,通过预测残差来纠正PCC模型的误差。在FSN中,第一阶段是段内拓扑编码器,它使用独立的GCN来捕捉每个段的内部空间关系并生成其局部特征。下一阶段是段间上下文化器,它将所有段的局部特征输入到因果Transformer中,以建模它们沿运动链的串行依赖性。最后是光谱合成解码器,它融合不同层次的信息,以物理上合理的方式生成最终形状校正。总体而言,FSN结合了基于物理的先验和结构化的深度学习模型。它准确地学习了复杂的非线性效应,同时遵循机器人的内在运动学约束。这种方法为低成本、高精度的连续体机器人形状感知提供了有效的解决方案,并已在我们的五段电缆驱动连续体机器人原型上得到了验证。