《Biomimetic Intelligence and Robotics》:Deep reinforcement learning-based dynamic path planning of flexible needle in robotic puncturing
编辑推荐:
本文针对柔性针穿刺手术机器人面临动态环境适应性差、多目标规划实时性不佳等挑战,提出了一种基于深度强化学习(DRL)的动态多目标路径规划方法(DMFNC-PPM)。研究团队通过构建分层组织模型、设计目标优先级机制,并引入优先经验回放(PER)技术,显著提升了穿刺路径规划的精度和效率。仿真结果表明,该方法在动态多目标环境中具有优异的实时性能和鲁棒性,为智能手术机器人技术发展提供了新思路。
在微创手术领域,柔性针穿刺技术因其灵活性高、组织损伤小等优势,被广泛应用于活检取样和液体引流等临床场景。然而,真实手术环境中的挑战远超静态模型:呼吸运动导致器官位移,多病灶目标需要优先级排序,传统规划方法难以同时满足实时性、安全性和精准度的要求。现有研究多集中于静态单目标环境,与临床动态多目标场景存在显著差距。
为攻克这一难题,广东工业大学计算机集成制造实验室团队在《Biomimetic Intelligence and Robotics》发表研究,提出基于深度强化学习(Deep Reinforcement Learning, DRL)的动态多目标柔性针路径规划方法(DMFNC-PPM)。该研究通过模拟人体腹部组织分层结构,构建了包含运动障碍物和多目标点的动态环境模型,并创新性地将手术决策过程建模为马尔可夫决策过程。
关键技术方法主要包括:(1)基于独轮车框架(unicycle framework)的层次化组织动力学建模,整合运动学与力学模型;(2)设计目标优先级评估公式(P=U+I-R),结合紧迫性、重要性和可达性量化多目标决策;(3)采用DQN-PER(Prioritized Experience Replay)算法,通过优先级采样机制加速关键手术事件的学习效率;(4)定义包含14维状态特征、3类动作空间和9种复合奖励的强化学习模型。
3. 人体内部环境动态建模
通过简谐运动方程模拟呼吸导致的器官位移,建立障碍物动态模型。针对多目标穿刺任务,提出基于加权和优先级模型(P=U+I-R)的路径排序策略,结合退针策略减少重复穿刺损伤。
4. 动态多目标柔性针路径规划框架
构建端到端的DRL解决方案,扩展状态特征至14维(如针尖坐标、目标优先级P、多路径表征L等),动作空间新增退针操作(b)。奖励函数引入目标优先级加权机制(r_t = r_t·P)和最优序列奖励(r_e),引导智能体学习符合临床逻辑的决策序列。
5. 基于DQN-PER的智能体训练
相比标准DQN算法,PER机制依据时序差分误差(Temporal Difference error)优先回放高风险事件(如近障碍规避、高优先级目标达成),显著提升训练效率。实验显示DQN-PER在3300次训练迭代后收敛稳定性优于传统方法。
6. 仿真实验对比
与RRT*算法对比中,DQN-PER在平均规划时间(0.0081s vs 0.0531s)和安全距离(3.77cm vs 2.38cm)指标上表现更优。多空间尺度测试(303-703)验证了算法泛化能力,动态环境中智能体成功实现多目标按优先级顺序穿刺,路径平滑度达3.68(满分5分)。
研究结论表明,DMFNC-PPM方法通过DRL框架有效解决了动态环境下的多目标权衡问题,其优先经验回放机制加速了关键手术决策的学习过程。该技术为柔性针穿刺手术提供了实时、安全、可解释的智能规划方案,尤其适用于肿瘤活检、深部脑刺激等需规避重要器官的复杂临床场景。未来工作将聚焦于更精细的生物力学建模与混合算法优化,进一步推动机器人辅助手术的智能化发展。