引言
液体活检通过微创、纵向采样循环肿瘤细胞(CTCs),改变了肿瘤演进与治疗反应的监测方式。然而,CTCs在外周血中的极端稀有性(例如在原发性乳腺癌患者中,仅约20%的患者每7.5 mL血液中≥1个CTC,转移性疾病中位数约为每7.5 mL 3个CTCs)仍是高通量、信息丰富的单细胞研究的主要瓶颈。这种稀缺性要求仪器能够从密集的血细胞和碎片背景中灵敏检测并选择性分离单个活细胞。基于尺寸和变形能力的平台(如确定性横向位移DLD、惯性/迪安流聚焦、粘弹性迁移、微滤/缩窄等)提供中等至高通量的无标记富集,但主要依据生物物理特性筛选,通常导致高残留白细胞携带,限制了单细胞纯度。水动力陷阱、微孔和气动阀阵列可确定性捕获单个细胞进行分析,但需要预先富集以提高纯度。液滴微流控擅长分区和下游检测,但其本身并非选择性分离步骤。场基方法利用细胞的内在物理特性。体声波和表面声波声泳通过压缩性/密度分离,具有优异的活力,但难以实现表型特异性。介电泳(DEP)通过复极化区分,可从沉积在微电极阵列上的混合物中捕获和路由单细胞,但其实际限制包括需要低电导率介质(约10–100 mS m?1)以限制焦耳热,且在生理缓冲液(>1 S m?1)中操作时难以分离活细胞。用于细胞分离的微电极网格阵列通过沿矩形像素阵列的正交方向限制细胞平移来“量化”运动;这降低了操作负载密度,且吞吐量最终受成像、路径规划以及转移过程中避免细胞接触的需求所约束。光电子/光诱导介电泳(OET/ODEP)使用光导基底和光定义虚拟电极,无需固定金属微电极网格,支持并行、光寻址陷阱,但与经典DEP共享相同的缓冲液限制。当前商业解决方案涵盖基于微电场系统(如DEPArray)和微操纵平台(如CellCelector),可实现高纯度,但常以人工干预、运行时间延长和有限可扩展性为代价。
光学捕获(光学镊子)提供了一种非接触、无标记且空间精确的操纵微观物体的方式,从单分子到整个细胞。在细胞系统中,单束镊子可以以亚微米精度定位和分选单个细胞,并保持活力。光学镊子(OT)通过紧密聚焦的近红外光束施加力,无需电极、光导体或低电导率介质。OT在生理缓冲液中稳健运行,并支持通过拥挤环境的连续自由空间轨迹,使其对分离稀有目标(如CTCs)具有内在吸引力。尽管精度高,光学镊子仍主要是手动工具,需要大量操作员专业知识,这限制了吞吐量,阻碍了标准化,并限制了更广泛的转化应用。
为提高吞吐量和可用性,光学镊子已与简化光学分选的微流控架构集成。通过计算捕获轨迹来置换细胞,可将传输中的细胞引导至所需微流控通道。在微操纵和微电场中,将细胞运输至目的地相对简单:要么无需避开障碍物,要么在微电极网格上进行分离,这极大简化了路径规划。光学捕获无需芯片功能化或电极图案化,但给自动化带来挑战。在光学捕获过程中,操作员必须主动绕过碎片,同时仅观察覆盖路线一小部分的狭窄视野。经典方法是使用路径查找算法(如A*)规划轨迹,并控制仪器遍历这些路径。在光学捕获中,视野受高数值孔径(NA)物镜的需求限制。获取图像瓦片可以覆盖比单个视野更大的区域以建立大环境的状态;然而,这需要时间。细胞场不是静态的,因为流体的非扩散传输会发生并扰乱场。因此,显微镜载玻片的扫描可能迅速过时,并且在每次分离事件后重复更新整个环境状态并非高效策略。降低颗粒密度可缓解其中一些挑战,但以样品处理效率大幅降低为代价。
实际上,人类操作员依靠有限的线索集来引导陷阱和避开障碍物,例如对目标大致方向的感知、环境的部分记忆以及局部视野内的实时观察。开发模拟此过程的自主系统所面临的挑战,与自动驾驶和AI在2D空间环境中的游戏玩法极为相似。超越静态算法限制以提高性能的一种途径是通过机器学习(ML)。两种广为人知的方法是监督学习(SL),其中ML代理通过审查预记录数据学习;以及强化学习(RL),其中ML代理探索模拟环境并通过优化奖励函数学习。
AI系统已在战略游戏(如围棋)、基于Atari的平台游戏和即时战略游戏(如星际争霸II)中超越专家级人类表现。尽管这些游戏受益于确定性和可重复的模拟环境,但现实世界的机器人和操纵任务要求代理在物理不确定性下泛化。自动驾驶赛车尤其成为RL的一个引人注目的挑战,因为它需要高速规划和适应性。赛车游戏已发展到可以作为逼真物理模拟器的程度,训练的模型甚至超越了职业人类驾驶员。
考虑到这一点,我们开发了MaGIC-OT(使用光学镊子的机器引导细胞分离),一个专为支持自主光学捕获的模型训练和评估而设计的数字模拟环境。先前的工作已在低复杂度、充满微球的场中展示了虚拟和增强的光学捕获环境,包括在外展和基本概念验证演示中的应用。尽管这些代表了光学系统中AI集成的关键步骤,但这些环境缺乏生物真实性,并且未针对与稀有细胞分离相关的临床和技术挑战进行定制。相比之下,MaGIC-OT旨在模拟微流控装置中单细胞捕获的真实约束,包括高密度环境、碎片存在和动态演变的局部遮挡。它支持经典路径查找和深度强化学习模型,从而在部署前实现模拟中的严格基准测试。
MaGIC-OT平台支持密集、生物学相关的模拟环境,反映了稀有细胞分离的关键瓶颈。我们证明MaGIC-OT可用于评估光学捕获的经典和基于ML的模型。我们展示了涉及人类和代理交替控制的协同学习方法可以显著提高代理性能。通过与熟练的人类操作员进行基准测试,我们证明训练后的模型在成功率和效率上可以超越专家用户,突显了机器引导光学捕获在生物医学应用中的转化潜力。
实验方法
虚拟环境
该环境支持在有界竞技场内实例化随机化粒子场,这些竞技场代表微流控通道和分析室,使用JSON文件。墙壁被实现为不可穿透的几何基元,所有粒子均被分配类型、半径、位置和迁移率等属性。粒子类型包括目标细胞(如CTCs)和非目标物体(如其他细胞(例如白细胞、红细胞)和碎片)。目标细胞使用仅通过空间坐标访问的元数据标记,而视觉通道(由代理的卷积编码器使用)以固定分辨率渲染环境。单束光学陷阱在代理视野中心模拟,代表我们光学镊子系统的激光焦点。陷阱可由控制代理在X和Y轴上以离散步长编程切换或平移。当激活的激光与粒子(即细胞或碎片物体)相交时,施加捕获力,该力根据激光质心与粒子质心之间的径向位移计算。该力模型捕获了光学势的有效恢复行为,模拟了真实的激光介导的平移动力学。除了渲染的视觉场景外,模拟还向代理或下游学习模型提供空间元数据。这些包括:(i) 模拟场内光学陷阱的当前X/Y坐标;(ii) 基于邻近启发式的软标记区域,估计最近目标细胞的位置;(iii) 相对于目标细胞当前位置的目标隔离区内的最近区域。在模型训练和推理期间,此空间信息与视觉输入一起作为结构化数值向量附加。
MaGIC-OT模拟环境中的主要目标是将指定目标细胞运输到预定义目标区。成功交付后,细胞及其相关目标区从模拟中移除,并引入新的目标细胞-区对,从而支持跨连续剧集的连续训练。为确保初始粒子分布的可重复性,MaGIC-OT允许确定性播种:每次运行开始时设置的用户定义随机种子生成相同的细胞和碎片配置,可缓存以供未来会话快速重用。
为促进人工代理的有效训练和调试,模拟器包含一套可配置参数。可定义动作限制,以便在最大离散动作数后自动终止模拟,防止代理陷入无产出或无限循环。此外,可启用可选的“启动助手”,将光学陷阱和视野初始化为距最近目标细胞的固定距离和随机角度,确保标准化初始化而无需硬编码起始位置;如果省略,则从预定义级别文件加载默认位置。
MaGIC-OT还支持完全自动记录游戏会话。这些记录捕获渲染的模拟和时间分辨的空间元数据,包括陷阱位置、目标位置和选定动作。视觉叠加可以用代理在该时间步的奖励和指示所选动作方向的箭头注释每一帧。输出数据可导出为图像序列或结构化数值数组,并附带元数据文件以促进事后分析。此基础架构支持代理训练和性能的可重复性、定量基准测试和详细行为审计。
计算环境
训练管道在Python中使用PyTorch实现,并启用GPU加速。图像数据、空间元数据和用户操作的逐帧记录通过MaGIC-OT CellLogger系统处理。统计分析,包括分离成功率和路径规划性能的比较,在R中使用标准统计包进行。显著性检验包括学生t检验,p值<0.05被认为具有统计学意义。
经典算法
MaGIC-OT可执行经典路径查找算法,并将结果路径显示为图像,以指导人类操作员,或作为机器学习任务的额外输入。路径可分解为航点,并在模拟内部使用以整合传统的动态规划方法。环境可导出为图像(或像素值的2D矩阵),动态裁剪以略微超出感兴趣区域。此视图旨在模拟显微镜载玻片的扫描,可返回为正常灰度图像或描述微流控芯片可遍历和不可遍历区域的二进制掩码。此外,二进制掩码可用成本函数注释以阻止靠近障碍物的路径。然后可将此矩阵传递给路径查找算法。这里,我们使用经典A*算法来规划从目标细胞起始位置到空分析室的无碰撞轨迹。规划空间表示为在微流控几何的自由空间上构建的概率路线图。每个节点对应一个候选航点,连通性由欧几里得空间中的局部可见性确定,通过碰撞检查函数过滤。应用障碍物膨胀以考虑被困细胞的物理尺寸。
机器学习
神经网络架构
MaGIC-OT底层的神经网络架构旨在处理从模拟环境导出的多模态输入。它接受两个不同的输入流:(i) 当前视野的灰度图像,表示为二维矩阵;(ii) 空间信息向量,包括如前所述的位置相关元数据。图像输入通过一系列三个卷积层处理。每个卷积层后接批量归一化和泄漏整流线性单元(leaky ReLU)激活函数。然后将所得特征图展平为一维向量。空间信息连接到此向量,产生视觉和位置特征的统一表示。此复合向量随后通过三个全连接(线性)层传递,每个层采用标准ReLU激活函数。最终输出是一个向量,其维度等于代理可用的离散动作数量;此输出被解释为与每个可能动作相关联的未归一化Q值。卷积层的权重初始化使用Kaiming He方法执行,该方法针对ReLU型激活进行了优化。为减轻过拟合并鼓励正则化,在卷积层之间和全连接层之间插入了dropout层。
网络超参数选择使用贝叶斯优化扫描进行。扫描的目标是在监督学习期间最大化在保留测试数据集上的分类准确度。扫描期间优化的参数包括卷积核大小、步长和每层通道数,以及全连接层的维度。还对训练参数进行了额外优化,包括学习率、批量大小和dropout概率。监督学习期间使用的损失函数是分类交叉熵,模型性能基于测试数据集中正确分类动作的比例进行评估。为解决动作空间内的类别不平衡问题,损失函数可选地按训练数据集中每个动作的逆频率加权。此加权增加了对罕见但关键行为分类错误的惩罚,从而改进了对稀有行为的表示。监督训练后,进行了第二次贝叶斯扫描以调整控制强化学习训练制度的参数。这包括奖励函数参数和ε贪婪探索计划的优化。
探索了数据增强作为提高样本效率和泛化能力的策略。实施了训练示例的旋转,但这需要输入图像、空间信息和动作标签的协调转换。MaGIC-OT中实现了两种旋转模式。在旋转模式1中,所有基于坐标的元数据围绕激光位置旋转,激光位置保持在图像中心固定。这保留了激光的坐标,同时变换所有其他空间参考。在旋转模式2中,整个环境围绕其全局中心旋转,导致激光和所有其他空间元素的坐标更新。这些程序能够在保持几何一致性的同时重复使用图像-状态-动作三元组,这是视觉机器学习系统中广泛使用的技术。
强化学习
RL代理使用PyTorch和深度Q学习(DQN)算法以及ε贪婪探索策略进行训练。剧集在MaGIC-OT模拟器中进行,使用具有可变细胞密度、障碍物分布和目标位置的随机播种环境。奖励函数被塑造为包括朝向目标的进展的正向奖励、偏离或碰撞的惩罚以及成功分离的终端奖励。
监督与协同学习
对于监督学习,模型使用在MaGIC-OT环境中记录的人类游戏轨迹进行训练。数据集使用逐帧记录系统(MaGIC-OT CellLogger;见下文)进行注释,该系统存储图像-状态对和相应的人类动作。数据增强包括芯片环境的随机旋转和翻转以增强泛化能力。尝试了加权损失函数以增加罕见或上下文敏感动作的权重。为提高策略稳健性,实施了协同学习框架。在此框架中,人类和代理在训练剧集中交替控制光学陷阱,允许代理遇到由于次优人类决策而产生的挑战性或不稳定状态。此方法显著丰富了回放缓冲区,并使代理能够学习其他情况下在干净演示中缺失的恢复策略。
数据记录与回放
为支持监督学习和性能基准测试,开发了记录套件(MaGIC-OT CellLogger)。在模拟环境中,系统记录实时光学陷阱坐标、用户动作、系统状态和环境元数据(例如细胞位置、目标位置)以及每个相机帧。所有模拟数据以结构化格式存储,并带有并行JSON元数据,以确保与下游机器学习框架的兼容性。实现了回放功能,以允许逐步重建人类和代理的分离尝试。记录的模拟剧集可加载到MaGIC-OT模拟器中,从而能够在受控条件下对动作进行相同重新执行和性能视觉验证。记录基础架构支持选择性过滤(例如仅成功、高密度剧集)并导出到与PyTorch兼容的数据集。CellLogger模块还支持关键事件(如陷阱丢失、碰撞或恢复)的内联注释,这些注释在协同训练实验期间用于识别用于经验回放增强的显著转换。
对于实验验证,MaGIC-OT可由与物理显微镜、载物台和激光交互的人类用户操作。在此上下文中,与显微镜、载物台和激光的交互必须通过数据记录器捕获。CellLogger作为控制输入和显微镜载物台之间的中介,同时从显微镜相机捕获实时图像。该应用程序支持多种物理输入设备(游戏控制器、操纵杆等),这些设备通过RS232连接中继到显微镜载物台控制器。此外,CellLogger跟踪载物台位置。收集的数据随后可用于训练模型。一旦训练完成,CellLogger可以利用训练后的模型移动载物台,同时可以设置人类和AI交互的比例,以在操作员之间切换。实现了自动和手动在人类和AI操作员之间切换,以生成更丰富的训练数据集,并允许人类操作员从纯粹由人类操作的记录中不存在的“救援”AI情况中解脱出来。
细胞分离
光学陷阱平台
围绕倒置显微镜构建了单束光学陷阱,通过集成连续波镱光纤激光器。激光束使用望远镜系统扩展以略微过填充高NA油浸物镜的后孔径。使用两个转向镜实现光束对准。激光聚焦到包含样品的微流控室中,实现对单个细胞的捕获。明场照明源提供实时成像,相机用于跟踪。样品平面的激光功率通过半波片和偏振分束器调整,以优化捕获力同时最小化光损伤。MaGIC-OT可以使用制造商提供的驱动程序软件控制电动载物台。使用60倍物镜时,需要140×10个瓦片来扫描单细胞分析芯片,导致总采集时间为16–17分钟;这是为路径规划更新整个环境状态的最小时间成本。更快的采集时间(25×3瓦片,1分钟)可以通过使用较低功率10倍物镜实现,但分辨率会降低。由于残留流体(水或油)倾向于留在样品上,干燥和浸没物镜之间的连续切换通常存在问题;这会阻碍干物镜成像,并且在此设置中不是可靠策略。
芯片制造与使用
使用标准软光刻技术制造微流控装置。简言之,使用光掩模通过常规紫外光刻在硅片上图案化SU-8光刻胶,产生负性浮雕模具,通道高度为35 μm。以10:1的比例混合聚二甲基硅氧烷,脱气后倒在主模具上。在70°C固化3小时后,从PDMS板切割单个芯片,并使用台式钻机制作流体入口/出口。PDMS装置在通过氧等离子体处理表面活化后不可逆地键合到玻璃盖玻片上。键合后,通道真空填充4% PBSA并孵育以使通道表面钝化并防止非特异性细胞粘附。芯片架构基于先前验证的单细胞分离和分析设计。
细胞样品制备
使用低糖DMEM培养MCF7细胞,补充有10% FBS和1%青霉素-链霉素。对于加标血液实验,将1000个细胞加标到来自健康志愿者的10 mL血液中。本研究中使用的人类样本来自Imperial College Healthcare Tissue Bank。加标细胞通过密度离心富集。含有“CTCs”的组分通过移液器小心提取,并通过离心用4% PBSA洗涤,然后重悬于0.5 mL 4% PBSA中。加标细胞的平均回收率为25%,在单独的加标实验中评估。富集的CTC溶液使用注射泵逐步引入微流控芯片,因为负载体积超过通道体积;处理了约50 μL溶液。密度离心是一种简便的富集步骤,而非最终分离步骤。其在我们工作流程中的价值是快速减少非靶细胞负载,同时保留足够的靶细胞,以便MaGIC-OT可以执行终点单细胞分离步骤。已有报道了提高密度离心后细胞回收率和/或纯度的步骤。
统计分析
本工作中的所有实验数据至少测量三次,并记录为平均值±标准差。对数据进行Shapiro–Wilk检验学生t检验。详细信息可在图例中找到,包括样本量和概率值。P<0.05被认为具有统计学意义。使用python或MATLAB进行统计分析。
结果
MaGIC-OT环境
MaGIC-OT旨在提供真实世界光学镊子实验的高保真数字模拟,同时支持与机器学习工作流的无缝集成。基于2D游戏引擎构建,它实时渲染操作员通过目镜或相机看到的显微镜视野。模拟可以跟踪数万个粒子,并在每个粒子上计算真实的光学捕获力。我们使用球形粒子的分析力模型量化了硅中的力和位移行为,并与用户对物理系统的观察进行了定性对齐;然而,未来可能需要进行体外全定量力校准。
MaGIC-OT作为模块化Python应用程序实现,以最大化灵活性和可移植性。它可以嵌入自定义Python脚本中,并且轻量级包装器抽象允许交换或升级底层引擎而无需更改核心代码。用户可以通过配置文件轻松修改环境参数,从而能够更改通道几何形状、生成位置和粒子属性而无需重新编译。虚拟设置的每个方面都是动态的:墙壁可以重新定位,细胞生成区域可以重新定义,并且可以动态加载新的障碍物布局。总之,MaGIC-OT实现了忠实模拟稀有细胞光学捕获的目标,同时为与自动控制算法和机器学习模型的集成提供了多功能平台。此基础允许严格的硅中实验,弥合物理光学镊子设置与单细胞处理的计算方法之间的差距。
经典方法与A*
MaGIC-OT支持硅中实验和路径查找算法之间的比较。使用MaGIC-OT模拟器,我们首先评估了用于细胞分离的经典路径规划策略。应用A算法(一种最佳优先图搜索方法)来规划将靶细胞移动到隔离室的最佳路径。为促进这一点,我们在微流控通道内生成可遍历空间的概率路线图。路线图由节点数量和节点之间的最大连接距离决定。路线图节点占据通道壁内未被任何细胞(靶细胞或旁观细胞)占据的“自由”空间,基于用于单细胞分析的芯片设计。边连接定义距离内的节点,不施加网格,充分利用光学陷阱运动的连续自由度。然后A有效搜索此路线图以寻找从靶细胞初始位置到预定义隔离区的最短路径,使用行进距离g和启发式估计h(到目标的直线距离)的总和来指导其探索。越来越拥挤的细胞环境需要更高密度的节点和更短的连接距离,以最大化计算通过随机细胞场的可行路径的概率,但计算时间成本增加。
确定环境的可遍历无碰撞空间时的关键步骤是认识到路径必须考虑被OT平移的细胞的直径。以通用方式在大型像素密集环境中对所有不可遍历物体和区域进行填充或膨胀计算量很大。当膨胀环境中物体的质心(例如红细胞、CTCs、WBCs等)并设置膨胀半径(即当前被困细胞的半径)时,我们实现了计算时间的显著改善。
这不可避免地牺牲了路线图中的节点以换取计算时间的改进。实际上,在分离稀有细胞时,这限制了可以高概率分离细胞的密度。对于所有物体已被识别为细胞的环境,这不是问题。然而,形状与单细胞显着不同的物体(如碎片或细胞聚集体)对此方法构成挑战。最终用户必须决定哪种方法适合其应用以及由此产生的权衡。为减轻漂移,我们尝试了局部段落的增量重新规划,但全视野重新扫描仍然是时间限制步骤,因此对于快速连续分离不切实际。重要的是,我们的A*实现假设在规划期间环境的静态快照;计算路径后发生的任何细胞运动在此阶段不予考虑(我们在下面解决此限制)。
接下来我们研究了随着环境复杂性增加,找到成功路径的比率如何变化。当场地高度拥挤其他细胞时,人类和算法操作员都开始无法分离靶细胞。图3D显示了细胞密度与分离成功率之间的关系。高达0.15分数占有率,路径查找成功率≥90%,之后降至0.18分数占有率的50%,以及0.21分数占有率的6%。作为比较,垂直虚线表示DEPArray(一种与CellSearch CTC分离系统结合使用的基准介电泳单细胞分离平台)的操作负载密度。
我们探索了MaGIC-OT Classic与人类操作员相比的表现。在此场景中,确定微流控环境的状态,并规划路径以供执行。向熟练人类操作员展示模拟芯片的二进制俯视图,并要求手动绘制路径将靶细胞递送到目标(隔离室),避开其他细胞。MaGIC-OT Classic依次使用启用膨胀优化的A*在相同初始布局上计算其路径。仅分析成功试验,即存在完整路径到目标的试验;这确保路径长度和时间比较不受失败尝试的影响。也许不足为奇,MaGIC-OT Classic能够比其人类同行更快地识别无碰撞路径。我们测量了路径长度,发现它们相似,机器识别的路径平均略短。这对两个操作员来说都是一个令人鼓舞的结果。一方面,MaGIC-OT Classic能够超越熟练人类操作员,减少整体隔离路径长度,从而最小化捕获时间。同时表明经验丰富的光学镊子用户直观地规划接近最优的轨迹,尽管自动规划器仍然可以在效率上获得适度改进。较短的路径直接转化为靶细胞的捕获时间减少,有利于细胞活力。在比较之前,所有人工绘制的路径都在模拟器中验证为无碰撞,以确保公平的基线。
总体而言,经典的基于A*的规划器证明了在静态场景中单细胞分离的速度和路径质量上匹配或超越熟练人类的能力。这证实了即使是相对简单的算法也可以自动化通过拥挤微流控通道精确路由细胞的关键任务。然而,静态路径规划方法的一个明显限制是在执行期间需要稳定环境:如果细胞在初始计划后显著移动,预先计算的路径可能不再可行。在实际实验中,更新计划需要暂停以重新对整个视野成像,然后重新计算新路径,产生显著的时间成本。
深度强化学习
我们寻求一种无需持续重新扫描即可处理动态环境的方法。为实现这一目标,我们开发了一个深度强化学习框架,支持实时自适应控制光学陷阱。在微流控装置中,CTCs等细胞并非固定不动:它们可能由于流动不稳定性或布朗运动而漂移,这意味着最初无碰撞的路径可能在片刻后被阻塞。因此,确定性路径规划方法随时间推移变得越来越无效,除非不断用更新的空间信息重新初始化。虽然计算新路径相对较快,但获取所有细胞的更新位置需要执行另一次装置的显微镜扫描,这要慢得多。在我们的设置中,执行微流控芯片全明场扫描(以捕获所有细胞位置)的时间可能需要几十分钟,具体取决于使用的物镜。识别特定靶细胞需要额外的多通道荧光成像。这造成了一个基本瓶颈:系统的全局状态不能频繁刷新而无需暂停程序,在此期间细胞可能继续移动。当然,可以构建或配置专用光学显微镜以同时捕获所有视野,但这并不能免除重新扫描的需要。没有全局路径规划,环境信息仅部分已知,并限于视野范围。人类操作员通过使用以自我为中心的策略克服这一点,仅基于局部视野做出决策,并不断调整前进,而不是依赖完美的全局地图。受此启发,我们训练了一个深度强化学习代理以类似方式执行细胞分离,仅使用局部、实时视觉输入和反应式决策。
深度Q网络代理被部署为MaGIC-OT控制框架内的中央决策架构,支持从高维视觉和空间输入中数据驱动推断最优动作。代理接收两种模态的输入:显微镜视野的像素级渲染和指示靶细胞和目的地室位置的空间坐标。动作空间包括光学陷阱的离散平移操作。定义了自定义奖励函数以激励生物学相关行为,包括:i) 最小化陷阱与靶细胞之间的距离,ii) 将被困细胞朝向目标平移,iii) 成功将细胞沉积在分析区内,以及iv) 惩罚事件,如因与墙壁或其他粒子碰撞而丢失靶细胞。
学习通过ε贪婪探索策略和通过随机梯度下降对Q函数的迭代更新促进。通过在合成环境中的连续训练剧集,代理收敛于障碍物避免和目标递送的稳健策略。在一组简化的微流控几何形状上训练后,DQN