《PLOS Biology》:A deep learning-based computational pipeline predicts developmental outcome in retinal organoids
编辑推荐:
这篇研究通过深度学习技术,成功预测了视网膜类器官(RO)中视网膜色素上皮(RPE)和晶状体组织的早期形成。研究团队利用高分辨率延时成像数据集(包含约1000个类器官和超过10万张图像),结合专家注释和形态计量学分析,揭示了类器官发育过程中的显著异质性。所开发的卷积神经网络(CNN)集成模型,能够在组织形成远未达到肉眼可见之前(RPE在成像开始后11小时,晶状体在4.5小时),以高准确度(F1分数>0.85)预测特定组织结果(TOI)的出现和大小。这项工作为理解类器官发育中的组织决策时间窗口提供了新见解,并为其他类器官系统构建类似的预测平台铺平了道路,有望推动类器官研究走向更标准化和可重复的方向。
引言
视网膜类器官(RO)已成为研究发育和疾病的重要模型,但其在细胞类型、组织和表型形成过程中存在的随机异质性是一个主要挑战。这限制了我们在早期发育轨迹上精确进行实验研究的能力。深度学习(DL)的应用显示出通过分析图像模式来预测生物学结果的潜力,但在预测类器官内是否以及何时会形成特定组织方面仍存在研究空白。
视网膜类器官表现出实验内和实验间的异质性及特定的组织结果
为了证明深度学习可以预测视网膜类器官的组织结果,研究首先生成了一个包含约1000个类器官的纵向明场成像数据集。这些类器官来源于青鳉鱼(Oryzias latipes)的胚胎多能细胞,在96孔板中进行培养,并使用自动化宽场显微镜平台每30分钟进行一次高分辨率延时成像,持续72小时。最终数据集包含988个类器官,总计117,249张图像。研究选择了视网膜色素上皮(RPE)和晶状体的形成作为特定的组织结果(TOI)。其中,RPE的形成通过添加重组WNT替代物-Fc融合蛋白(Wnt-surrogate)来诱导,而晶状体的发育则不依赖于Wnt-surrogate的补充,是自发出现的TOI。
研究发现,尽管保持了恒定且高度可重复的培养条件,RO在RPE和晶状体的组织出现方面仍表现出显著的实验内和实验间异质性。即使是按需诱导的RPE,也并非在每个类器官中都能出现。对RPE面积和晶状体面积的量化分析进一步表明,其组织形成量和大小的异质性同样很大,并且增加Wnt-surrogate的浓度(1、2和4 nM)既不能确保RPE的出现,也不能可靠地增加其形成量。这些结果表明,每个类器官中RPE和晶状体的组织形成和大小是异质性的,无法通过外部刺激以受控方式确定。
开发大规模延时图像分析平台
为了大规模分析延时图像,研究开发了一个基于Python的分析流程。首先使用深度学习引导的图像分割,然后通过分析平台处理分割后的图像,量化形状描述符和图像矩等参数(总参数数:165),生成包含类器官形态特征(称为形态计量学)的描述性表格数据集。距离测量结合降维分析显示,类器官在早期时间点彼此更相似,但随着发育的进展逐渐分化,表明它们的形态特征随时间动态变化。尽管Wnt-surrogate的添加可能部分诱导了全局形态变化,但在未添加Wnt-surrogate的RO中也观察到了相同的趋势。当检查每个RO随时间的形态变化时,可以观察到在成像窗口的后半段,形态变化率显著高于前半段,表明在发育后期类器官具有更高的可塑性。因此,异质性不仅以组织特异性的方式存在,也反映在RO形态的时间动态中。
深度学习在组织可见之前即可预测RPE和晶状体的出现
在获取、注释和分析延时RO成像数据集后,研究重点转向预测RPE和晶状体出现的图像分类任务。作为参考,专家小组被要求使用与上述相同的数据子集,根据成像最后时间点的数据来预测组织的出现及其数量。正如预期的那样,人类的预测准确性在开始时较低,并随着时间点的推移稳步提高,这与类器官中RPE和晶状体可见度的增加一致。值得注意的是,人类评估的F1度量在后期时间点达到0.7-0.8的平台期,这与组织可见度的发现一致。因此,对人类而言,准确预测TOI的组织出现是不可行的。
对于机器学习模型训练,研究刻意创建了两个不用于训练的数据集。第一个称为验证集,来自用于训练的实验中所成像的10%的类器官。第二个称为测试集,包含在一个完全独立的实验中所成像的类器官。最后,采用了交叉验证策略,其中每个获取的实验依次被设置为测试实验,并在其余实验的90%类器官上进行训练。通过这种策略,能够评估模型在数据集内部以及跨最大实验间变异广度上的准确性。
首先,研究尝试利用从图像分析流程获得的表格形态计量学数据来预测RPE和晶状体的出现。为此,通过常规交叉验证对几种机器学习分类器进行了基准测试,并结合超参数调优来选择图像分类任务中表现最佳的模型。随机森林分类器和二次判别分析(QDA)分别被选用于预测RPE和晶状体的出现。基于表格图像数据的分类器最初以0.65-0.75的F1分数准确度预测RPE的出现。在接近组织首次可见的时间点(30至45小时,占成像窗口的42%-63%),准确性略微增加到F1分数0.8。值得注意的是,该准确性在所有时间点都略优于人类预测。这些结果表明,基于表格图像数据的分类器可靠地识别了组织存在,并在一定程度上能够提前预测RPE的出现,但仅略优于人类预测。虽然最初对晶状体出现的预测是随机的,但发现在15到25小时之间(占成像窗口的21%-35%),预测准确性有轻微但明显的增加,达到F1分数0.6-0.7。然而,发现在后期时间点,基于形态计量学数据的分类不如人类预测,表明形态计量学数据未能充分捕捉与晶状体组织出现相关的特征。
在第二次尝试中,研究训练了一个CNN集成模型,将图像分类为两类,预测在最后时间点特定组织(RPE或晶状体)的最终存在或缺失。CNN在训练过程中表现出稳定的改进。引人注目的是,深度学习模型即使在非常早期的发育阶段也能准确预测RPE和晶状体的形成。对于RPE的预测,网络在成像开始后中位数11小时达到了第一个显著的准确性(F1度量高于0.85),这标志着准确预测RPE的关键早期阈值。在剩余的大部分时间点,F1度量接近0.9,提供了远优于人类预测和基于表格图像数据分类的结果。这些结果表明,CNN集成能够在该组织远未可见之前预测RPE的出现,甚至在RPE在立体显微镜下可见但在延时图像焦平面上无法检测到的时间点,其预测也优于人类。对于晶状体的预测,CNN集成在比RPE预测更早的时间点(4.5小时)就实现了第一个可信的预测(F1度量高于0.85)。F1分数在该水平上稳定保持,神经网络集成在统计显著性上明显优于专家和基于表格图像数据模型的预测能力。
深度学习预测组织大小
接下来,研究重复了分析,尝试预测RPE和晶状体的面积。如前所述,根据所有实验的面积分布,将立体显微镜和延时图像数据获得的面积离散化为4个类别。类别0表示给定类器官中没有组织出现,而类别1、2和3分别分配给低于33rd、66th和100th百分位数的面积。
研究遵循了与上述相同的步骤,包括人类参考预测、分类器基准测试以及对单切片图像以及总和或最大强度z投影图像进行超参数调优,以从表格图像数据进行预测。组织大小的人类预测准确性随着类器官发育的进程稳步提高。人类预测的F1分数早期达到0.3-0.4,在组织可见度开始后的成像窗口末期,RPE面积的F1分数最大值约为0.53,晶状体大小的F1分数最大值约为0.65。这表明预测组织量对人类来说基本上是不可行的。
接下来,研究训练了一个HistGradientBoostingClassifier和二次判别分析(QDA)分别用于预测RPE和晶状体,观察到预测准确性(以F1度量判断)与人类预测相比有类似的稳步增长。发现F1分数达到一个平台期,在所有时间点对RPE的预测略高于人类表现,而对晶状体仅在后期时间点略差。
当训练CNN集成模型时,在非常早期的发育时间点观察到预测准确性的飙升,这与从RPE出现和晶状体出现获得的结果一致,最终RPE和晶状体两者的F1度量均大于0.7。预测准确性在初始飙升后再次保持稳定,这与RPE和晶状体出现预测的情况相同。因此,对于大多数RO,RPE的相对量和晶状体的相对大小可以在与其出现大致相同的时间点被可靠预测,但总体准确性较低。与RPE和晶状体出现的情况一样,再次注意到独立实验间预测准确性的差异,并且使用总和或最大强度z投影图像没有注意到任何显著变化。
接下来,研究试图在图像中寻找相关的结构信息,以指导深度学习模型在可见性之前的早期时间点预测TOI。跨八种分析的相关性反向传播方法和所有三种CNN架构,观察到在相关性分配方式以及这些分配的一致性方面存在显著差异。突出的类器官模式在不同归因方法之间不够一致,无法支持生物学解释。因此,相关性反向传播未能揭示可以解释CNN决策或提供与TOI相关的早期形态学指标的清晰类器官特征。
深度学习预测类器官形态
在展示了模型对两个TOI的预测能力后,接下来将该方法应用于类器官固有的形态本身,作为解决连续特征空间的多结果预测任务的示例。为此,根据类器官在最终成像时间点的形态计量学特征空间进行聚类,并将这些聚类分配用作分类的分类目标。然后,应用在形态计量学特征上训练的决定树分类器和在图像数据上训练的CNN,从早期时间点预测最终的聚类成员身份。预测准确性(以F1分数量化)随着时间的推移稳步提高,因为类器官逐渐变得与其最终状态更相似。值得注意的是,两种方法都比预期更早地达到了显著的准确性:CNN性能在成像开始后约20小时超过70% F1,而决策树分类器稍后达到类似水平。这一发现表明,类器官在早期已经显示出与其最终发育轨迹密切相关的早期形态特征签名。
讨论
模型系统异质性作为挑战
研究中发现,无论是非自发性(RPE)还是自发性(晶状体)的组织出现,以及它们的最终组织大小,在经历相同分化方案的类器官和实验之间都存在差异。尽管尽最大努力消除了技术变异,这种异质性似乎是模型系统的一个固有特征。研究人员经常面临类器官模型系统内部和跨实验的相当大的异质性。与之一致的是,通过先进的图像分析工具,扩展了先前的工作,证明了RO在时间上的形态异质性。通过距离分析和降维全面表明,模型系统表现出类器官形态的实验内和实验间变异,这些变异随时间以实验特异性方式持续增加。虽然研究人员通常真诚努力最小化导致异质性的技术变异,但目前还没有可重复的方法来完全控制这些复杂模型系统的所有方面。
由于类器官固有的实验内和实验间异质性,只有当特定的TOI被适当且可检测地建立时,才能确定某个类器官拥有该TOI。在此之前,给定的类器官是否会发育出TOI仍然不确定。为了描述这一点,引入了潜在决定视野(LDH)的概念作为一个理论框架。LDH代表了一个时期,在此期间TOI的最终存在或缺失尚不可观察,但朝向发育该TOI的决定可能正在被确定。这一基本原理源于两个主要发现:尽管使用了标准化方案,但始终观察到TOI在类器官间出现的变化;以及深度学习模型的预测性能随时间提高,表明携带预测信息的形态信号仅在某个时间点之后才可靠地可用。早期的可检测迹象可能提供预测线索,但不能保证TOI会出现。分化的随机性,以及关键线索不可靠的时空分布,可能最终阻止TOI的出现。此外,一些TOI或期望的表型可能没有任何已知的早期可检测标记。
机器学习方法的比较
为了解决类器官异质性的问题,研究建立了一种策略,通过预测特定单个类器官的结果来规避较大群体内的异质性挑战。为了实现这一点,选择图像作为基本的、非侵入性的数据源,允许在分析后研究相应的类器官。这与需要分解单个类器官的RNA测序等技术形成鲜明对比。研究建立了一个高时间分辨率的延时图像数据集,涵盖约1000个类器官超过72小时的过程,涵盖了RPE和晶状体的诱导和发育窗口。
为了预测特定类器官中的组织结果,选择了两种不同的方法:一方面是基于从分析流程获得的表格数据的“经典机器学习”(CML)方法,另一方面是直接使用分割图像的深度学习(DL)方法。当比较CML与DL的组织结果预测准确性时,DL在所有预测任务中 consistently 优于CML。值得注意的是,CML大多数时候并不比人类专家的预测明显更好,表明是组织识别而非预测。这表明,对于预测任务,图像中的相关结构信息无法被现有的生物图像分析参数有效捕获,也无法被人类专家通过模式识别识别。相比之下,延时图像中的预测信息可能如此复杂和非直观,只有基于分割图像的深度学习才能成功提取它。支持这一点的是,我们试图在早期时间点描绘DL分类的相关结构的努力充其量是具有挑战性的,因为我们无法在分类器认为相关的像素中识别出全面的类器官结构。这在其他上下文的相关性反向传播中先前已被观察到。因此,未来的工作应超越像素级显著性图,测试生成方法,并在可能的情况下,将内部网络特征与分子读数相关联,以更好地将预测与生物学联系起来。总而言之,能够在使用深度学习的情况下,在组织实际可见之前很久就可靠地预测单个类器官中RPE和晶状体的出现。
从组织结果预测推导决策时间窗口
通过利用深度学习预测类器官中组织结果远在其可见出现之前,可以推断类器官发育中组织结果已被确定的时间点,并识别那些将采用TOI的个体类器官。这种方法允许将潜在决定视野缩小到深度学习衍生的决定窗口——在给定类器官中朝向TOI的决定实际做出的特定时期。因此,减少TOI变异性的努力——例如修改细胞培养条件——应集中于这些类器官发育的关键时间框架。然而,尚不清楚深度学习能够准确预测TOI的最早时间点是否对应于实际的生物学决策时刻,或者是否反映了由于训练数据不足或不适当导致的模型技术限制。因此,类器官发育中先于这一点的时间段也应被视为决策发生的时间窗口。
使用这种方法论,能够显著缩小RO中RPE和晶状体的出现以及最终组织大小的决策时间窗口。有趣的是,对于两个TOI,这些决定在时间上很大程度上重合。
不受组织特异性异质性影响的分子分析
分析的一个潜在应用是类器官中组织出现的侵入性研究。考虑一项组织学或转录组学研究,比较将包含特定组织的类器官与不包含它的类器官。由于组织尚未出现,对于预期形成的组织,只能随机地对类器官进行分组。结合分析的侵入性,可能无法回顾性地识别哪些类器官会发育出TOI,因此基本上禁止了此类分析。与我们的发现一致,即使根据外部刺激按需诱导TOI来分配组别,也会产生可能高度不均匀的数据集,并带有强烈的组织结果混杂不确定性。因此,在模型已显示对TOI具有可信预测准确性的时间点应用我们的模型来预测类器官中的TOI,将显著提高相应组的同质性。
我们特意选择了一种实验设置,允许对模型跨实验的适用性做出假设。考虑到数据集中发现的巨大实验间异质性,我们预计这会外推到其他类器官系统,这一点尤其重要。观察到模型在独立实验中的性能存在很大变异性,这部分与用于训练的实验中所成像类器官(即验证集)观察到的准确性显著不同。尽管存在这种变异性,我们仍然相信我们的技术可以导致比随机分组分配高得多的类器官组纯度。重要的是,这种预测模型还可以实现动态干预。例如,对于预测不会形成RPE的类器官,可以在中途改变培养条件,以测试它们的发育轨迹是否可以被重定向。虽然这是推测性的,但这种可能性突出了预测建模如何将类器官研究从观察策略转向更具适应性和实验响应性的设计。
适用于其他模型系统和组织结果
我们坚信,这项概念验证研究将为跨其他模型系统、组织结果及更多方面的类似分析铺平道路。事实上,我们的研究表明,即使是抽象的形态聚类预测也是完全可行的。为了适用于其他场景,地面实况注释至关重要。尽管含有深色色素的RPE和相对较大的晶状体的注释可能看起来简单,但两位独立注释专家在定义地面实况时,在相当一部分类器官(RPE为3.9%,晶状体为2.9%)中存在分歧。这是潜在挑战的一个例子,可能最终需要事先进行大量工作以确保高度准确的地面实况注释。未来的研究可以通过使用CNN预标记高置信度案例,并将专家审查集中在不确定或罕见事件上,来减少手动工作量。地面实况可以从最终帧和预测可靠的小早期窗口定义,并进行程序化质量检查(模糊度/对比度)以排除质量差的帧。只需要第二位评审员处理标记的边缘情况。这种模型辅助的工作流程得到了我们单类器官设置和本文报告的定量特征集的支持。我们还注意到,在我们的实验设置中,每个孔培养一个类器官,这避免了对实例分割或跟踪的需求。这种设计选择简化了分析,但在其他类器官系统(如癌症类器官,每个孔通常有多个结构)中可能并不总是可行,并且需要额外的计算步骤。然而,我们的研究表明,即使类器官的发育需要延长时间,这种努力也是值得的。
我们确定了跨实验室的通用性作为一个潜在限制。尽管标准化,类器官表现出实验内和实验间的异质性,这是这些系统的典型特征。因此,在此训练的模型可能无法在外部数据集上达到相同的准确性,特别是在使用不同分化方案时。即便如此,该方法易于采用,并且使用少量本地图像对我们的模型进行微调应该能很好地适应它们。我们的概念验证使用了青鳉鱼(Oryzias latipes)衍生的类器官,它们可重复性好且发育快,但物种差异可能影响结果。该方法并不局限于青鳉鱼,如果带有注释的数据集可用,应可扩展到哺乳动物或人类iPSC/ESC类器官。需要在独立的类器官系统上进行验证以确认鲁棒性和更广泛的适用性。在未来的研究中,我们旨在通过使用来自其他实验室和物种(例如小鼠或人类类器官)的小图像集微调在我们数据上训练的模型,来测试跨系统迁移,以量化需要多少本地数据才能达到可靠的性能。
在这项工作中,我们总共使用了1000个类器官来实现报告的预测准确性。然而,我们怀疑大约500个类器官就足以可靠地重现我们的发现。因此,只要具有有限数据集的报告成功率,我们的方法很容易应用于任何选定的类器官模型系统。然而,尽管指出的单个类器官数量与深度学习中的传统数据集相比可能显得很少,但我们注意到,所需独特类器官的数量可能超出某些极端模型的可行性。除了我们当前的深度学习实现之外,我们策略的潜在增强可能包括结合表格和图像数据,创建更广泛的数据集。此外,延时明场数据集的一个有益扩展可能是为每个类器官额外获取落射荧光图像。除了转基因报告基因可能提供的额外信息外,类器官自发荧光及其时空分布可能解锁超出明场成像所获信息的图像信息。
总之,我们已经证明,视网膜类器官中的组织和形态轨迹可以在组织和最终类器官形态可见出现之前很久就被可靠地预测。我们通过将深度学习方法应用于延时明场图像数据集实现了这一点,从而即时提供预测结果。这种预测能力为理解类器官发育过程中决策的时间线提供了重要见解。我们的深度学习和数据管理框架可以为跨不同类型和物种的类器官设计类似的框架提供信息。这种方法不仅解锁了这些发育见解,而且关键地允许访问早期发育时间点以进行互补的深入分子分析,这些分析迄今为止一直受到与TOI相关的异质性的影响。