利用全层流式细胞术和分形分析技术，对空泡化细胞中同时出现的形态学表型及其表达严重程度进行特征分析

《Advanced Intelligent Systems》：Profiling Co-Occurrent Morphological Phenotypes and Their Degree of Expression Severity in Vacuolated Cells by Holo-Tomographic Flow Cytometry and Fractal Analysis

【字体：大中小】 时间：2026年05月02日 来源：Advanced Intelligent Systems 6.1

编辑推荐：

　　摘要细胞是复杂的系统，其特征是表型异质性很高。传统的单细胞分类方法通常将表达某种表型的细胞与健康对照组区分开来。然而，由于复杂的细胞内相互作用、机制和外部刺激，同一细胞内通常同时存在多种表型。在这里，我们使用无标记光学显微镜来研究空泡化细胞中形态表型的共存情况。细胞质中的空泡

　　摘要

细胞是复杂的系统，其特征是表型异质性很高。传统的单细胞分类方法通常将表达某种表型的细胞与健康对照组区分开来。然而，由于复杂的细胞内相互作用、机制和外部刺激，同一细胞内通常同时存在多种表型。在这里，我们使用无标记光学显微镜来研究空泡化细胞中形态表型的共存情况。细胞质中的空泡是几种病理状态（例如溶酶体贮积症、病毒感染、癌症）的重要标志。我们依靠全息层析流式细胞术（HTFC）来获取连续流动中空泡化细胞的3D折射率层析图。然后，我们提出了一种利用横截面和最小强度投影（MIP）图来降低层析图维度的策略。我们提取了一组基于形态学、折射率和分形的参数，证明可以捕捉到空泡模式的复杂异质性，并基于可解释的特征进行分类。为了训练人工智能，生物学领域的专家提供了不同形态表的注释，并根据层析观察结果对其表达严重程度进行了排名。因此，我们引入了一个形态测量表型分析流程，其中每个细胞都与一个七位数的分类代码相关联，该代码代表了它所表达的共存表型及其表达严重程度的组合。

1 引言

无论是从表面还是从细胞内部的角度来看，在同一细胞群体内或不同细胞群体之间，由于细胞的高度异质性，都可以观察到显著的变化[1]。这些特征的特定组合通常作为独特的指纹，使生物学家和病理学家能够分类细胞类型、确定其细胞周期阶段或识别异常状态[2]。荧光显微镜方法结合传统的机器学习或深度学习分析可以用来识别细胞或细胞系中的表型[3-7]。然而，这些基于标记的方法可能会侵入性改变被测试细胞的自然功能，从而影响要识别的表型，同时实验室协议和操作者的依赖性仍然存在[8]。通过利用样本内部的折射率（RI）变化作为内源性对比机制，透射显微镜配置下的数字全息术提供了无标记样本的2D形态和定量相位对比图（PCM）[9-11]。然而，一个完整的2D PCM无法完全映射细胞的3D形态、其细胞器及其形态表型的异质性。全息层析流式细胞术（HTFC）在细胞以受控方式在微流控通道中流动和旋转时，结合了同一细胞多个方向的 PCM，从而提供3D RI 层析图[12-16]。结合微流控技术和全息层析（HT）相比传统的静态方法具有三重优势[17-19]：（i）它在流式细胞术模式下具有高通量；（ii）可以悬浮自然生活的细胞，而不改变它们的形态，因此可以映射它们细胞器的3D位置；（iii）可以获得完整的旋转序列，从而由于没有严重的锥形缺失问题，可以实现准各向同性的分辨率。最近，HTFC已被证明可以提供更多信息通道的层析图，即对包括细胞核、细胞质空泡、溶酶体、脂滴、围空泡区和围核区在内的多个细胞亚区的无标记细胞内特异性[20-24]。这种3D分割基于对层析图体素的统计分析，仅从3D数据中就可以获得。准确识别细胞核区域非常重要，因为其大小和形状是重要的生物标志物（例如，异常的细胞核/细胞质生物体积比是癌细胞的标志[25]）。虽然正常细胞的细胞核大小保持在一定范围内，但细胞核大小和形状的改变与多种疾病有关。与癌症相关的细胞核形态变化可能会破坏正常的染色质定位、基因表达和DNA损伤途径，从而可能促进疾病进展。此外，核蛋白的突变也会导致其他疾病，包括肌肉萎缩症、早衰、层状蛋白病和额颞叶痴呆[26]。哺乳动物细胞中细胞质空泡的存在也特别值得关注，因为这些亚结构经常与病理状态相关[27]。许多疾病，如溶酶体贮积症（LSDs）[28]、癌症[29, 30]和病毒感染[31, 32]，都与它们的不规则积累有关。在治疗过程中，治疗药物可能在溶酶体中积累，导致溶酶体体积增大，从而形成细胞质空泡。这会损害溶酶体的功能并增加对治疗的抵抗力[33, 34]。因此，识别溶酶体和细胞质中的空泡表型在诊断上非常重要，这反过来突显了需要能够量化空泡化程度的细胞测量方法[35]。上述所有细胞表型都表现为形态学改变，并且可以在同一细胞群体中不同程度地表达，从而导致很大的异质性。最重要的是，它们可以在同一细胞内共存，每种表型都有一定的表达严重程度。因此，传统的“健康 vs. 病态”细胞分类不足以描述这种细胞内和细胞间的形态表型异质性。最近，全息成像和机器学习之间的协同作用为无标记诊断开辟了新的领域。例如，这种方法已被用于自动识别特定细胞类型（如红细胞[36]，以及在液体活检应用中检测罕见循环肿瘤细胞[37]）。此外，最近的进展表明，干涉测量系统通过利用运动敏感触发实现了罕见细胞事件的高通量分类[38]。在这项研究中，我们利用具有细胞核特异性的HTFC和机器学习来映射测试群体中每个单个细胞内共存的形态表型序列。在这个范围内，我们首先应用基于统计推断的计算分割（CSSI）算法[20-24]从3D RI 层析图中识别细胞核区域。然后，我们引入了一种降低层析图维度的方法，以便在不丢失有用信息的情况下有效处理3D数据。我们利用横截面和最小强度投影（MIP）图的组合来实现这一点。我们使用这些降维后的层析数据和上一步收集的细胞核信息来提取一组可解释的形态测量、基于RI的分形特征[39]。因此，我们使用它们来分类每个细胞内的形态表型及其表达严重程度。细胞中在不同水平上表达的形态特征的组合映射了该细胞所属的独特指纹、其状态、复杂的机制以及其整个表型。图1总结了所提出的分析流程。作为AI辅助HTFC能力的概念验证，我们研究了U937单核细胞中空泡化过程的形态测量特征。选择空泡化细胞进行这项分析主要是由于这一过程的重要性及其与广泛且严重的病理状态的关联，如上所述。此外，我们能够控制和引导单核细胞中的空泡化过程[40, 41]，以获得足够数量的具有不同严重程度的表型序列（PSs）示例，并获取参考的真实值。我们将细胞暴露于逐渐增加的vacuoline浓度下，这是一种诱导空泡形成的化合物。专家生物学家检查了完整的层析数据集。他们为每个细胞指出了主要表达的形态表型序列，并根据四个严重程度级别对它们进行了排名（即，Level = 0表示没有表型，Level = 3表示表型非常严重表达）。在所提出的分析中考虑的表型（在此称为A–G）包括：（A）改变的细胞核形态，（B）细胞质空泡的大小和数量评估，（C）细胞体积中空泡的不规则空间分布，（D）空泡面积与细胞体积的比率，（E）细胞质与细胞核的比率作为细胞核/细胞质平衡的衡量标准，（F）细胞大小，（G）细胞椭圆度/偏心度。关于所选表型的诊断相关性及其与功能障碍和病理条件的联系的更详细描述在支持信息中提供；此外，表1提供了这些生物表型的总结及其定义。当然，根据细胞所经历的治疗，其中一些表型可能不存在或未被识别。值得注意的是，这组形态表型是由于3D层析细胞表征和细胞核3D形状估计提供的组合信息内容而可观察到的。我们观察到vacuoline处理导致表型反应的异质性和不同程度的空泡化，很好地模拟了与空泡化相关病理情况下发生的变异性。我们使用这个广泛的数据集标记来训练和验证我们的分类模型。结果是一种形态测量表型分析，即每个通过HTFC系统的细胞都被映射为一个七位数代码，该代码由它表达的形态表型及其表达严重程度的组合组成。图1在图形查看器中打开PowerPoint

工作流程。当细胞通过微流控通道（MC）时，它们沿x轴自然旋转，这使用HTCF光学设置记录了多个角度视图（A）实验布置的示意图：BS，分束器；ND，中性密度滤光片；M，显微镜物镜；L，消色差双筒镜；G，衍射光栅；I，光圈光阑。（B）全息图序列被转换为PCM，然后处理以重建3D RI 层析图。（C）降维：从每个层析图中提取沿三个正交平面（xy, xz, yz）的横截面，以及最小强度投影（MIP）图。（D）分析：从降维辅助图中派生出形态参数、基于RI的测量值和分形描述符。得到的特征集允许分析每个单个细胞中共存的形态表型及其表达严重程度。这些表型的存在是细胞的独特指纹，在这里用七位数序列和每个细胞的蜘蛛图表示。表1。考虑的形态表型、它们的定义、生物学意义和关键识别特征。

2 方法论

2.1 HTFC概述

在我们的HTFC设置中（图1A），悬浮在连续流动中的细胞在离轴全息显微镜配置下通过MC，同时被相干激光束照射[12, 21]。在它们的传输过程中，细胞会旋转。这种旋转运动允许在多个观察角度获取数字全息图的序列，而不会改变设置中的照明方向（图1A中描绘的MC）。每个全息图编码了由细胞的RI分布产生的光学相位延迟。假设沿y轴的流动是稳定的，由注射泵确保，细胞围绕x轴旋转。一旦跟踪到目标细胞，就从连续帧中裁剪出一系列以细胞为中心的正方形子全息图。这些裁剪的全息图作为相位重建算法的输入[12]，该算法包括焦点距离估计（Tamura系数优化）、像差校正、噪声抑制和相位解包（图1B[12, 42, 43]）。输出是一系列与连续旋转角度相关联的PCM（相位调制图）。角度的分配从第一个PCM的任意0°参考点开始，并根据[40]中描述的估计算法进行，从而将每个相位图与特定的方向角度关联起来（见图1B）。通过结合这些PCM并使用估计的角度序列，诸如滤波反投影[14, 17, 44]之类的层析反演算法可以返回细胞RI（折射率）分布的体积图。图1B总结了从全息序列到细胞RI层析图的主要处理步骤。实验设置详细记录在支持信息中。此外，我们通过使用CSSI算法[20-24]为每个细胞的3D RI层析图添加了核特异性，从而丰富了这一3D信息内容。这种方法使我们能够从3D RI层析图中分离出核体体积。

2.2 样品制备

来自ATCC生物库（ATCC-CRL-1593.2）的U937细胞通常在37°C、5% CO2条件下，在添加了10%胎牛血清（FBS；Sigma–Aldrich）、100 U/ml青霉素/链霉素和2 mM L-谷氨酰胺（L-Gln；Sigma–Aldrich）的RPMI-1640培养基中培养。细胞从10 μM的储存浓度开始用Vacuolin-1（MedChemExpress）处理，该溶液溶解在DMSO中。处理后，细胞被稀释到10^5个细胞/毫升，并通过HTFC进行分析。我们通过传统的明场成像进行了初步测试，以验证Vacuolin-1化合物的液泡化能力（见支持信息中的“初步液泡化测试”部分，图S1）。

2.3 降维

为了有效地处理层析图的3D内容，我们提出使用从层析图中获得的一组2D辅助图来提取可用于形态表型分类的特征（见图1C）。原则上，任何层析图横截面都可以用来提取特征，只有考虑完整的3D堆栈才能获得全部信息内容。此外，值得指出的是，首先访问3D层析图对于所提出的分析至关重要，因为只有通过使用CSSI方法[19-23]，才能在没有标记的情况下从层析图中识别出核区和液泡区。然而，我们进行降维以提取特征，以简化分析流程，并提出一个能够随着细胞通量增加而良好扩展的稳健解决方案。降维有助于提取多尺度分形参数，这些参数非常能描述形态测量表型[36, 45-48]，但在应用于3D堆栈时需要较长的计算时间。特别是，我们使用了每个3D RI层析图的三个正交截面平面对应的RI切片，以及沿三个主轴计算的MIP图。然后从这组2D矩阵堆栈中提取特征。这种选择降低了过拟合的风险，并减少了上述下游任务的计算成本。例如，使用配备64 GB RAM和Intel-i9处理器的台式计算机计算3D空洞性大约需要11秒，而如果计算2D空洞性，则时间降至每个细胞0.04秒。考虑到使用矩阵堆栈，空洞性计算的计算时间为0.24秒，即仅占原来的2.18%，并且随着细胞数量的增加而更好地扩展。通过也将投影限制在三个正交平面上，我们在保持生物学意义的信息的同时提高了计算效率。

2.4 液泡和核的分割

在获得RI切片（图2A–C中报告了一个例子）以及沿三个主要平面的相应MIP图（见图1C）之后，如图2A1–C1所示，分别对每个细胞中的每个平面上的液泡进行了分割。分割是使用全局阈值方法自动完成的。具体来说，阈值被设置为所有分析细胞计算的RI值的第20百分位的中位数。然后将这个固定的阈值应用于所有的RI和MIP图，确保在不同成像模式和实验条件下检测过程的统一性。

2.4 液泡和核的分割

在获得RI切片（图2A–C中展示了一个例子）以及沿三个主要平面的相应MIP图（见图1C）之后，如图2A1–C1所示，分别对每个细胞中的每个平面上的液泡进行了分割。分割是通过使用全局阈值方法自动完成的。具体来说，阈值被设置为所有分析细胞的RI值的第20百分位的中位数。然后将该固定阈值应用于所有的RI和MIP图，以确保在不同成像模式和实验条件下的检测过程的一致性。

2.5 特征提取和分形分析

对于每个细胞，数据集是通过从以下部分提取特征构建的：(i) 属于RI层析图的三个正交切片；(ii) 属于相应液泡分割图的三个正交切片；(iii) 属于核体积的三个正交切片；(iv) 属于MIP图的三个正交切片；(v) 属于相应液泡分割图的三个正交切片，总共为细胞提供了15个辅助图像（特征提取步骤，见图1D）。尽管这三个正交切片属于同一个层析体积，但我们将它们视为独立的样本。这种方法是一种数据增强形式，为学习和提高模型泛化能力提供了不同的形态学视角。需要澄清的是，数据集的分割是在细胞级别进行的（强制进行细胞级别的分割）。具体来说，来自给定细胞的所有切片都被专门分配到训练集或测试集中。因此，所有被随机选为属于测试集的细胞的切片仅包含在测试集中，从未在训练和验证过程中使用。这一约束确保了用于评估的样本在统计上独立于用于模型训练的样本。对于每个正交平面，我们总共提取了37个特征，包括形态学特征、基于RI的特征和分形特征。我们探索了来自分形几何的特征，因为这组描述符能够很好地解释辅助图的内部复杂性。特别是，液泡分割图呈现出不规则的模式，可以解释为具有内部孔洞的细胞分割掩膜。对这个二值模式的分形分析可以捕捉到几何复杂性、空间不均匀性和多尺度上的结构碎片化[36, 45-48]。在考虑的分形特征中，我们包括了分形维数、空洞性和顶点密度[47]。在我们的发现中，这些描述符提供了关于轮廓复杂性、RI孔洞的统计分布和液泡模式结构不规则性的补充信息。每个特征的定义在支持信息的表S1中有所报告。特征提取之后，应用了一种监督特征选择策略来减少冗余并保留对分类任务最有信息量的特征（见表1的第三列）。具体来说，我们使用了最小冗余最大相关性（mRMR）算法[47]来根据特征与目标类别的相关性以及它们之间的冗余性对特征进行排序。保留了选择得分高于总分布第75百分位的特征。这种基于百分位的阈值确保了一个自动且适应性的选择过程，只保留了最显著且非冗余的描述符以供进一步分析。

2.6 分类方法

为了对每种表型的表达严重程度进行分类，我们设计了一个数据集和建模流程，用于解决两个不同的任务：二元分类和多类分类。对于每个任务，我们首先使用全部特征集进行分类；然后在特征选择后对特征子集进行分类。与传统方法不同，这里我们尝试分别对每个考虑的七种形态表型进行分类（表型表达严重程度分类，见图1D）。每种表型的表达严重程度被分为四个级别（即0、1、2、3），其中0级别表示该表型在单个细胞中不存在/未表达。关于训练集中共存形态表型的标记过程的详细信息在支持信息中提供。在二元分类任务中，严重程度级别被分为两个主要类别：[0, 1]作为类别0（弱表达或未表达），[2, 3]作为类别1（高表达严重程度）。在多类识别任务中，所有四个严重程度级别都被视为不同的类别，形成了一个四类问题。对于每个分类问题，都使用Matlab Classification Learner App [49, 50]训练和测试了单独的分类器。每个情况下表现最好的模型是基于最高的测试准确性。最后，为了在细胞级别改进预测，应用了多数投票（MV）策略[51]来处理属于同一细胞的三个切片。每个测试细胞的最终表型严重程度预测是根据其三个切片中最常预测的类别来分配的。例如，如果细胞‘number 345’在三个切片中有两个切片被分类为严重程度级别0，则‘cell 345’的轮廓代码通过在其形态序列中添加C0来构建。对于每个细胞，都按照上述方法对所有形态表型进行了分类，从而得到了完整的细胞形态谱。

3 实验结果

3.1 数据集描述

本研究共收集了618个细胞，包括野生型（WT）细胞和用0.1、1和5 μM浓度的Vacuoline处理的细胞，后者在处理后的1小时和2.5小时两个时间点进行了观察。对于每个细胞，考虑了三个主要的层析平面，并将得到的特征向量视为独立样本，从而得到了总共1854个样本的数据集（如支持信息中的表S1所列）。然后数据集被分为80%用于训练和20%用于测试。训练集包括了10折交叉验证。测试集包含372个样本，相当于124个细胞（每个细胞由三个主要正交切片的向量表示），允许在特征向量级别和通过MV在形态表型级别评估分类性能。选择后的数据集产生了1854个特征向量，每个向量用于二元和多类分类。每个形态表型和分类任务选择的特征在支持信息中报告（表S2和S3）。

3.2 分类结果

在进行两个分类任务之前，我们进行了主成分分析（PCA）[52]，以探索提取的特征是否能够在不借助机器学习的情况下自然地将样本根据它们的严重程度级别在3D投影中聚类。如图3所示，在二元分类情况下，某些表型在低严重程度组和高严重程度组之间显示出更清晰的分离，而对于其他表型，簇之间的重叠更多。相比之下，在多类设置中，严重程度接近的样本倾向于显著重叠，使得自然聚类更加具有挑战性。特别是在二元分类情况下（图3的顶部面板），样本倾向于聚类成两个主要组，属于类别0/1（红色）和2/3（蓝色）的个体。在表型B、D和F中，两个严重程度簇之间的重叠可以忽略不计。表型A和C显示出部分聚类，尽管在边界处有一些混合，而表型E和G的分离较弱。图3展示了三维主成分分析（3D PCA）图，显示了每种形态表型根据其表达严重程度的分布。顶部面板说明了二元分类任务（0/1 vs. 2/3），而底部面板显示了四个类别的识别任务（0, 1, 2, 3）。颜色表示图例中指定的严重程度类别。在四类识别任务中，特征聚类的程度较低，这符合预期。虽然最极端的组（0和3）显示出明显的分离，但中间类别（1和2）有大量的重叠，模糊了类别之间的边界。这些观察结果突显了该问题的内在难度，特别是在尝试区分相邻的严重程度级别时，这证明了使用机器学习方法有效解决分类任务的合理性。分类是使用Matlab Classification Learner应用程序对二元和多类情况进行的。特别是，实施了k折交叉验证程序（k=10）来评估验证性能。此外，还使用了一个由未见过的细胞组成的独立测试集来评估最终性能。鉴于我们数据集中的细胞数量相对有限，我们谨慎地避免了过度优化超参数，以避免由于过度调整而导致的过拟合（特别是考虑到高特征与样本的比例）。相反，我们依赖于默认或最小调整的超参数，以确保对所提出的特征集进行无偏评估。在这里，我们想强调手工制作的、可解释的特征集所起的重要作用，而不是所使用的具体机器学习模型。表2报告了使用全部37个特征的二元分类任务的结果，显示了每个表型的验证准确率、测试准确率和最大投票准确率。表3报告了通过特征选择（9个特征）获得的二元分类结果。最大投票仅在测试集上实施，通过结合同一细胞的三个正交切片的决策来进行。在每个细胞的三个切片上使用最大投票略微提高了分类性能。平均而言，测试准确率超过了80%，其中表型B的准确率达到了96%的峰值。事实上，正如我们从PCA图中预期的那样，表型B、D、F和G的准确率最高，而表型A、C和E的准确率最低。在二元设置中，表型A的准确率始终低于75%，而在使用选定的特征后，准确率提高到了75%。值得注意的是，表型A与核形态的改变有关。在支持信息的表S2中列出的自动选择特征主要与核形状和结构的描述符相关。这表明，定制的特征选择可能有助于部分补偿识别该表型表达严重程度的复杂性。表4展示了使用37个特征的多类识别任务结果，而表5展示了使用9个选定特征的结果。对于表型B、F和G，测试准确率达到了大约80%，考虑到任务的复杂性，这可以认为是一个重要的结果。相比之下，表型A、C、D和E的准确率低于70%，这与区分相邻严重程度级别的难度相符。使用全部特征获得了最佳结果，这强调了丰富多样的特征空间在处理细粒度严重程度分类中的重要性。

表2. 使用37个特征的二元任务的分类结果。报告了验证准确率、测试准确率和最大投票准确率。
LD：线性判别器；Bin-LR：二元逻辑回归；k-NB：核朴素贝叶斯；k-SVM：核支持向量机；MG-SVM：均值高斯支持向量机。

表3. 使用9个选定特征的二元任务的分类结果。报告了验证准确率、测试准确率和最大投票准确率。
Q-SVM：二次支持向量机；C-SVM：三次支持向量机；C-KNN：粗略k最近邻；LD：线性判别器；k-NB：核朴素贝叶斯；Cos-KNN：余弦k最近邻。

表4. 使用37个特征的多类识别任务结果。报告了验证准确率、测试准确率和最大投票准确率。
LD：线性判别器；EBootT：集成提升树；EBagT：集成装袋树；ESubDis：集成子空间判别器。

表5. 使用9个选定特征的多类任务结果。报告了验证准确率、测试准确率和最大投票准确率。
MG-SVM：均值高斯支持向量机；L-SVM：线性支持向量机；EBootT：集成提升树。

我们通过计算混淆矩阵、ROC曲线和相应的AUC值来补充性能分析（在适用的情况下），对于所有表型，无论是二元还是多类分类问题，都是使用全部特征集进行的。在多类任务中，对于测试集中至少有一个细胞代表相应类别的所有情况，都以一对多的方式进行ROC分析。在示例中，图4和图5分别显示了表型B的二元和多类任务的结果。

图4：二元分类，表型B。顶部：验证。底部：测试。左侧：混淆矩阵。右侧：ROC曲线和相应的AUC。
图5：多类分类，表型B。顶部：验证。底部：测试。左侧：混淆矩阵。右侧：ROC曲线和相应的AUC。表型[A, C–G]的所有结果的完整集合在支持信息中的图S6–S17中报告，提供了跨表型严重程度级别的分类器性能的详细概述。表6报告了使用全部37个特征与仅使用从三个正交平面的映射计算出的22个特征所获得的结果之间的比较，即没有考虑MIPs。显然，使用从MIP映射中提取的特征可以提高分类准确率，尽管切片信息和相应的MIP之间存在部分相关性。

表6：多类任务的分类结果。比较了使用全部37个特征和使用不考虑MIP映射的22个特征的结果。
A：65.1%；62.4%；70.1%
B：78.5%；74.2%；79.8%；75.0%
C：54.8%；51.9%；56.0%；55.7%
D：65.3%；62.9%；65.3%；66.9%
E：68.8%；66.4%；71.0%；64.5%
F：76.9%；76.6%；79.0%；79.0%
G：80.9%；82.3%；81.5%

最后，在支持信息中，我们报告了使用相同的手工特征集通过卷积神经网络模型得到的结果与此处报告的结果之间的比较（见表S4和S5）。结果表明，这里报告的分类性能的主要贡献不是机器学习模型本身，而是为这些分类任务选择的特征集。

3.3 表型和严重程度序列预测

如上所述，我们组的生物学家通过对完整的3D RI断层扫描图进行分析，并增加了核特异性，为每个细胞分配了一组形态学表型序列进行标注。例如，一个WT细胞可能被标记为以下序列：A1.B0.C0.D0.E2.F2.G1.，其中数字表示该特定细胞中每个表型的表达严重程度级别。我们的目标是预测每个细胞的整个表型-严重程度序列。因此，除了评估单个表型表达严重程度的分类性能外，确定正确预测了多少共存的形态学表型及其相关严重程度也是有趣的。因此，我们使用多类分类任务的结果，通过汇总各个表型分类器的输出，评估了多少测试细胞的完整序列被正确预测。在图6中，我们展示了用于预测细胞七位代码的分类管道的工作流程。特别是，我们报告了从同一细胞中提取特征的主要辅助地图的一个示例。这些特征分别由八个分类器（A–G）独立处理，每个分类器都被训练来为每个表型分配一个严重程度分数。

图6：表型序列预测的分类框架。对于每个细胞，用于特征提取的主要辅助图像是RI、MIP和核支持的三个正交平面（xy、xz、yz）。这些特征随后被输入到多类分类器（A–G）中。每个分类器输出一个从0到3的严重程度分数。三个平面的预测结果被结合起来，并应用最大投票策略得出每个分类器的最终结果（用红色表示）。然后，将分类器的结果集（A1、B3、C3、D2、E2、F2、G1）表示为一个七位代码，以便于将预测的表型序列（）与参考表型序列（PS）进行比较。对于每个分类器，通过MV组合三个正交平面的预测结果来确定最终分配的类别（图6中的粗体黑色字体）。例如，分类器B在三个正交平面上产生了输出（‘B2’、‘B3’、‘B3’），最终决定为‘B3’。对所有分类器独立应用了相同的程序，从而提高了最终的测试准确率，并得出了每个分类器的聚合结果。最终结果的集合（例如，A1、B3、C3、D2、E2、F2、G1）然后以七位代码的形式表示，以便于比较预测的表型序列（）和参考表型序列（PS）。图7A显示了属于测试数据集的细胞的完整表型序列预测的准确率分布。对于每个细胞，将预测的七位表型严重程度标签序列与真实标签进行比较，这里的准确率定义为在该序列中正确预测的表型比例。这个性能指标应该相对于机会水平预期来解释。由于每个表型可以有4个严重程度级别，随机预测将产生25%的预期每个表型的准确率。由于问题的组合性质，随机预测正确预测整个序列的概率极低。然而，对于相当数量的细胞，我们实现了超过70%的准确率（即至少五个表型中的七个被正确预测），有12个细胞在七位代码预测中达到了100%的准确率，意味着在这里考虑的完整形态学序列在10%的情况下被完美重建。大多数预测的准确率在60%–90%的范围内，而只有少数案例的准确率低于40%。图7B提供了补充评估，其中准确率是针对所有预测元素的总数计算的。样本的平均准确率（在这种情况下是整个序列）为71.8%（中位数71.4%），标准差为18.5%。这项分析表明，虽然完美重建整个表型序列可能具有挑战性，但模型仍然保持了坚实的表型严重程度预测能力。在支持信息的图S5中，我们展示了一个热图，显示了12个测试细胞的完整表型-严重程度序列被完美预测的情况，允许快速直观地了解这些细胞的表型组成。

图7A和图7B分别展示了二元分类和多类分类情况下的相同分析。确实，值得指出的是，例如将严重程度“3”与“2”混淆的错误，比将“3”与“0”混淆的错误要轻微。从这个意义上说，图7A和图7B中报告的准确性水平代表了一种非常“严格”的方法，在这种方法中，即使混淆的级别属于同一个二元类别，分类也被认为是错误的。因此，我们也对二元情况进行了这种性能评估。在每个表型层面，模型在所有表型上都实现了高准确性，平均准确率为85.9%，表明其对单个二元标签具有很强的预测能力。在细胞层面，模型平均正确预测了85.9%的细胞表型标签，中位数为85.7%，标准差为13.6%，反映了样本间相对稳定的性能。值得注意的是，在37.1%的测试细胞（124个中的46个）中，模型实现了完美的序列预测（所有七个表型都正确分类），展示了其捕捉单个细胞多表型特征的能力。在支持信息中，表S6和表S7总结了在不同严格性水平下的预测性能，包括每个表型的准确性、每个细胞的部分匹配准确性和每个细胞的完全匹配准确性（分别针对多类和二元情况）。最后，图8显示了从不同实验条件下获得的一些3D RI断层扫描图像的等值线可视化结果。对于每一个图像，我们突出了细胞核和液泡区室。我们从图7的测试集分布中选择了示例，展示了序列完全正确预测的情况以及序列大部分被错误分类的情况（例如，准确率为40%）。对于每个细胞，上面的序列是真实标签，下面的序列是预测结果。对于每个表型，红色和绿色分别标记错误的或正确的预测。在图8中，我们还使用蜘蛛图报告了相应的形态学特征，并用颜色编码了严重程度（也参见图1D中的示例）。该图清晰地展示了不同形态学特征在每个细胞中的共存方式以及它们的表达程度。

图7：表型序列的预测准确性。(A) 4类任务。直方图显示了整个表型序列正确预测的准确性分布与测试细胞数量的关系。大多数细胞的准确率在60%到90%之间，其中12个细胞实现了100%的全序列预测。(B) 4类任务。箱形图总结了整体序列预测性能。(C) 二元任务。直方图显示了整个表型序列正确预测的准确性分布与测试细胞数量的关系。大多数细胞的准确率在70%到90%之间，其中46个细胞实现了100%的全序列预测。(D) 二元任务。箱形图总结了整体序列预测性能。

图8：液泡细胞的3D RI断层扫描图像示例及其相应的共存形态学特征估计模式。vac：液泡蛋白。Acc：整体序列预测的准确性。上面的序列是真实标签，下面的彩色序列是估计的表型。序列中的红色/绿色分别标记错误的/正确的预测。蜘蛛图总结了每个细胞的形态学特征及其表达严重程度。

4. 讨论与结论
我们的研究结果强调了使用无标签的、基于3D RI的成像和机器学习（ML）对共存形态学特征及其表达严重程度进行分类的潜力和挑战。在二元和多类分类任务中取得的性能突显了从体积数据的三个正交平面提取的基于形态测量的RI特征和分形特征的区分能力。表型与严重程度之间的差异反映了这一问题的生物学和分析复杂性。细胞是一个复杂的系统，多种表型共存并相互影响其形态测量。这项工作是针对液泡化哺乳动物细胞的情况，首次证明了HTFC（High-Throughput Cell Imaging）描述这种共存现象的能力。在大多数情况下，细胞中是否存在某种形态学特征能够被正确评估（二元分类）。值得注意的是，对B、F和G等表型的分类准确性表明，某些液泡形态更加明显、结构化或能够被定义的特征向量更好地捕捉到。相反，A、C和E等表型在表达严重程度方面更难以分类。这些差异突显了针对每个类别的形态学特性定制的表型特定描述符的重要性。在多类分类中，特别是在区分接近的严重程度级别时，挑战在于细胞变化是连续的，并不总是适合固定严重的等级。这一限制强调了开发能够更好地捕捉分级转变的分类模型的潜力。尽管如此，即使在大多数表型中特征子集减少的情况下，仍能支持稳健的分类，这一点在计算效率和模型可解释性至关重要的实际应用中尤其令人鼓舞。这项工作的一个重要成果是能够对单个细胞的表型-严重程度序列进行多标签预测。这项任务反映了更现实的生物学情景，即细胞通常表现出混合或重叠的特征，而不仅仅是单一表型。从成像数据中正确重建复杂的表型组合是朝着更全面的单细胞表征迈出的重要一步。我们的发现支持使用分形描述符作为量化这种形态学复杂性的有价值工具，并在未来用于区分不同的疾病状态。对于液泡化细胞的基准案例，这项研究可以为未来的研究提供基础，以了解液泡化如何在细胞内部分布，或者与其他病理标志物相关联，并有助于未来诊断与液泡功能障碍相关的疾病，如LSD家族疾病。在这项工作中提出了一种通过使用断层扫描切片和MIP图进行数据降维的方法。这对于计算多尺度分形特征尤为重要（使用2D图而不是完整的3D断层扫描可以大大降低计算负担），并且在未来将有助于提高HTFC系统的分析吞吐量，同时不损失表型特征分析的性能。使用三个正交切片和三个MIP并不能完全反映细胞内部结构的3D空间组织，但它们的组合提供了从多个视角近似3D细胞组织的方法，从中可以推断出关键的空间信息。降维背后的一个重要原因是在每个细胞中使用多个切片作为数据增强的一种形式。与使用镜像或旋转（基本上携带相同的信息内容）相比，这里我们通过添加来自正交平面的数据来增加训练集的大小并提高模型的统计稳定性。我们还验证了引入额外平面以提取辅助图并不会显著提升分类性能，因为高度相关的信息并不会提高泛化能力。从这个意义上说，三平面多视图配置在所提出的框架中代表了信息内容、模型鲁棒性和计算效率之间的有效权衡。这项分析在支持信息中有详细报告。总体而言，我们还发现测试细胞中识别的形态学特征与其所属的亚群（即每个细胞所经历的不同处理）之间有很好的一致性。例如，用最高浓度液泡蛋白处理的细胞表现出与细胞质液泡形成相关的共存表型的高严重程度。相比之下，野生型细胞组中这些特征要么缺失，要么表达较弱。尽管有这些令人鼓舞的结果，但仍需指出一些局限性。例如，数据集是基于U937单核细胞工程诱导液泡化的。将其应用于诊断将需要一致数量的患者来源样本来验证其泛化能力。总之，使用正交切片、整合分形特征和ML方法来量化液泡化并分类单个细胞内的形态学特征及其表达严重程度，为QPI（Quantitative Phase Imaging）单细胞分析带来了新的深度，其中分类的是共存的形态学特征而不是单个细胞，因此每个细胞都返回了其独特的七位数特征序列。

附加支持信息可以在支持信息部分在线找到。

作者贡献
Marika Valentino：方法论（负责人），软件（平等贡献），写作 - 原始草稿（负责人）。
Giusy Giugliano：研究（负责人），数据管理（平等贡献）。
Daniele Pirone：软件（平等贡献），可视化（负责人）。
Fabrizio Licitra：资源支持（辅助）。
Fulvia Vitale：资源支持（辅助）。
Pasquale Memmolo：形式分析（辅助），数据管理（平等贡献），软件（辅助）。
Lisa Miccio：方法论（辅助），研究（辅助），验证（负责人），写作 - 审稿与编辑（平等贡献）。
Massimo D’Agostino：概念化（平等贡献），资源（负责人），验证（辅助），资金获取（平等贡献）。
Pietro Ferraro：概念化（平等贡献），形式分析（负责人），写作 - 审稿与编辑（平等贡献）。
Vittorio Bianco：概念化（平等贡献），监督（负责人），资金获取（平等贡献），项目管理（负责人）。

致谢
这项工作得到了Prin 2022 PNRR—“无标签细胞质液泡表型分析工具包”（LUNA）项目（协议号960）的支持，该项目于2023年6月30日获得意大利大学与研究部的资助，属于欧盟下一代计划（项目CUP：B53D23002490006）的框架。开放获取出版由Consiglio Nazionale delle Ricerche提供支持，作为Wiley - CRUI-CARE协议的一部分。

本研究得到了Ministero dell'Università e della Ricerca（B53D23002490006）的资助。

利益冲突
作者声明没有利益冲突。

数据可用性声明
数据将在合理请求的情况下提供给作者。与本手稿相关的断层扫描视频序列可在Figshare上找到，链接如下：https://doi.org/10.6084/m9.figshare.31298062; https://doi.org/10.6084/m9.figshare.31298017; https://doi.org/10.6084/m9.figshare.31297939; https://doi.org/10.6084/m9.figshare.31297261; https://doi.org/10.6084/m9.figshare.31297858。

热点排行