通过核磁共振光谱和机器学习方法对完整细胞进行表型分类

《Journal of the American Chemical Society》：Phenotype Classification of Intact Cells by NMR Spectroscopy through Machine Learning Approaches

【字体：大中小】 时间：2026年05月10日 来源：Journal of the American Chemical Society 15.6

编辑推荐：

　　高分辨率图像下载MS PowerPoint幻灯片核磁共振（NMR）光谱是一种强大的、无创的工具，用于分析复杂的生物样本。在体外，生物液体和细胞提取物的高分辨率一维（1D）NMR光谱可以根据其代谢特征对生物样本进行分类。然而，由于这些样本本身的不均匀性导致线宽增加，目前还无法对活

　　高分辨率图像下载MS PowerPoint幻灯片
核磁共振（NMR）光谱是一种强大的、无创的工具，用于分析复杂的生物样本。在体外，生物液体和细胞提取物的高分辨率一维（1D）NMR光谱可以根据其代谢特征对生物样本进行分类。然而，由于这些样本本身的不均匀性导致线宽增加，目前还无法对活细胞或组织进行此类分析，也无法通过体内光谱成像进行分析，因为这会导致严重的信号重叠。在这里，我们展示了将机器学习方法应用于在强磁场下记录的活细胞低分辨率NMR光谱，可以实现对体外培养的不同病理相关细胞类型的分类。我们成功地对神经前体细胞、神经元和星形胶质细胞进行了分类，以及对混合细胞类型的分类，并表明在强磁场下训练的分类器可以区分在较低磁场下分析的细胞，其效果接近当前的MRI仪器。未来，这种方法可以进一步开发用于MRSI数据分析应用，可能为中枢神经系统的病变提供无创诊断工具，并减少对活检的需求。

引言
在强磁场（11.7-28.3 T）下进行核磁共振（NMR）光谱是一种用于高分辨率分析复杂生物液体和微环境混合物的强大工具。实际上，基于NMR的代谢组学是一种可靠的方法，可以获取数十种代谢物的定量信息（代谢谱型分析）并根据光谱特征（代谢特征）区分相关样本群体。（1,2）此外，由于其无创和非破坏性的特点，NMR是研究活细胞的合适方法。实际上，可以利用NMR来研究微生物和真核细胞，以了解它们的结构成分和化学组成。（3）在过去的二十年里，NMR也被用于研究完整细胞中的大分子。这种“细胞内NMR”方法提供了关于生物分子在其生理环境中的结构、功能和相互作用的独特信息。（4,5）虽然在体外分析的生物液体可以获得高分辨率且信息丰富的光谱，但由于样本的不均匀性，原位（即，在完整细胞或组织中）分析的代谢物的光谱特征会变宽，即使在强磁场下也会导致信号重叠。因此，原位NMR代谢组学分析要么在稀释的细胞悬浮液上进行，要么在高分辨率魔角旋转（HR-MAS）条件下进行，以恢复光谱分辨率。（7）在完整细胞的静态样本上记录的高场NMR光谱中的宽光谱特征与通过磁共振光谱成像（MRSI）在体内观察到的特征有惊人的相似性。（8,9）MRSI或化学位移成像（CSI）使用磁共振成像（MRI）仪器测量NMR光谱作为空间坐标的函数，提供了生物液体、细胞系、活组织或组织匀浆中主要可溶性化学成分和代谢物的3D图谱。由于其无创性质，MRSI是临床研究（例如中枢神经系统（CNS）病变诊断）的一个非常有前途的工具。（10）然而，在临床实践中，由于MRI的磁场强度低于NMR光谱仪，MRSI对CNS的解剖和病理特征表征的贡献在灵敏度方面受到限制；同时，由于样本的磁场不均匀性，分辨率也受到限制，导致光谱特征严重重叠。（11-13）这些缺点目前限制了MRSI在临床实践中的应用，这种分析通常仅限于少数几种丰富的脑代谢物——即使在7 T的磁场强度下也是如此——因此仍然主要局限于研究环境。（14,15）
已经报道了几种NMR实验，可以克服磁场不均匀性问题，并在组织或活生物等不均匀样本上提供高分辨率的“溶液样”NMR光谱。（16,17）然而，所有这些方法都是以牺牲灵敏度为代价来提高分辨率的，因此不适用于上述情况。另一方面，多变量分析方法能够仅通过利用信号强度的变化来识别大量光谱集合中的差异，而不受NMR实验类型的影响，并且重要的是，不考虑信号的形状。虽然这些方法通常用于分析生物液体的高分辨率NMR光谱，（18-21）原则上，它们也应该能够提取不同类型细胞的低分辨率NMR光谱之间的相关差异，这些差异来源于特定的脂质组学、蛋白质组学和代谢组学特征。

在这项工作中，我们展示了如何利用完整细胞低分辨率的NMR光谱特征，通过多变量分析来分类体外培养的不同细胞类型。我们应用了机器学习技术进行光谱的降维和分类，目的是检测每种细胞类型特有的光谱特征的变化以及神经干细胞分化过程中发生的与时间相关的变化。该方法在来自培养的HeLa细胞、HEK293T细胞、Jurkat T淋巴细胞和神经前体细胞（NPCs）的大量活细胞样本上进行了演示。NPCs是多能前体细胞，被认为是发育中的人类中枢神经系统的起始群体，（22-24）来源于人类诱导多能干细胞（iPSCs）。我们还包括了从iPS-NPCs衍生的神经元（以下简称神经元）和iPS-NPCs衍生的星形胶质细胞（以下简称星形胶质细胞）。（22）我们展示了通过偏最小二乘判别分析（PLSDA）（25）和支持向量机（SVM）（26）进行的纯细胞类型分类的优秀效果，而通过Boruta（27）特征提取后再进行随机森林分类器（RFC）（28）也可以正确识别混合两种细胞类型的样本。此外，我们还证明了在强磁场下训练的分类器可以相对高精度地分类在较低磁场下分析的样本，突显了该方法的稳健性。最后，我们展示了多变量分析对NPCs向神经元和星形胶质细胞分化过程中诱导的表型变化的敏感性。（29,30）成功地分类了NPCs、神经元、胶质细胞和免疫细胞，这些细胞代表了中枢神经系统的关键组成部分，表明这种方法可以进一步开发以便临床应用，最终可能实现通过MRSI进行“虚拟活检”。

结果与讨论
创建了完整细胞NMR光谱数据库
为了证明对完整细胞上记录的NMR光谱进行多变量分析可以用于分类不同的表型，我们生产并分析了大量不同类型的人类细胞（HEK293T、HeLa、Jurkat T淋巴细胞、NPCs、神经元和星形胶质细胞）样本，使用950 MHz（22.3 T）的细胞内1H NMR进行了分析。这产生了一个细胞光谱数据库，可以作为评估不同多变量分析方法性能的测试平台（图1）。

图1
图1. 本工作中开发的样本准备、NMR数据收集和多变量分析的工作流程概览。
商业上可获得的细胞系用于HEK293T、HeLa和Jurkat T样本，而NPCs、神经元和星形胶质细胞样本则是使用iPSCs通过特定的分化协议获得的。特别是，本研究中使用的NPCs是通过优化的双SMAD抑制协议从iPSCs衍生的。（31,32）NPCs被包括在神经前体细胞、成熟神经元和胶质细胞的光谱数据集中，强调了该方法的转化潜力。此外，通过撤回生长因子和施用脑源性神经营养因子（BDNF）（29）（图S1），NPCs被分化为神经元命运，并在从D30（第30天）到D90的多个时间点进行了分析。我们还从iPSCs生成了星形胶质细胞（33）（图S2），这些细胞被引导向神经元命运分化，然后分化为星形胶质细胞前体细胞（APCs），随后进一步分化为成熟的星形胶质细胞。

为了最大化数据库中细胞内部类型的 Spectral 变异性，从而提高任何后续分析的稳健性，我们在不同的传代次数或分化阶段以及不同的细胞密度/融合度下收集了每种细胞类型的样本。每个细胞样本记录了两次1H NMR实验：一种激发塑造序列，包括所有移动组分的共振，并且记录时有意使用较短的重复时间以最大化单位时间的灵敏度；另一种Carr–Purcell–Meiboom–Gill（CPMG）序列，该序列过滤掉缓慢翻滚的分子，仅包含小代谢物的信号。（34,35）所得到的数据库包含了在总共174个不同类型细胞样本上记录的CPMG和激发塑造光谱（图S3-S8）。图S9和S10显示了CPMG光谱中最显著光谱特征的初步分配。

从NMR光谱中分类四种不同类型的细胞
一个监督性的PLSDA模型被训练用于细胞系分类，基于1H CPMG NMR光谱（图S3和S4）。与使用数据协方差矩阵来识别最大化数据集中方差的分量的无监督方法（如主成分分析（PCA）不同，PLSDA将光谱投影到潜在变量上，这些潜在变量根据预定义的标签（这里是不同的细胞类型）最大化数据组（类别）之间的分离。然后在潜在空间中评估类的分离，使用SVM找到最佳边界来分离每个类别，从而定义可以分配新投影样本的区域。对于4类问题（HeLa、HEK、Jurkat、NPCs），使用F1分数（即精确度和召回率的调和平均值）（36）评估了分类性能，结果表明平均F1分数为0.96（图2）。使用相同的模型对1H激发塑造NMR光谱进行训练时，分类性能较低，这表明后者类型光谱中存在的缓慢翻滚的光谱组分损害了PLSDA的分类，尤其是在HEK293T和HeLa细胞类别之间（F1分数为0.68，图S11）。

图2
图2. 偏最小二乘判别分析（PLSDA）的前两个分量的投影，即那些最大化4类模型（在1H CPMG NMR光谱上训练的，见图S3和S4）中不同细胞类型分离的分量，以及由支持向量机（SVM）估计的分类边界。训练（圆圈）和验证（三角形）样本以及SVM边界根据类别着色：HEK（蓝色）、HeLa（黄色）、Jurkat（绿色）和NPCs（红色）。

分离中枢神经系统（CNS）细胞类型
HeLa细胞观察到的高类别内变异性促使我们测试多变量分析随时间变化分辨细胞表型的能力。这种能力在应用机器学习方法区分健康CNS成分和恶性肿瘤方面确实非常重要。实际上，癌细胞经常表现出类似NPC的代谢特性。（37,38）因此，我们试图确定是否可以区分NPCs和分化的神经元及胶质细胞。为此，我们通过PLSDA和PCA分析了未分化的NPCs以及正在分化为早期和晚期神经元的NPCs样本，以及从iPSCs衍生的APCs和成熟星形胶质细胞（图S7）。从1H CPMG NMR光谱获得的PLS图显示，NPCs以及早期和晚期神经元、APCs和星形胶质细胞聚集在不同的区域（图3A）。有趣的是，PCA无法分离所有细胞类型，但仍能将NPCs/神经元与星形胶质细胞分开，表明这些细胞类型之间的光谱差异足以使无监督分析也能将它们隔离在不同的簇中（图3B）。从1H激发塑造NMR光谱中也获得了类似的结果（图S8和S12），尽管早期和晚期神经元之间的分离效果较差。值得注意的是，在两种PLS分析中，分化为神经元的NPCs似乎沿着PLS平面遵循一个轨迹，早期神经元聚类在NPCs和晚期神经元之间。此外，APCs向星形胶质细胞的轨迹与NPCs向神经元的轨迹明显分离。总体而言，这一结果突显了多变量分析跟踪完整细胞表型变化的潜力，以及高场NMR在分析小规模细胞样本（1-2百万个细胞集中在0.44毫米毛细管中）时的灵敏度优势。从临床角度来看，区分未分化细胞和分化神经元及星形胶质细胞的能力确实很有前景，表明多变量分析可能允许通过MRSI进行中枢神经系统的虚拟活检。

图3PLSDA（A）和PCA（B）对一组中枢神经系统（CNS）细胞类型的1H CPMG NMR光谱进行了分析。样品根据分化阶段进行了颜色编码：神经前体细胞（NPCs，浅蓝色）、早期神经元（粉色）、晚期神经元（紫色）、星形胶质细胞前体细胞（APCs，浅绿色）和成熟星形胶质细胞（深绿色）。从协方差矩阵计算出的95%置信椭圆也显示出来。在B部分，还展示了每个PCA组分的解释方差比（EVR）。高分辨率图片下载MS PowerPoint幻灯片

通过特征选择对细胞混合物进行分类
我们随后测试了在纯细胞系上训练的分类模型是否能够确定包含两种细胞类型的混合样品的组成。为此分析，我们在3种纯细胞类型（HEK293T、HeLa和Jurkat；图4A）上训练了PLSDA + SVM模型。该模型用于将每个混合样品（图S13和S14）分配到以下类别：HeLa + Jurkat、HEK + Jurkat和HeLa + HEK（图4B）。预测方法是取纯细胞类型类别的两个最高概率分数。PLSDA模型中HeLa样品的高类内变异性对分类性能产生了负面影响：许多混合样品落在HeLa类别的概率区域内，导致分类性能较差，这表明PLSDA + SVM不适合用于确定混合样品的组成（图4C）。

图4
(A) 在基于1H CPMG NMR光谱训练的3类模型的前两个PLSDA组分上的投影（见图S3和S4）以及由SVM估计的分类边界。训练（圆圈）和验证（三角形）样本以及SVM边界根据类别着色：HEK（蓝色）、HeLa（黄色）和Jurkat（绿色）。
(B) 将混合样品（三角形，见图S13中的1H CPMG NMR光谱）映射到3类PLSDA分类器上。样品按以下方式颜色编码：HeLa + Jurkat（青色）、HEK + Jurkat（紫色）和HeLa + HEK（红色）。
(C) 在纯细胞系上训练的PLSDA + SVM模型的混淆矩阵，用于预测混合样品。该模型未能完成分类任务，F1得分为0.05。
(D) Boruta特征提取后 followed by 随机森林分类（RFC）的示意图流程。
(E) Boruta + RFC模型的混淆矩阵。在29个样本中，只有6个被错误分类，F1得分为0.78。
高分辨率图片下载MS PowerPoint幻灯片

虽然多变量方法如PCA和PLSDA在代谢组学中广泛用于解析1H NMR光谱的复杂性，但另一种方法是基于原始特征的选择来减少数据的复杂性。特征选择的一个优点是可以直接识别区分样品的光谱特征，而不需要通过多变量方法所需的逆变换来重建这些特征。因此，我们测试了Boruta特征选择算法，随后使用RFC选择表现最佳的特征（图4D）。对于4类问题，特征选择结果是选择了119个光谱特征用于训练RFC。然后在验证集上测试了最佳模型，得到的F1得分为1.00（CPMG）和0.96（激发塑形）（图S15）。对于混合样品的预测，Boruta特征选择和RFC针对3类问题进行了优化，最终选择了68个光谱特征用于分类。同样，在这种情况下，也是通过取纯细胞类型类别的两个最高预测概率分数来分配混合类别的。值得注意的是，Boruta + RFC方法的分类性能明显优于PLSDA + SVM（F1得分为0.78，图4E相比PLSDA + SVM的0.05，图4C）。使用1H激发塑形NMR光谱（图S14）进行了相同的比较分析，结果发现Boruta + RFC方法的性能更高（86%对比PLSDA + SVM的3%，图S16）。总体而言，尽管HeLa样品的高类内变异性也影响了Boruta + RFC方法（大多数被错误分类的样品包含HeLa细胞），但后者在使用CPMG和激发塑形1H NMR光谱对混合样品进行分类时比PLSDA + SVM更为稳健。

在较低磁场下的细胞类型分类
为了测试上述方法是否可以应用于目前MRI仪器能够达到的较低磁场，我们使用在950 MHz（22.3 T）下获取的数据训练的三类PLSDA + SVM模型，对在400 MHz（9.4 T）和700 MHz（16.4 T）下获取的纯细胞系样品进行了分类。为此，依次在400 MHz、700 MHz和950 MHz下分析了21个HEK293T、HeLa和Jurkat样品（图S17和S18）。使用在这三个磁场下记录的1H CPMG NMR光谱对这些样品进行分类，得到的F1得分为950 MHz时0.96、700 MHz时0.68、400 MHz时0.96（图5）。使用1H激发塑形NMR光谱也观察到了相似的性能，F1得分分别为950 MHz时0.96、700 MHz时0.86、400 MHz时0.91（图S19）。在这种情况下，Boruta + RFC也优于PLSDA + SVM，CPMG和激发塑形1H NMR光谱的F1得分分别为1.00/0.96（950 MHz）、0.95/0.95（700 MHz）和0.96/0.87（400 MHz）（图S20）。这些结果表明，在高磁场下训练的模型也能够对在低磁场下收集的数据进行分类，并且性能下降幅度很小。视觉检查显示，在高磁场下收集的1H光谱与在低磁场下收集的光谱没有显著差异（图S17和S18），这与完整细胞的光谱共振宽化主要由样品不均匀性主导的观点一致，而样品不均匀性与磁场呈线性关系，因此在ppm尺度上绘制时不同磁场下的光谱显示出相似的宽化。因此，我们预计使用在高磁场下训练的模型对在低磁场下收集的数据进行分类的主要挑战将来自低场仪器提供的较低的信噪比（尤其是对于空间分辨的光谱数据）以及不随磁场变化的现象，这些现象可能会改变光谱特征的形状（例如标量耦合、自旋松弛和化学交换）。

图5
图5. 使用基于在950 MHz下获取的数据训练的3类PLSDA + SVM模型，对在（A）950 MHz（22.3 T）、（B）700 MHz（16.4 T）和（C）400 MHz（9.4 T）下用1H CPMG NMR分析的细胞样品进行分类。训练（圆圈）和验证（三角形）样本以及SVM边界根据类别着色：HEK（蓝色）、HeLa（黄色）和Jurkat（绿色）。
高分辨率图片下载MS PowerPoint幻灯片

分类模型的性能分析和解释
与机器学习方法通常的情况一样，性能的提高往往伴随着方法稳健性的降低和/或分类规则难以解释的风险。因此，我们尝试评估4类和3类PLSDA + SVM以及Boruta + RFC分类模型的性能稳定性，同时提供关于光谱特征相关性的解释。对于PLSDA，系数编码的加载图提供了哪些光谱特征有助于沿得分图的每个轴分离细胞类型的概览（图S21和S22）。投影中的变量重要性（VIP）分数对每个特征对分类器预测能力的贡献进行了排名（表S1和S2），而Jackknife分析评估了在移除部分样本子集后最高排名特征的稳定性（表S3和S4）。对于Boruta + RFC模型，SHapley Additive exPlanations（SHAP）分析根据这些特征对模型输出的总体影响对其进行排名和聚类。这些结果表明，分类性能并不受少数几个光谱特征的影响，这与生物流体的高分辨率代谢组学光谱的数据结构不同。对于PLSDA，许多VIP值接近1的桶表明，在分析完整细胞时共线性和冗余性起着重要作用。尽管PLSDA旨在处理共线性，但在这种情况下，大部分驱动分类的信息来自分布在许多相关桶中的小贡献，其中一些可能来自相同的光谱包络。一致地，PLSDA性能对移除最高VIP排名桶的敏感性分析（图S23和S24）显示，只有在移除了大约23%的总光谱特征后，分类性能才会显著下降。因此，PLSDA在保留光谱包络的一些冗余性的情况下能够在纯细胞系上取得良好的性能。然而，在复杂样品中它无法区分信息（图4B），因为它最终是通过线性系数进行表示的。

通过对Boruta + RFC模型的SHAP分析，这一事实变得更加清晰。首先，Boruta特征选择确保RFC仅使用在随机排列下严格稳定的光谱特征进行训练。SHAP结果（图S25–S33）显示，模型的强大之处在于许多树通过涉及不同冗余特征集的路径达到相同的决策。SHAP摘要，无论是全局的（图S25和S30）还是每个类别的（图S26–S29和S31–S33，左侧面板），都包含了许多在PLSDA模型中表现出高VIP分数、选择性比和良好稳定性的特征。然而，计算特征集之间的交互作用（图S26–S30和S31–S33，右侧面板）揭示了一个更准确反映光谱包络真实性质的决策过程。实际上，RFC中的大部分决策是由随机森林的不同树通过交互/冗余特征集的路径共同决定的，而不是由一组有限的独立特征贡献的。因此，像RFC这样的更通用的分类器，不受系数估计的线性假设限制，能够处理来自复杂样品中的广泛重叠信号的光谱信息，即使是在分类细胞混合物或在不同磁场下记录的数据时也是如此。

PLSDA和RFC识别出的最具显著性的光谱特征中，有些可以暂时归因于已知的细胞代谢标志物（图S9和S10）。这些包括脂肪酸、乳酸和胆碱（加载图中的最高特征，图S21和S22）、谷胱甘肽（8.3 ppm）、肌酸（3.1 ppm）和乙酸（1.95 ppm）。然而，大多数显著特征来自无法归类的次要峰和重叠区域。这强调了PLSDA和RFC不仅能够从少数丰富的代谢物中，还能从复杂表型模式中出现的光谱特征中选择高度区分性的特征的能力。

结论
在这项工作中，我们使用超高场1H NMR光谱分析了活的神经细胞类型，包括NPCs、神经元、星形胶质细胞前体和成熟星形胶质细胞，以及Jurkat淋巴细胞（即参与大多数脑部感染和自身免疫炎症病变或脑淋巴瘤的细胞类型），以及永生化细胞系（如HEK）和癌性HeLa细胞，这些细胞类似于可以在原发性非CNS肿瘤中找到并作为转移性病变侵入CNS的细胞。这些细胞类型为通过MRSI评估CNS病变提供了相关的表型。即使在这些磁场强度下，完整细胞的1H NMR光谱也显示出广泛的信号重叠，因此分辨率较低。尽管如此，我们仍然展示了这些细胞样本的多样性足以区分它们的光谱特征，并使用类似于高分辨率NMR在代谢组学中使用的方法进行正确的细胞类型分类。实际上，我们展示了可以通过多变量分析（通过训练监督分类模型（SVM、随机森林集合）并采用不同的数据降维方法（PLSDA、Boruta特征选择）来提取活细胞低分辨率1H光谱数据中的变异来源。这种方法能够高精度地分离每种不同细胞类型特有的光谱特征。我们随后证明了这种方法可以分离神经前体细胞（NPCs、APCs）与分化的神经元和星形胶质细胞，从而也展示了追踪每种细胞类型内发育轨迹变化的显著能力。此外，我们还表明，用单一细胞类型的样本训练得到的模型可以提供一个预测性的光谱标记，该标记能够可靠地识别通过混合两种不同细胞类型获得的未知样本中的正确表型。更重要的是，我们发现高场强（22.3 T）下识别的光谱模式在低场强（16.4 T甚至9.4 T）下也能保持不变，并且基于高场NMR光谱构建的预测标记能够以合理的准确度应用于在低磁场下记录的数据集。这一发现表明，类似的结果可以应用于目前人类MRSI所使用的磁场强度（7 T、11 T）。值得注意的是，我们发现Boruta特征选择结合随机森林分类在混合样本的分类中系统性地优于PLSDA + SVM，这表明前者算法也可能在利用高分辨率NMR进行代谢指纹分析时获得更广泛的应用。

总之，虽然这项工作尚未展示机器学习分析在体内MRSI数据中的应用，但它提供了原理证明，即利用机器学习提取的低分辨率光谱特征可以高精度地对细胞进行表型分类。在这方面，我们预测MRSI的较低灵敏度将是需要克服的主要挑战，而不是光谱分辨率。尽管如此，这些结果表明，如果用脑组织样本或体内MRSI数据训练，机器学习可能能够提供足够好的光谱MRSI标记，以便在体内足够准确地识别中枢神经系统（CNS）损伤中的细胞类型内容，并根据其病理性质对这些损伤进行分类。我们设想，未来这种方法可以帮助克服MRSI目前的局限性，将1H NMR光谱分类作为最具侵入性的活检方法——中枢神经系统活检的替代方案，从而开发出一种非侵入性的工具，用于许多中枢神经系统损伤的体内鉴别诊断。这种“虚拟活检”有可能避免大量实际的侵入性活检，并使得难以到达的中枢神经系统部位的诊断成为可能。

### 实验部分：细胞培养维护

HeLa（来自瑞士实验癌症研究所）、HEK293T（美国典型培养物收集中心，ATCC CRL-3216）和Jurkat T淋巴细胞（Interlab细胞系收集中心，ICLC HTL01002）按照ATCC推荐的试剂和方案进行培养。HeLa和HEK293T细胞在添加了L-谷氨酰胺（Gibco）、抗生素（青霉素和链霉素，Gibco）以及10%胎牛血清（FBS，Gibco）的高葡萄糖Dulbecco改良Eagle培养基（DMEM，Gibco）中培养，置于未涂层的T75塑料瓶中，在37°C、5%二氧化碳的湿润环境中孵育。这两种细胞培养物每周通过1/10的稀释率传代两次。对于NMR分析，额外的T75培养瓶以相同的密度接种细胞，并在接种后不同时间点收集样本（从1天到4天）。由于每种细胞系都有其特征性的生长曲线，而细胞密度不易定量测量，因此内部使用了与细胞密度相关的“传代后天数”作为时间参数。Jurkat T淋巴细胞在添加了MEM非必需氨基酸（Gibco）、丙酮酸钠（Gibco）和10% FBS（Gibco）的RPMI 1640培养基中培养，同样置于未涂层的T75塑料瓶中，在37°C、5%二氧化碳的湿润环境中孵育。细胞通过每两周接种1 × 10^6个活细胞（通过Trypan Blue染色确定）进行传代。

### 实验部分：细胞培养维护

HeLa（来自瑞士实验癌症研究所）、HEK293T（美国典型培养物收集中心，ATCC CRL-3216）和Jurkat T淋巴细胞（Interlab细胞系收集中心，ICLC HTL01002）按照ATCC推荐的试剂和方案进行培养。HeLa和HEK293T细胞在添加了L-谷氨酰胺（Gibco）、抗生素（青霉素和链霉素，Gibco）以及10%胎牛血清（FBS，Gibco）的高葡萄糖Dulbecco改良Eagle培养基（DMEM，Gibco）中培养，置于未涂层的T75塑料瓶中，在37°C、5%二氧化碳的湿润环境中孵育。这两种细胞培养物每周通过1/10的稀释率传代两次。对于NMR分析，额外的T75培养瓶以相同的密度接种细胞，并在接种后不同时间点收集样本（从1天到4天）。由于每种细胞系都有其特征性的生长曲线，且细胞密度不易定量测量，因此内部使用了与细胞密度相关的“传代后天数”作为时间参数。Jurkat T淋巴细胞在添加了MEM非必需氨基酸（Gibco）、丙酮酸钠（Gibco）、抗生素和10% FBS（Gibco）的RPMI 1640培养基中培养，同样置于未涂层的T75塑料瓶中，在37°C、5%二氧化碳的湿润环境中孵育。细胞通过每两周接种1 × 10^6个活细胞（通过Trypan Blue染色确定）进行传代。

### 实验部分：细胞培养维护

HSB 311 iPSCs（用于生成NPCs、神经元和星形胶质细胞）是通过之前描述的方法（39,40）从皮肤成纤维细胞中经过外显子重编程获得的，并在Stem Flex基础培养基（Thermo Fisher Scientific，#A3349201）中培养在Matrigel包被的培养板上（比例1:60，Corning，#356234）。iPSCs每5-6天传代一次。简要来说，细胞先在37°C下用0.5 mM EDTA孵育3分钟以诱导细胞团块分离。之后去除EDTA，用Stem Flex清洗培养皿以收集细胞团块。最后，iPSCs以1:6-1:8的比例接种在新的培养容器中。

### 实验部分：NPCs、神经元和星形胶质细胞的生成

本研究中使用的NPCs具有神经上皮干细胞（NES）的身份，其生成方法如先前报道。简要来说，健康的iPSCs以高密度（2 × 10^5/cm^2）接种在Matrigel包被的培养板上进行神经诱导。这一阶段使用神经诱导培养基（DMEM-F12（Thermo Fisher Scientific，#11-330-057）/Neurobasal（Thermo Fisher Scientific，#21103049）混合液（1:1），添加1% N2（Thermo Fisher Scientific，#17502001）、2% B27（Thermo Fisher Scientific，#17504-044）、20 μg/mL胰岛素（Sigma-Aldrich，#I9278）、1% MEM非必需氨基酸（Thermo Fisher Scientific，#11140050）、1% L-谷氨酰胺（Thermo Fisher Scientific，#25030024）、0.1% 2-巯基乙醇（Thermo Fisher Scientific，#21985023），这种培养基每天更换，包含Dual SMAD抑制因子。通过提供如SB431542（10 μM，TargetMol，#T1726）、LDN193189（100 nM，Stem Cell Technologies，#72144）和XAV939（2 μM，Stem Cell Technologies，#72674）等小分子，可以阻断TGFβ和BMP信号通路并激活神经前体基因。在神经诱导阶段结束后，获得的神经外胚层细胞以高密度（2 × 10^5/cm^2）接种在NES培养基（DMEM-F12，1% N2，0.1% B27，1.6 g/L葡萄糖（Sigma-Aldrich，#RDD016）中，并添加20 ng/mL FGF2（Peprotech，#100-18B）、20 ng/mL EGF（Peprotech，#315-09）和5 ng/mL BDNF（Peprotech，#450-02）进行培养。在这种培养条件下，NPCs可以保持自我更新并长期扩增。成熟的神经元具有新皮质特性，是从NPCs分化而来的。在停止生长因子并添加30 ng/mL BDNF到神经元分化培养基（DMEM-F12/Neurobasal混合液1:1，0.5% N2，1% B27，10 μg/mL胰岛素）后，NPCs发生终末分化。考虑了早期（约30天）、中期（约60天）和晚期（约90天）的时间点进行NMR分析。

### 实验部分：星形胶质细胞的生成

iPSCs的分化方法如先前所述。（33）简要来说，iPSCs被分解成单细胞，并以5 × 10^4细胞/cm^2的密度接种在Poly-D-lysin（PDL，Sigma-Aldrich，#P6407-5MG）/层粘连蛋白包被的培养皿（Sigma-Aldrich，#L2020）上，培养基中添加了4 ng/mL FGF2、500 ng/mL LDN193189、20 μM SB431542和10 μM Y-27632。10天后，NPCs被收集并在添加了10 ng/mL FGF2、10 ng/mL EGF和20 ng/mL BDNF的N2B27培养基中培养8代。在第8代后，NPCs被接种在Vitronectin处理的塑料板上（Thermo Fisher Scientific，#A14700），并暴露在星形胶质细胞诱导培养基（Neurobasal-DMEM/F12 1:1 + 0.5% N2，1% B27，20 ng/mL FGF2和20 ng/mL EGF）中25天以诱导星形胶质细胞前体细胞（APC）的定向分化。最后，APCs以2 × 10^4细胞/cm^2的密度接种在Vitronectin处理的塑料板上，并在星形胶质细胞成熟培养基（DMEM/F12 + 1% N2，10 ng/mL CNTF（Peprotech，#450-13-100UG）和10 ng/mL BMP4（Peprotech，#120-05ET）中培养另外50天。

### 实验部分：样本准备

NMR分析的样本制备是根据现有协议改良的。（41）从T75培养瓶中用0.25%胰蛋白酶-EDTA分离HEK293T、HeLa和Jurkat细胞，然后用DMEM + 10% FBS灭活，800 g离心5分钟，再用PBS清洗一次，再用PBS缓冲液+5% D2O清洗一次，再用180 μL相同缓冲液重新悬浮，并放入3 mm的Shigemi管中用于NMR分析，在管底形成软沉淀。细胞数量根据采集当天的细胞密度而定。因此，可能将来自1个、2个或3个T75培养瓶的细胞合并使用，以恰当地填充NMR管（每个NMR样本约3 × 10^7个细胞）。NPCs、神经元和星形胶质细胞（每个NMR样本约1-2 × 10^6个细胞）分别用0.25%胰蛋白酶-EDTA（NPCs和星形胶质细胞）或Accutase（神经元）分离，用4体积的PBS + 10% FBS或4体积的PBS灭活，然后200 g离心3分钟，再用PBS清洗一次并轻轻离心。去除PBS后，细胞用5-10 μL PBS + 5% D2O重新悬浮，并通过毛细作用加载到玻璃毛细管（Hilgenberg GmbH，硼硅酸盐玻璃，长度10 mm，内径0.44 mm）中。毛细管在清洁端进行火焰封口，放入空的无菌3 mm管中用于NMR分析，并轻轻离心在管底形成软沉淀。

混合细胞系的样本是通过混合两种不同细胞系的悬浮液获得的，混合比例各不相同。使用了三种细胞系：HeLa、HEK和Jurkat，从而产生了三类样本：HeLa + Jurkat、HEK + Jurkat和HeLa + HEK。

### NMR数据采集与处理

除非另有说明，所有NMR光谱都是在310 K（37°C）下使用Bruker Avance III HD 950 MHz（22.3 T）光谱仪和TCI Cryoprobe采集的。1D 1H激发光谱使用Bruker库中的zgesgp脉冲序列记录，光谱窗口为20 ppm，32k点，采集时间为32k点，4次虚拟扫描，128次实际扫描，每次扫描间隔1秒（总采集时间约4分钟）。Carr–Purcell–Meiboom–Gill（CPMG）光谱使用Bruker库中的cpmgpr1d脉冲序列记录，光谱窗口为20 ppm，112k点，采集时间为3.03秒，4次虚拟扫描，128次实际扫描，每次扫描间隔4秒（总采集时间约16分钟）。通常用于增强慢旋转分子信号的1D NOESY光谱（42）由于确保细胞样本稳定所需的时间限制而未记录。光谱使用Topspin 3.6软件进行了5 Hz指数线宽化、零填充、相位校正，并以6.01 ppm处的信号作为参考。该信号暂时被分配为尿苷单磷酸（UMP）或尿苷二磷酸（UDP），这是根据人类代谢组数据库（HMDB）确定的（43）。选择这个信号是因为它在所有光谱中都分辨率很高且不受水抑制伪影的影响。光谱中不感兴趣的区域被剪切掉（超过8.6 ppm和低于-0.1 ppm的部分，以及5.1 ppm到4.6 ppm之间的水信号区域）。光谱被均匀划分为0.04 ppm宽的区间。选择这个区间大小是因为它与细胞光谱中最尖锐峰的线宽相当，可以减少特征数量，避免过拟合问题，这是PLSDA在特征/样本比例非常高时常见的问题（44）。使用概率商归一化（PQN）（45）进行归一化，以中间光谱作为参考。在剪切和划分区间后，共保留了217个光谱特征用于分析。Chenomx NMR Suite 8.3（Chenomx Inc., Canada）、BMRB（46）、HMDB（43）以及文献中的代谢物信息（47,48）用于对CPMG光谱中最显著或分辨率最高的特征进行初步分配。

### 多变量分析和机器学习

开发了一个使用Python 3.8自动加载和处理光谱的框架。探索了两种不同的方法。在第一种方法中，首先使用PLSDA对光谱进行降维，然后在降维后的数据集上训练SVM。（26）PLSDA能够将光谱特征压缩到一个数据方差与分类任务相关的空间中最大化。更具体地说，PLSDA的潜在变量系数是根据每个原始光谱特征对类别预测的单变量效应计算得出的；然后，每个新计算出的潜在变量都会与已计算出的潜在变量进行迭代正交化处理，以确保在输出相关性最大化的空间中进行投影，并同时最小化原始特征之间的共线性。在这项研究中，PLSDA被用来降低光谱数据集的维度，并将样本投影到一个不同细胞类型分隔最理想的空间中。随后在转换后的数据上训练了一个SVM（支持向量机），以评估该降维投影空间中类别的最佳分隔边界。SVM的目标是通过评估定义每个类别概率区域的决策边界来找到最适合分类的更低维空间的划分方式。通过随机网格搜索SVM的超参数来优化边界的大小和形状。在4类场景中，SVM模型收敛到了一个径向基函数核，以最佳方式分隔类别；而在3类场景中，它自动收敛到了一个线性核函数。模型通过随机网格搜索其超参数进行了优化，特别是决定了决策边界形状的核函数。70%的随机选取样本被用作训练数据，剩余的30%用于验证。这样，模型对于不同复杂度的分类任务都具有灵活性。结果展示了3类和4类分类问题的情况，证明了这种框架可以在获取并添加新的样本类别时进行适应。

第二种方法基于随机森林集成（Random Forest Ensemble），用于特征选择和分类。特征选择使用了Boruta算法，这是一种全相关特征选择方法，旨在找到所有携带预测信息的特征，而不是提取某些分类器误差最小的特征子集。Boruta是一个可靠的特征选择工具，因为它唯一的控制选择严格性的参数是每个特征在其随机排列中的成功率分布的百分比阈值。算法选出的最佳特征随后被输入到随机森林分类器中，这些特征在分类任务中相对于它们的随机排列表现更好。过滤后的光谱特征（名义上是光谱桶）被传递到实际的随机森林集成模型中，该模型由多棵并行训练的树组成，以探索特征子集并收集表现最佳的方案。通过随机网格搜索对集成模型的超参数（如并行树的数量、估计器的最大深度、分割时的最小杂质减少等）进行优化。70%的随机选取样本用于训练，剩下的30%用于验证。通过这种方式，模型能够适应不同的分类任务复杂性。结果展示了3类和4类分类问题，证明了这种框架可以随着新样本类别的加入而进行调整。

PLSDA潜在变量系数的计算基于每个原始光谱特征对类别预测的单变量效应；每个新计算的潜在变量都会与已计算的潜在变量进行迭代正交化，以确保在与输出相关的空间中投影效果最佳，并最小化起始特征之间的共线性。在本研究中，PLSDA用于降低光谱数据集的维度，并将样本投影到不同细胞类型分离最优的空间中。然后在该转换后的数据上训练了一个SVM，以评估这些类别在降维投影空间中的最佳分隔边界。SVM的目标是通过评估划分每个类别概率区域的决策边界来找到最佳的分类方法。通过随机网格搜索SVM的超参数来优化边界的大小和形状。在4类场景中，SVM模型收敛到了径向基函数核以实现最优分类；而在3类场景中，它自动收敛到了线性核函数。模型通过随机网格搜索对其超参数进行优化，特别是决定决策边界形状的核函数。70%的随机选取样本用于训练，其余30%用于验证。这样，模型能够适应不同的分类任务复杂性。结果表明，这种框架可以在新样本类别被添加时进行调整。

第二种方法基于随机森林集成（Random Forest Ensemble），用于特征选择和分类。特征选择使用的是Boruta算法，这是一种全相关特征选择方法，其目标是找到所有对预测有贡献的特征，而不是仅提取错误率最低的特征子集。Boruta是一个有力的特征选择工具，因为它唯一的控制参数是对每个特征的成功率分布百分比的阈值。算法选出的最佳特征随后被传递到随机森林分类器中，这些特征在分类任务中相对于它们的随机排列表现更好。经过筛选的光谱特征（即光谱桶）被传递到实际的随机森林集成模型中，该模型由多棵并行训练的树组成，这些树相互竞争以探索特征子集并选出表现最佳的方案。通过随机网格搜索对集成模型的超参数（如并行树的数量、估计器的最大深度、分割时的最小杂质减少等）进行优化。然后使用分层k折交叉验证在盲数据子集上对模型进行验证，以避免过拟合。70%的随机选取样本用于训练，剩余的30%用于验证。对于较低频率下的RFC分类器，上述训练集（950 MHz下的70%样本）在700 MHz和400 MHz下的100%样本上进行了验证。在收敛到最佳模型后，还提供了基于Gini杂质度量的特征排名，以便比较各类中最具影响力的特征。图S34展示了最终最佳模型中的一棵树的决策路径可视化。两种模型的数据都进行了标准化处理：对于PLSDA来说，这是为了符合方法的假设（特征的均值为0且方差为单位值）；对于RFC来说，标准化有助于在使用Gini杂质度量特征排名时减少偏差。两种模型都使用F1分数（精确度和召回率的调和平均值）在验证集上进行了5折交叉验证评估，因为F1分数在多类场景和样本量不同时比准确性更少偏见。

为了确保对所使用的PLSDA模型进行全面评估，我们在Python 3.8中实现了一个专门库，该库基于SIMCA-P指标和工具，这些在化学计量学和多变量分析领域被广泛认可。该库与SciKit-Learn库完全集成，后者是Python中各种机器学习算法的标准库，以确保可重复性和兼容性。针对3类和4类应用训练的PLSDA模型使用了以下评估方法：

- 交叉验证（CV）性能的排列测试：我们评估了CV分数的稳健性，即F1分数，在类标签的随机排列情况下。真实分类任务的CV分数被用来检验类标签与数据无关的零假设。估计的p值表明模型在类标签随机性下的表现不太可能如此。排列测试在5折交叉验证期间的F1分数分别为0.9866（对于4类PLSDA）和0.9978（对于3类PLSDA），丛建议的p值为0.0009。

- 投影中的变量重要性（VIP）分数计算：VIP为每个特征提供了一个分数，总结了该变量通过PLS权重对解释Y（输出矩阵，即目标）变化的贡献程度。因此，它是衡量特征在所有类别中整体区分能力的指标。
- 选择性比率（SR）：SR定义为某种特征的预测方差与正交方差之比。在多类场景中，它可以用来根据特征对特定类别回归向量的区分支持程度对变量进行排序。换句话说，它是衡量特征对特定类别区分支持程度的指标。
- 回归系数的杰克knife置信区间（CI）：在数据集重采样下对每个类别的回归系数进行稳定性分析。通过移除分层样本子集并评估回归系数估计的稳定性来重新拟合模型。在本研究中，系数标准误差（SE）和95%置信区间通过5折分层重拟合来估计（以确保每个分类在每个折叠中都有足够的样本代表）。低SE、窄CI以及一致的符号（上下CI界限不相交）定义了一个在重采样下稳定的系数。

为了深入了解RFC模型如何执行分类任务以及理解光谱包络中的信息结构，我们采用了SHAP（Shapley Additive Explanations）方法。SHAP是一种解释机器学习模型如何做出预测的方法，它将预测分解为模型每个输入特征的贡献之和。Lundberg等人提供了该方法的概述以及此处使用的Python库的文档。辅助信息报告了应用TreeExplainer获得每个分类任务的SHAP值全局总结和每个类别的SHAP值beeswarm图的结果（图S25–S33）。该分析突出了光谱特征如何贡献于RFC模型中的决策路径，并提供了关于光谱桶和表征每个类别的光谱特征值的见解。此外，我们还使用了一个模型不可知的排列解释器（Permutation Explainer）来评估光谱数据结构（从特征冗余和相互作用的角度）如何定义类别决策。通过从Shapley值（单独处理每个特征得到的结果）切换到Owen值（通过对特征组递归应用Shapley值得到的结果），我们可以深入观察复杂的重叠信号下的嵌套数据结构。

热点排行