利用单细胞蛋白质组学数据推断流感病毒感染时序的免疫动力学研究

【字体：大中小】 时间：2026年03月19日 来源：Frontiers in Immunology 5.9

编辑推荐：

　　本文针对现有流感诊断技术（如快速抗原检测和NAATs）仅能提供病毒存在与否的二元结果，而无法判断感染时间与传染期的临床痛点，报道了一项创新研究。研究人员运用质谱流式（CyTOF）技术，结合随机森林机器学习模型，分析了两项人体流感病毒攻击研究中受试者感染前后的单细胞免疫图谱。结果显示，基于标准化基线免疫特征构建的模型不仅能有效区分病毒排出者与非排出者，还能高度准确地预测感染后天数（DPC）。这证明了外周免疫细胞动态变化编码了感染时序的稳健信号，为开发超越单纯病原检测、可提供感染阶段与持续传染力评估的下一代诊断方法奠定了坚实基础。

流感病毒一直是威胁公众健康的持续挑战。仅在美国，每年流感季节就会导致数千万感染病例和大量住院与死亡。尽管疫苗接种广泛普及且抗病毒疗法可用，流感的健康与经济负担依然沉重。当前，流感的临床诊断主要依赖快速抗原检测和核酸扩增试验（NAATs），如逆转录聚合酶链反应（RT-PCR）。然而，这些检测方法通常只能给出病毒存在与否的二元结果，无法告知感染是何时开始的，也判断不了个体可能具有传染性的时长。这导致临床医生和公共卫生部门缺乏可操作的工具来预估传染期或指导与治疗、隔离、接触者追踪等相关的时效性决策。为了克服这一局限，迫切需要能反映感染时序的生物标志物。

为此，研究者们在《Frontiers in Immunology》上发表了一项研究，旨在探索能否利用单细胞免疫动态变化来推断感染时间。他们巧妙利用了两项独立的、使用相同A/California/2009 (H1N1)病毒株的受控人体攻击试验数据，运用高维单细胞蛋白质组学技术和机器学习算法，成功地构建了能够准确预测感染天数（DPC）的模型，揭示了免疫细胞时序信号的强大预测能力。

研究人员开展这项研究，主要依赖于以下几个关键方法：

1.
队列与数据：研究数据来自两项独立的A/California/2009 (HN1)病毒攻击研究。研究A包括19名非排出者和16名排出者，研究B包括15名非排出者和16名排出者，均在感染后7天内采集了系列血液样本。
2.
单细胞蛋白质组学分析：使用42标志物的质谱流式（CyTOF）技术，对样本进行免疫分型，通过人工设门解析出37个免疫细胞亚群，获取其频率数据。
3.
数据分析与建模：
- •
  数据归一化：将感染后的免疫细胞频率减去个体的攻击前基线值，以降低个体间变异。
- •
  机器学习模型：针对分类（区分病毒排出者与非排出者）和回归（预测DPC）两个目标，分别训练随机森林模型。在研究A内部，通过5折交叉验证进行评估。在研究B中，直接应用从研究A训练的模型进行外部验证，评估其泛化能力。
- •
  性能评估：分类任务采用受试者工作特征曲线下面积（AUC）评估，回归任务则计算预测与实际DPC的皮尔逊相关系数和均方根误差。

研究结果

1. 研究发现清晰的免疫时序动态变化

质谱流式分析揭示了感染后多种免疫细胞亚群呈现明确的时间依赖性变化模式。例如，经典单核细胞（cMCs）和中间单核细胞（intMCs）在排出者中于DPC 3左右达到峰值，而非经典单核细胞（ncMCs）则在DPC 5之前持续增加。与此相反，嗜碱性粒细胞在排出者中急剧减少。而活化的增殖性淋巴细胞，如CD4⁺T细胞（CD38⁺Ki67⁺）和自然杀伤（NK）细胞（CD56^loCD16⁺CD38⁺Ki67⁺）则在排出者中持续增加至DPC 7。非排出者的免疫细胞频率则相对稳定。这些协调的变化揭示了流感感染期间免疫细胞动员与消退的清晰轨迹，表明外周免疫图谱可能编码了推断感染存在和感染时序的充足信息。

2. 机器学习模型可有效预测病毒排出状态

使用基线标准化数据训练的随机森林分类器能够准确地区分病毒排出者和非排出者。模型在研究A的各个时间点表现稳健。当将在研究A上训练的模型直接应用于独立的研究B队列时，AUC值跨时间点在0.50到0.81之间，表明模型具有跨队列的泛化能力。若不进行基线标准化，模型预测性能会下降，凸显了将免疫特征与个体基线锚定的重要性。相关性网络分析显示，自然杀伤细胞和粒细胞亚群在区分排出者方面贡献了最强的预测信息。

3. 免疫时序可被准确解码以预测感染天数

研究人员进一步评估了免疫细胞动态是否可用于推断感染后的时间进程。针对研究A的病毒排出者，使用随机森林回归模型预测DPC。结果显示，预测的DPC与实际DPC之间存在高度相关（皮尔逊 r = 0.92），整体均方根误差为1.060天。当将此模型应用于独立的研究B队列时，预测同样有效（r = 0.78）。相比之下，对非排出者进行时间预测未能产生有意义的结果，这与他们缺乏持续的感染驱动免疫扰动相符。这些结果证明，免疫细胞动态包含可量化的时序信号，能够可靠地用于推断感染时间。

4. 可视化与特征分析印证了时序预测的稳健性

通过统一流形逼近与投影（UMAP）对免疫细胞频率数据进行降维可视化，在研究A和研究B中，样本在UMAP空间均沿着一条清晰的轨迹排列，反映了从感染开始、经过免疫激活高峰再到恢复期的进程。当样本点根据模型预测的DPC着色时，颜色在轨迹上呈现梯度变化，与实际DPC着色结果高度一致，直观地证明了预测时序与观察到的免疫动态紧密吻合。相关性网络分析结合了细胞表型相似性和特征重要性，结果显示，活化的增殖性T细胞、记忆T细胞和自然杀伤细胞等亚群在两个研究中对DPC预测具有最强且一致的贡献。

结论与讨论

这项研究应用机器学习分析来自两项受控人体流感攻击研究的高维免疫图谱数据，证实循环免疫细胞动态包含关于感染阶段的预测性信息。免疫群体动态不仅能够区分病毒排出者和非排出者，还能准确预测感染后的时间。在一个队列中训练的随机森林模型可推广到独立的攻击研究，强调了在可控实验条件下识别出的时序免疫特征的稳健性和可重复性。这确立了单细胞免疫群体动态作为一种独立的、且此前未被充分探索的用于感染分期的手段。

该研究结果补充了以往基于转录组学和血清学分析推断病毒感染阶段的发现，证明了仅凭单细胞免疫分型数据，无需转录组或血清学数据，就能以高分辨率捕获感染的时序模式。这表明，细胞免疫动态是感染分期的生物学信息中一个未被充分挖掘的来源。将这些发现转化为实用诊断方法，关键在于识别一组能够用比质谱流式更具规模化、低复杂度的平台来测量的关键时序特征性细胞。将这些特征测量与现有的分子诊断方式相结合，可显著改善临床决策，通过提供感染状态和时间的评估，从而更精确地指导治疗干预。

研究中，模型性能受益于对个体攻击前免疫基线的归一化处理，这突显了最佳时序推断对基线测量的依赖性。尽管这可能为实际应用带来挑战，但也凸显了建立个体免疫基线以解读免疫扰动在更广泛的健康应用场景（如感染、疫苗接种和其他炎症应激）中的潜在价值。

本研究的局限性在于模型是在使用单一A/California/2009 (H1N1)攻击病毒株的两项研究中训练和验证的。相同的免疫特征和学习到的映射关系在多大程度上能推广到抗原性不同的病毒株尚不确定。此外，由于是精确控制时间和条件的受控人体攻击研究，未来需要在更大规模、更多样化的社区自然感染人群中评估模型性能，以应对病毒遗传学、感染剂量、宿主特征变异以及不规律的临床采样带来的噪音。

总而言之，这项研究证明，利用高维分型技术与机器学习相结合，可以从循环免疫细胞群体的协调变化中解码出可测量的感染时序信息。在两个独立的受控人体流感攻击研究中，这些免疫动态支持了对感染阶段的准确推断，并能在使用相同病毒株攻击的队列间推广。这些发现为在明确实验条件下的免疫学时序推断设定了一个基准，并为未来在更多样、更接近真实的社区获得性感染场景中评估此类方法的性能奠定了基础，展示了其在开发下一代诊断工具、实现对感染病程的精细化管理方面的巨大潜力。

订阅生物通快讯

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯