编辑推荐:
本项研究聚焦于流感疫苗株的优化选择,开发并验证了一种基于卷积神经网络(CNN)的模型,用于精准评估甲型流感A(H3N2)病毒株间的交叉免疫与抗原距离。该模型创新性地采用“时间序列验证”策略,模拟真实世界的疫情预测场景,在独立近期的WHO数据(2022-2024)中展现出稳健的预测性能(AUC ≥ 0.805),为将其整合入多株流行病学模型(Influenza IDE)以辅助疫苗决策奠定了坚实基础。
1. 引言
流感病毒,特别是甲型流感A(H3N2)亚型,是引发季节性流行乃至全球大流行的重要病原体。准确评估不同病毒株之间的抗原性差异,即“交叉免疫”,是预测病毒进化趋势和指导有效疫苗株选择的关键。传统的血凝抑制(HAI)试验是评估抗原相似性的金标准,但计算方法的引入为定量分析和预测抗原变异体提供了新的强大工具。本研究的最终目标是开发一个可靠的交叉免疫模型,并将其整合到一个名为Influenza IDE的多株流行病学模型中,以期在计算机中模拟病毒株间的竞争,从而为疫苗株的筛选提供科学依据。
2. 材料与方法
本研究旨在开发和验证一个基于卷积神经网络(CNN)的交叉免疫模型,其核心创新在于采用了模拟真实预测任务的验证策略。
2.1. 抗原距离选择
模型使用血凝抑制(HI)滴度值来计算抗原距离。为了最大限度地利用世界卫生组织(WHO)数据集中的所有可用反应数据(共110,679个),本研究选择了公式(3):Dij= log2(Hi_max/Hij)。其中,Hi_max是使用特定参考株血清进行实验时得到的最大滴度值,Hij是不同毒株间的滴度。抗原逃逸阈值被设定为Dij= 2,这对应着四倍或更高的滴度降低,是流感监测中广泛使用的标准。
2.2. 数据准备
研究数据来源于WHO发布的季节性报告(2011-2024年)和GISAID平台的病毒序列。为确保数据质量,只使用了在豚鼠红细胞中加入20 nM奥司他韦(Oseltamivir)的实验结果,以排除神经氨酸酶的干扰。通过半自动化的序列名称匹配和清洗,最终得到了用于完整血凝素(HA)和HA1亚基的独特序列对数据。模型采用时间序列划分进行训练和测试:用截至某一年度的数据训练,然后在后续不重叠的年度数据上进行独立测试。
2.3. AAindex选择
为了将氨基酸序列转化为模型可处理的数值特征,研究从AAindex1数据库中选取了五类对抗原-抗体结合至关重要的理化性质指标:疏水性、极性、电荷、体积和可及表面积。通过主成分分析(PCA)和CNN模型筛选,最终确定了每个类别中最具代表性的一组矩阵。每个HAI反应对由此被编码成一个三维输入张量,其维度为:长度(HA1为329个氨基酸位置,完整HA为550个)、高度(2,代表血清株和测试株)、深度(5,代表五个理化性质通道)。
2.4. 神经网络描述
研究测试了两种不同深度的卷积神经网络架构:两层CNN和三层CNN。引入第三层旨在检测更高级别的模式,以提升模型的表征能力。所有模型均使用二元交叉熵作为损失函数,Adam优化器进行训练,并设置了早停策略以确保不过拟合。模型在Python 3.12.3环境下使用PyTorch 2.10框架实现。
2.5. 结果评估指标
模型性能通过二元分类问题的常用指标进行评估,包括准确度(Accuracy)、灵敏度(Sensitivity)、特异性(Specificity)和马修斯相关系数(MCC)。所有报告的指标均计算了95%置信区间,以量化评估的不确定性。
3. 结果
3.1. 在Smith准实验数据集上的计算结果
首先,研究在广泛使用的Smith准实验数据集上对模型进行了验证。在这个以抗原簇分离良好而闻名的数据集上,本研究的两层CNN模型(使用HA1序列)取得了近乎完美的性能:准确度 = 0.9996,MCC = 0.9964。这一结果与现有先进模型的性能相当,表明我们的模型具备从结构化数据中学习抗原关系的基本能力,为后续更具挑战性的验证奠定了基础。
3.2. 在2011-2024年数据集上的计算结果
在模拟真实预测场景的时间序列测试中,模型在训练和验证期表现优异(准确度0.84–0.90,MCC 0.65–0.78)。然而,在独立测试2022-2024年的数据时,性能虽稳健但有所下降(准确度0.73–0.81,MCC 0.48–0.60)。分析发现,测试年份的数据中,抗原距离值靠近阈值(D=2)的“困难”样本比例显著高于训练集,这反映了真实世界预测的复杂性。其中,2023年的数据最具挑战性,模型在该年的各项指标均为最低。值得注意的是,三层CNN架构在应对2023年的困难数据时表现出了更强的稳健性,其MCC值显著高于两层架构,说明额外的卷积层有助于捕捉更复杂的模式以应对边界模糊的分类任务。此外,使用完整HA序列与仅使用HA1亚基序列的模型性能并无根本差异,这证实了血凝素茎部对HAI试验结果的影响较弱。
3.3. ROC分析与阈值敏感性
受试者工作特征(ROC)曲线分析进一步证实了模型的判别能力和稳健性。在标准阈值D=2下,两种架构在所有测试年份的曲线下面积(AUC)均≥0.805,最高值出现在2024年(两层:0.871,三层:0.865)。Brier分数介于0.151至0.192之间,表明模型具有良好校准性。更重要的是,当抗原逃逸阈值在1.0至3.5之间变化时,AUC值呈现平缓而非急剧的变化,且各测试年份的相对难度模式保持不变。这证明模型在标准阈值附近表现稳定,研究结论不依赖于阈值的精确选择。
3.4. 与先进模型的结果对比
为了横向比较,研究还在相同的数据划分条件下(70%训练,15%验证,15%测试)运行了另外两个先进模型:MetaFluAD和IAV-CNN。由于这两个模型需要使用对称的Archetti-Horsfall距离,因此比较仅基于数据集中有限的对称数据对。结果显示,在训练和验证集上,各模型表现相当。但在测试集上,我们的模型(使用全部数据)展现了更优且更稳定的性能估计。而MetaFluAD和IAV-CNN由于测试样本量小,其性能估计的置信区间很宽,不确定性较高。这凸显了我们的模型能充分利用所有可用数据进行评估的优势。
4. 讨论
本研究成功开发并验证了一个用于甲型流感A(H3N2)抗原分类的CNN模型。其核心贡献在于采用了严格的时间序列验证协议,直面预测未来流行季抗原特性这一核心挑战。模型在经典的Smith数据集上表现完美,通过了基本的功能性检验;而在模拟真实预测的近期数据测试中,尽管面对更多靠近分类阈值的困难样本,仍能保持稳健的性能(AUC ≥ 0.805),证明了其实际应用潜力。三层CNN架构在最具挑战性的年份表现出更强的稳健性,显示了模型深度对于处理复杂、模糊数据的重要性。
尽管许多模型在“理想”测试条件下能取得很高分数,但在模拟为 upcoming season(下一个流行季)选择疫苗株的真实场景时,性能提升仍然是一个持续的挑战。未来的研究可能朝两个方向深化:一是更全面地考虑氨基酸替换对血凝素三维结构的理化影响;二是考虑多克隆免疫应答的变异性。本研究开发的交叉免疫模型,为最终整合到多株流行病学模型Influenza IDE中铺平了道路。这种整合将允许利用回顾性数据进一步验证和改进模型,并最终实现对未来主导流行株的预测,从而为制定更有效的疫苗组合提供关键的计算支持。