综述:人工智能与机器学习时代下的流感大流行与流行病预测

《Reviews in Medical Virology》:Forecasting Influenza Epidemics and Pandemics in the Age of AI and Machine Learning

【字体: 时间:2026年01月21日 来源:Reviews in Medical Virology 6.6

编辑推荐:

  本综述系统回顾了AI/ML技术在流感预测领域的最新进展,涵盖从病毒演化(抗原漂移/抗原转变)到公共卫生决策支持的全链条应用。文章重点分析了多模态数据融合(如基因组、气象、移动性数据)、前沿模型(如Transformer、图神经网络)以及关键风险修正因子(如气象变异、武装冲突)的作用,并前瞻性地探讨了量子机器学习等新兴技术的潜力,为构建下一代智能预警系统提供了重要参考。

  
1 引言
准确及时的预测对于有效管理流感疫情至关重要,它促进了从被动应对向主动公共卫生干预的转变。人工智能(AI)和机器学习(ML)的进步彻底改变了流行病学建模,使得预测流行轨迹、实时监测病毒演化以及快速部署针对性控制措施成为可能。这些技术利用复杂的数据流来捕捉流感传播的多方面性质,整合了生物决定因素(如病毒遗传学和宿主免疫)、环境影响(包括气象变量和紫外线辐射)以及社会因素(如人口流动性和行为模式)。
本综述探讨了AI和ML方法在流感预测框架内的整合,重点关注通过高级预测分析对异构数据类型的融合。值得注意的是,量子计算和多模态数据集成的最新进展已显示出提高计算效率和模型精度的巨大潜力。这些方法能够同时分析基因组序列、环境参数和流行病学指标,从而加强疫情预测的时空精度。
2 历史视角:塑造现代预测的经验教训
历史上的大流行为当今的AI驱动预测工具提供了信息。1890年的流行病揭示了早期的传播模式,而1918年H1N1大流行(导致超过5000万人死亡)催生了基本的监测系统——现代预测模型的雏形。后来的疫情(1957年H2N2、1968年H3N2、2009年H1N1pdm09)通过揭示病毒传播动态完善了这些方法。COVID-19非药物干预(NPI)期间(2020-21年)流感病例的急剧下降凸显了实时数据的力量,如今这力量因AI而倍增。
近期研究利用历史大流行数据提升AI模型性能。应用图神经网络(GNN)的研究展示了改进的空间流感临近预报。2009年H1N1pdm09大流行凸显了全球航空旅行的作用,促使机器学习(ML)模型纳入航班数据,从而减少了预测误差。2020-21年流感在COVID-19 NPIs期间的下降为训练长短期记忆(LSTM)模型提供了数据集,使其在低传播场景下的准确性得到提升。此外,从历史大流行中进行迁移学习使模型能够泛化到不同的流感毒株,有证据表明这改善了对新毒株动态的预测。
3 预测模型中的生物学驱动因素
流感的生物学特性是预测算法的基础:抗原漂移涉及血凝素(HA)和神经氨酸酶(NA)的突变,速率约为每年每位点2–3 × 10?3次替换,这对现有免疫力构成挑战。近期基于Transformer和序列学习的方法在从基因组数据预测抗原漂移方面显示出潜力,这可能有助于预见疫苗不匹配。抗原转变源于动物宿主中的重配事件,导致新流感毒株的出现,深度学习技术通过绘制共感染区图谱来识别转变风险。此外,免疫动态(其特征是免疫保护期短,在老年人中尤为明显)被纳入特定年龄的预测模型以提高准确性。
生物学因素通过分析病毒-宿主蛋白质相互作用和致病性预测在流感预测中扮演关键角色。例如,使用XGBoost预测甲型流感病毒-人类蛋白质相互作用已显示出高精度。基于血凝素预测结构的机器学习模型能够评估禽流感致病性。此外,专注于预测抗原距离和评估人畜共患潜力的模型强调了生物学驱动因素在预测中的重要性。
这些生物学机制代表了预测中的关键不确定性,主要由于病毒进化跨越地理和宿主界限的非线性性质。计算病毒学的进步使得宿主-病原体相互作用能够整合到动态模型中,捕捉抗原事件的概率性质。预测工具现在结合蛋白质结构数据来检测具有免疫学后果的功能性显著突变。纳入来自农业系统的人畜共患界面数据扩大了预测范围,超越了人群。此外,实时基因组监测管道缩短了识别与漂移或转变相关威胁的响应窗口。
基因组测序的进步彻底改变了生物学预测。近期整合基于序列特征的ML模型在预测抗原距离方面取得了高精度,为理解抗原漂移提供了见解。2024年的另一项研究引入了一种多模态ML方法,整合了环境样本(例如家禽农场)的宏基因组数据,改善了转变预测。免疫动态模型现在纳入了纵向血清学数据,一项2024年的研究使用贝叶斯机器学习(ML)预测老年人群免疫力减弱,从而提高了特定年龄预测的准确性。
4 环境输入:气象学和太阳紫外线在预测中的作用
环境决定因素是流感预测模型的关键组成部分,在提高预测精度方面发挥着重要作用。低绝对湿度(约4 g/m3)增强病毒存活率和传播潜力。AI模型结合实时天气数据,如湿度和温度,以更精确地预测传播高峰。太阳紫外线(UV)辐射也显著影响流感动态;紫外线指数(UV-Index)低于2与流感激增相关,而UVI每增加一个单位,传播率降低7%–10%。神经网络模型利用这些UVI趋势调整季节性预测,并预测到2050年,由于预期的气候变化,流感季节将会延长。
将气象数据和太阳紫外线辐射纳入流感预测模型已被证明能显著提高流行病学预测的精度。虽然现有文献中明确涉及这些环境决定因素的研究数量仍然有限,但预测建模的最新进展强调了将气候相关变量(如温度、湿度、太阳紫外线指数)整合到监测框架中的重要性。这种方法不仅提高了疫情预测的时间和空间分辨率,还有助于更全面地理解环境条件与病毒传播动力学之间复杂的相互作用。
大气数据分辨率的近期进展提高了流感预测的空间精度,特别是在先前监测能力有限的地区。机器学习框架现在不仅整合气象指标,还整合微气候波动以捕捉传播风险的短期变异性。纳入动态环境基线使模型能更稳健地适应气候异常和极端天气模式。
在卷积神经网络框架中整合气象和卫星数据已被证明能改善热带地区的短期流感预测。新出现的证据表明,紫外线辐射水平升高与流感传播减少相关,并支持应用机器学习模型以相当高的准确性预测紫外线驱动的季节性动态。NeuralGCM模型预测,到2050年,由于气候变化,流感季节将延长10%–15%。空气污染数据(例如PM2.5水平)也已纳入AI系统,观察到高污染区传播增加,这增强了以城市为重点的预测。此外,结合气象、紫外线和气候变量的集成机器学习模型改善了长期预测性能。然而,偏远和低资源地区的数据延迟仍然是一个限制因素。
5 人工智能与机器学习:流感预测的核心
AI通过几种关键方法驱动高级监测和预测。临近预报模型,如LSTM和梯度提升算法,整合症候群、实验室和移动性数据,在1-8周预测范围内将预测误差降低10%–25%。纳入实时智能手机移动性数据进一步增强了这些短期预测的精度。早期预警系统采用自然语言处理(NLP)技术分析新闻报道和旅行数据,使得能够在官方确认之前检测到像2019年H1N1pdm再次出现这样的疫情。Transformer模型用于通过分析基因组序列预测病毒进化,促进前瞻性响应。在抗原图谱方面,深度学习方法解释了H3N2毒株约80%的变异,从而加速了疫苗株选择过程。此外,图神经网络通过预测跨毒株免疫模式做出贡献,为更广泛的疫苗设计策略提供信息。
一系列机器学习架构,包括深度循环、基于图和Transformer模型,已应用于使用不同数据集的流感预测任务。它们的比较特征和报告的准确性总结在表1中。
量子机器学习(QML)和多模态数据融合的最新进展推动了流感预测的边界。新兴的混合量子-经典算法被提出用于加速传染病研究中的高维建模任务,尽管它们在流感预测中的应用很大程度上仍是概念性的。增强的自然语言处理模型,利用多语言社交媒体数据集,使得能够比传统监测系统提前几天检测到疫情。基于图的深度学习架构在模拟跨毒株免疫相互作用方面显示出潜力,尽管它们在流感预测中的验证仍是初步的。结合基因组、症候群和社交媒体数据的多模态融合模型显著减少了临近预报误差,凸显了集成方法的价值。这些进步强调了AI提供及时、精确和情境感知的流感预测的日益增长的潜力。
总的来说,这些模型突显了神经、统计和混合方法在不同数据环境中提高时间和空间预测精度方面的互补优势。算法方法和数据集成方面的持续创新对于应对不断演变的病毒威胁的挑战至关重要。
区分回顾性模型评估(使用历史数据集对算法准确性进行基准测试)和旨在指导持续公共卫生决策的前瞻性、实时实施至关重要。表1中总结的大多数AI和ML模型是回顾性开发和验证的,使用先前收集的基因组、流行病学或环境数据。这些研究通常在回测场景中显示出高精度,但可能高估了实际环境中的性能。
相比之下,一些前瞻性实施已在操作环境中应用了AI预测。整合移动性和症候群数据的实时临近预报系统,以及基于NLP的疫情检测工具,已在CDC和WHO监测框架内支持态势感知。然而,由于数据延迟、报告不足和不断演变的疫情状况,这些系统通常表现出更高的不确定性。澄清模型是回顾性使用还是前瞻性使用对于评估AI驱动预测技术的实际公共卫生价值和就绪度至关重要。这种区分也突出了在现实世界应用中模型验证和评估标准透明性的重要性。
5.1 流感预测中的常见数据集和数据预处理挑战
基于AI的流感预测依赖于整合捕捉病毒、环境和行为动态的异构数据集。表2总结了近期研究中使用的主要数据源,并突出了典型的预处理挑战。协调这些不同的输入仍然是提高模型可靠性和可重复性的关键步骤。
元数据的标准化、联邦学习框架的开发以及自动化特征提取管道正在成为克服这些挑战并促进大规模、实时预测的关键策略。
可重复性仍然是基于AI的流感预测的一个主要挑战,因为许多研究依赖于专有数据集,或缺乏公开可用的代码和标准化的评估基准。更广泛地采用开放数据实践、共享预处理管道和联邦学习框架将显著提高透明度,并促进在不同环境下的独立验证。
5.2 机器学习在流感预测中的局限性与挑战
尽管取得了显著进展,但一些局限性制约了AI和ML在流感预测中的实际实施。
首先,过拟合仍然是一个主要问题,特别是在模型使用有限或特定区域的数据集进行训练时。高度复杂的架构(如深度神经网络)可以实现出色的回顾性能,但可能无法泛化到未见过的疫情或地理区域。
其次,可解释性挑战阻碍了黑盒模型在公共卫生决策中的采用。许多预测系统提供准确的输出而没有透明的推理,使得流行病学家难以评估预测的可靠性或基于预测证明干预措施的合理性。
第三,区域数据稀缺性和异质性限制了全球模型的可转移性。使用高收入国家数据训练的预测系统通常在低收入和中等收入地区表现不佳,原因是报告不一致、缺乏基因组测序以及卫生基础设施的差异。
此外,数据延迟、隐私约束以及来自社交媒体或移动数据集的偏见可能扭曲早期预警输出。解决这些问题需要结合机械和数据驱动模型的混合框架、稳健的验证管道以及可解释的AI方法,以确保在不同环境下的可解释性和可重复性。
越来越多的证据表明,最可靠的流感预测来自于AI驱动、统计和机械模型的整合,而非依赖单一的方法论范式。结合机器学习算法与区室(例如SEIR型)或自回归模型输出的集成框架增强了预测准确性、稳定性和不确定性量化,特别是在非典型传播时期。这些混合方法将机械模型的可解释性和理论基础与AI的自适应学习能力结合起来,为实时预测和政策规划产生互补的优势。
然而,已发表的文献往往过度代表成功或高性能的AI模型,引入了潜在的发表偏倚,掩盖了无效或不太有利的结果。值得注意的是,一些研究表明,当前瞻性应用时,机器学习方法并不总是优于传统模型,特别是在数据稀疏的环境或非典型流感季节期间。在这种情况下,更简单的自回归或区室框架可能实现相当甚至更优的实时准确性。承认这些局限性对于保持对AI作用的平衡视角并确保未来研究建立在预测性能的现实期望之上至关重要。
除了技术限制,伦理和治理挑战仍然是AI驱动流感预测部署的核心。使用移动数据、社交媒体信号和卫星图像引发了关于隐私、数据所有权和潜在监视滥用的担忧。此外,高质量数据和计算资源的不平等获取可能加剧现有的全球健康差距,强调了对透明治理框架和基于伦理的部署策略的需求。
6 将预测转化为疫苗和抗病毒策略
流感预测不仅预测流行趋势,而且直接为疫苗和病毒导向的抗病毒药物的设计和更新提供信息。追踪抗原漂移和重配的预测模型指导疫苗株的及时选择,改善与流行病毒的匹配度。整合基因组和流行病学数据的机器学习算法能够实时评估疫苗有效性和预测耐药模式。
通过将基因组预测与免疫学和流行病学数据集联系起来,AI系统可以识别降低疫苗效力的新兴突变,为配方更新提供早期预警。这些方法还支持预测抗病毒耐药性,在广泛的临床失败发生之前优化治疗策略。
基于Transformer和多模态模型的最新进展加强了预测与响应之间的联系,允许快速调整疫苗组合和部署策略。在这个意义上,AI驱动的创新是预测的实际延伸——将预测性见解转化为可操作的公共卫生干预措施,增强应对不断演变的流感威胁的准备和韧性。
7 冲突中的预测
战争破坏了传统的疾病监测系统,然而人工智能在这些具有挑战性的环境中展示了适应性。通过利用卫星图像、移动数据和开源信息的自然语言处理(NLP),AI工具有效地监测流离失所人群中的流感传播。这种整合使得能够及时预测疫情,为冲突地区的人道主义援助和公共卫生干预提供关键指导。
在冲突地区预测流感疫情由于数据不稳定和动态条件而带来挑战。尽管当前文献中关于这个问题的直接研究很少,但使用灵活和多源数据模型,如图神经网络捕捉时间、地理和功能空间特征,可能会增强在这种复杂环境中的预测稳健性。
这些挑战在持续的俄乌战争中尤为明显,医疗基础设施的退化使疾病监测和响应工作进一步复杂化。2022年2月升级的俄乌战争严重破坏了正式的流感监测。这导致冲突影响地区,包括流感在内的传染病报告近乎完全停止。AI驱动的开源情报平台通过分析多语言新闻和社交媒体缓解了这种情况。这些平台使得能够早期检测流离失所人群中的疫情,有报告表明传统流感报告减少,需要依赖替代数据源。整合卫星图像和移动数据的AI模型改善了战乱地区的疫情预测,尽管由于访问受限和数据稀疏性,挑战仍然存在。
卡霍夫卡大坝的坍塌就是一个此类挑战变得特别明显的地区。大坝坍塌释放了约18 km3的水,淹没了超过620 km2的区域,影响了10万多人。这一事件估计动员了83000吨水库沉积物中的重金属,污染了水源。被破坏的污水系统和洪水增加了水源性疾病风险,而移位的地雷限制了获得护理和移动数据的机会。整合卫星和水数据的AI模型改善了疫情预测。受损的灌溉系统也加剧了粮食不安全和流感脆弱性。
为了应对这些复合的脆弱性——包括慢性病、合并症、抑郁症发病率上升以及肠道微生物群紊乱——近期的AI驱动创新日益被部署以支持高风险、资源有限环境下的疾病监测和预测。AI的进步正在弥合冲突地区的差距。整合无人机移动数据与图神经网络改善了难民营中流感传播的预测。包含当地方言的NLP模型增强了早期预警能力。卫星图像结合机器学习技术已被用于估算冲突影响地区的人口密度,从而增强了疫情预测。此外,新兴的基于区块链的健康信息系统可能会改善资源有限或不稳定环境中安全数据共享,尽管在冲突期间实际部署的证据仍然有限。这些创新展示了AI在冲突环境中克服传统监测局限性的潜力,为在挑战性条件下进行公共卫生干预提供关键支持。
8 增强预测精度的宿主因素
人口统计和遗传因素显著提高了流感预测模型的准确性。年龄和性别是关键决定因素,因为儿童和老年人群常常驱动传播和疾病严重性。基于性别的免疫差异,包括激素影响(如雌激素介导的效应),通过捕捉男性和女性免疫反应的变化进一步优化这些模型。此外,像IFITM3 rs12252-C这样的遗传变异与严重流感结局的高风险相关。通过机器学习方法整合多组学数据——包括单核苷酸多态性(SNPs)和转录组谱——改善了个体易感性和疾病进展的预测,从而有助于更精确和个性化的预测。
宿主相关因素,包括实验室参数,显著提高了诊断和预测准确性。利用实验室数据的机器学习模型在预测甲型和乙型流感感染以及预测住院情况方面显示出效力,凸显了宿主特定信息在监测中的价值。
多组学推进了宿主因素整合。近期结合基因组、蛋白质组和代谢组数据的研究改善了易感性预测。考虑激素影响的性别特异性模型增强了女性严重性预测。此外,来自可穿戴设备的数据,如心率变异性,提高了早期感染检测的准确性。将生活方式因素和合并症纳入机器学习模型显示出进一步优化风险评估的前景。将宿主因素与环境
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号