利用机器学习技术改进蚊媒疾病监测工作

《New Microbes and New Infections》：Advances in mosquito-borne disease surveillance using machine learning

【字体：大中小】 时间：2026年05月02日 来源：New Microbes and New Infections 5.4

编辑推荐：

　　玛丽安娜·杰弗罗伊 | 胡安·维森特·博加多·马丘卡 | 埃拉尔多·苏赞 | 费尔南多·埃斯蓬达 | 本杰明·罗什墨西哥国立自治大学（UNAM）兽医学与动物科学学院，墨西哥城，墨西哥 **摘要** 蚊媒疾病仍然是全球主要的健康挑战，对低收入和中等收入国家的影响尤为

　　玛丽安娜·杰弗罗伊 | 胡安·维森特·博加多·马丘卡 | 埃拉尔多·苏赞 | 费尔南多·埃斯蓬达 | 本杰明·罗什
墨西哥国立自治大学（UNAM）兽医学与动物科学学院，墨西哥城，墨西哥

**摘要**
蚊媒疾病仍然是全球主要的健康挑战，对低收入和中等收入国家的影响尤为严重。尽管采取了传统的控制和监测措施，但由于气候变化、城市化以及全球贸易和旅行活动，许多这类疾病仍在重新出现。近年来，作为人工智能子领域的机器学习已成为支持蚊媒疾病监测的强大工具。本系统评价遵循PRISMA指南，回顾了2010年至2024年间发表的81项研究，概述了在疟疾、登革热、寨卡热、基孔肯雅热和黄热病等蚊媒疾病监测中应用机器学习技术的最新进展。我们重点介绍了机器学习技术在预测、风险制图、实时疾病监测以及媒介/宿主生态学研究中的当前趋势，并确定了最常用的机器学习算法，包括支持向量机、随机森林、决策树和逻辑回归。虽然某些研究显示机器学习模型具有良好的预测性能，但其有效性取决于数据的可用性、质量及其与研究问题的相关性。在模型验证、资源匮乏环境中的实施以及动物健康数据的纳入方面仍存在不足。我们的系统评价总结了关键发现，指出了研究空白，并提出了将机器学习整合到未来蚊媒疾病控制工作中的策略。

**引言**
蚊媒疾病，尤其是由蚊子传播的疾病，是重大的公共卫生问题，全球约80%的人口面临风险（1）。伊蚊（Aedes）、按蚊（Anopheles）和库蚊（Culex）属的蚊子至少可以传播135种影响人类的病原体（2）。其中，最令人担忧的疾病包括疟疾、登革热、基孔肯雅热、寨卡热、黄热病和淋巴丝虫病。仅疟疾每年就导致数亿例感染和至少一百万例死亡；而登革热、基孔肯雅热、寨卡热和淋巴丝虫病则引发反复爆发，造成长期残疾，并在流行地区持续存在公共卫生问题（3, 4, 5, 6）。
这些疾病不仅对健康造成严重影响，还带来巨大的经济和社会影响，主要影响弱势群体，尤其是热带和亚热带地区的人口（7）。疾病爆发会扰乱卫生系统，通过生产率损失和治疗费用增加给经济带来负担，并阻碍发展。与伊蚊及其虫媒病毒相关的年度成本介于32.9亿至203亿美元之间（8）；而疟疾的估计成本约为43亿美元（9, 10）。这些影响凸显了及时有效应对疫情爆发的紧迫性。
此时，疾病监测就显得至关重要：需要持续、系统地收集、分析并解释健康数据，并及时向公众传播结果（11）。这有助于了解疾病在地理位置和季节上的分布情况，识别潜在的热点区域和高风险人群（12）。对于蚊媒疾病，传统的监测方法通常侧重于病原体检测、媒介监测和病例报告（13, 14）。昆虫学监测涉及通过幼虫调查、成虫捕捉和分类鉴定来监测蚊子种群（15）。此外，流行病学监测依赖于病例报告和疫情调查。对于某些由蚊子传播的人畜共患病病毒，监测还可以利用哨兵动物来获取有关病毒活动及其对人类或其他动物风险的信息（16）。昆虫学、流行病学和哨兵监测可以协助预防和发现疫情，阻止大规模流行病的扩散，帮助政策制定者在疫情期间制定计划（如杀虫剂部署、疫苗接种活动或其他控制措施），但这些方法往往劳动密集、耗时且应用复杂。
传统的监测和控制方法虽然必不可少，但已不足以单独应对复杂健康挑战。需要多学科综合方法（如生态学、进化生物学和社会生态系统框架）来应对这些问题。“同一健康”（One Health）理念因强调人类、动物和环境健康的相互关联性而被认为对加强蚊媒疾病监测至关重要，从而实现更有效和可持续的解决方案（17, 18）。许多蚊媒疾病是人畜共患病，在多种动物物种之间传播，其传播机制多样，可以研究媒介、病原体、寄生虫和宿主之间的相互作用（19）。
在这种背景下，“同一健康”或综合监测结合了人类流行病学数据、昆虫学媒介监测、动物宿主或储存库监测（包括哨兵物种）以及土地使用、生物多样性和气候等环境因素（20）。尽管这一理念具有吸引力，但在实际操作中仍面临挑战，数据交换障碍以及卫生专业人员和机构之间的优先事项差异是主要障碍（21）。野外收集的数据极具价值，但并不总是可用，因此需要补充工具和间接方法来处理和整合结构化及非结构化数据集，以及空间、时间、气候、昆虫学、流行病学和社会变量，以生成准确的预测结果。
传统蚊虫控制方法和疾病监测的局限性，以及综合监测的局限性，为人工智能（AI）等新兴技术提供了发展空间，这些技术可能提供新的解决方案或改进现有方法。AI是指能够模仿人类智能进行感知、学习、推理、问题解决和语言理解等任务的计算系统（22）。其在全球卫生和传染病领域的应用通过支持监测、政策制定、诊断和疫苗开发等方式改变了疾病控制方式（23, 24）。
机器学习（ML）作为AI的主要子领域之一，专注于从数据中学习、发现模式并基于数据做出预测和决策。标准ML技术包括分类、回归和聚类，使用相对简单的模型处理有限的结构化数据集，使决策过程更易于理解和解释（25, 26）。这些方法通常计算需求较低，所需数据资源也较少（27）。
本评价探讨了在蚊媒疾病监测中应用ML方法的前景和挑战，强调了关键进展和未来研究方向，并考虑了如何从人类、动物和环境三个维度整合数据以构建更有效的ML模型。

**方法论**
本系统评价遵循2020年PRISMA指南（28）进行。协议详细说明了研究问题、纳入标准、搜索方法、研究选择、数据收集和评估程序。

**研究问题**
本评价旨在展示当前在蚊媒疾病监测中应用ML技术的最新进展。因此，研究问题如下：
Q1 在蚊媒疾病监测中，使用ML的趋势是什么？
Q2 用于监测蚊媒疾病的ML技术有哪些？
Q3 这些新型方法是否高效有效？其应用中存在哪些障碍？
Q4 评估这些ML技术性能的指标是什么？
Q5 训练这些模型使用的数据类型是什么？这些数据属于哪个“同一健康”领域？

**纳入标准**
为确保选择相关的原始研究，我们纳入了2010年至2024年间以英文发表的评估ML在蚊媒疾病监测中应用的原创研究文章和会议论文。在筛选阶段，排除了与蚊媒疾病无关的研究（例如针对其他媒介疾病或不含蚊子的动物源性疾病的研究），或未聚焦于监测的研究（例如关于诊断或治疗的研究）。同时，也排除了不符合原创研究标准的研究，如观点文章、致编辑的信件、缺乏完整数据的会议摘要或专利。我们重点关注ML方法，因为它们在监测中的应用日益广泛，并且在预测性能和可解释性之间取得了平衡。符合条件的研究应用了ML技术和算法（如支持向量机、随机森林、决策树）。我们决定不纳入仅使用深度学习（DL）架构的研究（如深度神经网络、卷积神经网络），以保持模型间的可解释性和可比性。在公共卫生预测中，理解预测因子与结果之间的关联路径至关重要，但DL模型往往像“黑箱”一样难以理解（29）。然而，在某些情况下，当DL方法与经典算法在同一研究中直接比较时，我们仍将其纳入。仅使用传统统计、机制学或流行病学模型的文章也被排除。缺乏足够方法学细节以评估ML方法应用的研究也被排除。

**搜索方法**
文献搜索使用了三个数据库：Web of Science（WOS）、PubMed和IEEE Xplore。纳入的出版物为2010年1月至2024年10月期间发表的文献。搜索词和短语在所有数据库中保持一致，并根据每个数据库的语法进行了调整，重点关注标题、摘要和关键词。所有蚊媒疾病都被纳入研究范围，但仅纳入WHO认为最重要的疾病（1）。搜索字符串格式如下：
(“蚊媒疾病” OR 登革热 OR 寨卡热 OR 疟疾 OR “西尼罗河病毒” OR 基孔肯雅热 OR “日本脑炎” OR “黄热病” OR “淋巴丝虫病”) AND (监测) AND (人工智能 OR 机器学习)。

**研究选择**
初步搜索返回了613篇参考文献。通过Rayyan软件（30）进行了去重和研究选择。两位独立评审员分别筛选标题和摘要以确定相关文章，并独立评估全文文章的纳入资格并提取相关信息。在所有阶段，如有分歧通过讨论解决；如果无法达成共识，则咨询第三位评审员。图1展示了识别、筛选、纳入标准的研究流程图。

**数据收集**
使用Google Sheets（美国加利福尼亚州山景城）创建了一个数据提取电子表格，用于记录选定文章的相关信息，便于协同工作。表格包括文献信息（文章标题、作者、发表年份）、研究的病原体、研究国家和地区、数据集特征、数据收集日期、预测因子类型、考虑的“同一健康”组成部分以及使用的具体ML算法。还通过提取每项研究中使用的评估方法来评估这些方法的有效性，记录主要结果和发现的局限性。

**评估程序**
鉴于纳入研究在设计、数据来源和报告实践方面的异质性，无法采用完全标准化的偏倚风险评估方法。然而，为了确保方法学的严谨性，我们采用了受PROBAST框架（Prediction Model Risk Of Bias Assessment Tool）启发的结构化偏倚风险评估方法（31），并对其进行调整以适用于ML模型。
在评估中，我们重点关注与ML模型相关的三个关键领域：（1）数据质量，包括样本量、数据来源和处理缺失数据的方法；（2）模型开发，包括特征选择程序、模型规范和过拟合风险；（3）模型验证，包括验证策略的类型和使用方法（如交叉验证、保留集验证或外部验证）。
每项研究在这些领域均进行了定性评估，并根据偏倚风险被分类为低风险、中等风险或高风险。这种简化方法允许在考虑评估方法多样性的同时，对方法学局限性进行一致评估。研究的总体评分由任何单一领域中发现的最高风险决定；例如，如果在验证方面存在“高风险”，则整个研究被归类为“高风险”。

**结果**
本评价共纳入了81篇文章。主要特征见图2和表1。如图2(a)所示，2016年之前的增长较为缓慢，此后逐年增加，到2024年累计发表了81篇相关文章。

**图1. 按PRISMA指南进行的文献筛选流程图**

**数据收集**
使用Google Sheets创建了一个数据提取电子表格，用于记录选定文章的相关信息，便于协作。表格包括文献信息（文章标题、作者、发表年份）、研究的病原体、研究国家和地区、数据集特征、数据收集日期、预测因子类型、考虑的“同一健康”组成部分以及使用的具体ML算法。还通过提取每项研究中使用的评估方法来评估这些方法的有效性，记录主要结果和发现的局限性。

**评估程序**
由于纳入研究在设计、数据来源和报告实践方面的异质性，无法采用完全标准化的偏倚风险评估方法。然而，为了确保方法学的严谨性，我们采用了受PROBAST框架启发的结构化偏倚风险评估方法（31），并对其进行调整以适用于ML模型。
在评估中，我们重点关注与ML模型相关的三个关键领域：（1）数据质量，包括样本量、数据来源和处理缺失数据的方法；（2）模型开发，包括特征选择程序、模型规范和过拟合风险；（3）模型验证，包括验证策略的类型和使用方法（如交叉验证、保留集验证或外部验证）。
每项研究在这些领域均进行了定性评估，并根据偏倚风险被分类为低风险、中等风险或高风险。这种简化方法允许在考虑评估方法多样性的同时，对方法学局限性进行一致评估。研究的总体评分由任一领域中发现的最高风险决定；例如，如果在验证方面存在“高风险”，则整个研究被归类为“高风险”。

**总结**
本评价共纳入了81篇文章。主要特征见图2和表1。如图2(a)所示，2016年之前的增长较为缓慢，此后逐年增加，到2024年累计发表了81篇相关文章。研究特征概述、One Health数据整合、预测变量类型及所包含研究（n=81）中的验证策略

研究特征
- 研究数量：81
- 总研究百分比：100%

按收入水平划分的国家分类（数据来源）
- 高收入国家（HIC）：15（19%）
- 中等收入国家（MIC）：49（60%）
- 低收入国家（LIC）：22%
- 多环境设置（HIC+LMICS）：13（16%）
- 未报告国家的比例：22%

使用的One Health类别：
- 人类数据：71（88%）
- 动物数据：25（31%）
- 环境数据：6（8%）
- 完整One Health整合：15（19%）

用于建模的预测变量类型：
- 流行病学：68（84%）
- 气候学：6（77%）
- 地理学：4（49%）
- 人口统计学：3（46%）
- 昆虫学：2（30%）
- 社会经济：2（27%）
- 移动性：8（10%）
- 基于互联网的数据：6（7%）

模型验证：
- 交叉验证：43（53%）
- 时间交叉验证：13（16%）
- 保留验证：6（7%）
- 不明确/无验证：19（23%）
- 外部验证：0（0%）

标有(*)的研究特征表示同时使用了多个类别。

我们决定将机器学习在疾病监测中的多种应用分为四个大类：预测、实时监控、风险映射和媒介/宿主生态学。在文章中研究的疾病中，登革热占据了主导地位，其次是疟疾。相比之下，其他蚊媒疾病（MBD），如黄热病、淋巴丝虫病和基孔肯雅热，研究相对较少。尽管在搜索参数中包含了日本脑炎，但并未发现相关研究。相反，马亚罗病毒和乌苏图病毒出现在搜索结果中，尽管这些病毒并未被特别搜索。在某些情况下，作者没有针对特定病原体进行研究，导致疾病被归类为“蚊媒疾病”，尤其是在关注媒介或环境监测时。

对使用机器学习进行MBD监测的全球研究贡献的分析基于作者所属机构和数据集来源。对于各国研究贡献的统计，每个国家无论来自同一国家或机构的作者数量多少，都只计算一次。如图2(c)所示，美国、中国和英国是出现频率最高的国家。

此外，还分析了每个模型中使用的数据集来源，通过识别提供监测数据的国家来进行分析。只有使用原始数据集的文章被纳入考虑范围。在某些情况下，数据是在大陆或全球层面上报告的。由于难以将这些数据集细分为具体的国家来源，因此它们的贡献没有分配给个别国家。监测数据主要来自巴西、北美、中国、马来西亚、泰国和几个非洲国家（特别是尼日利亚和加纳）（图2.e）。

为了增强分析，根据世界银行的分类方法，将各国分为不同的收入组别。此外，大多数研究是在中等收入国家（LMIC）进行的（60%），其次是高收入国家（19%）和多环境设置研究（16%），这些研究是在具有不同分类的国家中进行的。

MBD监测中使用的机器学习模型、数据类型、指标和验证方法
传统上，机器学习分为三大主要范式：监督学习、无监督学习和强化学习（33）。监督学习涉及在标记数据上训练模型以执行预测任务。无监督方法则从未标记的数据中识别内在结构，而强化学习则通过顺序交互学习最优策略，同时最大化累积奖励信号（34）。本综述报告了60种机器学习算法的使用情况；大多数属于监督学习类别。在所有文章中，应用了250种算法，因为大多数研究比较和评估了同一任务的多种算法。这反映了该领域的常见做法：在同一数据集上比较多种算法的性能。相比之下，有些研究仅依赖一两种算法，通常是为了解决特定的研究目标。表2详细介绍了各种机器学习家族、它们的算法、数据要求及其用途。算法指的是用于分析数据的具体计算程序或模型。数据要求是指可靠模型训练和评估所需的最低数据集特征，包括足够的样本量、变量的完整性以及适合建模方法的复杂性。应用指的是算法所处的实际世界或研究背景，包括解决的问题类型、使用领域和预期结果。

表2. 综述记录中发现的机器学习算法及其特征和用途
| 类别/家族 | 算法 | 典型用途 | 数据要求 |
| --- | --- | --- | --- |
| 单个基于树的模型 | DT, CART, C5.0, J48, DTR, RT, LMT | 可解释的分类和回归方法 | 低 |
| 集成方法 | RF, RFR, QRF; GB, GBM, GBT, GBDT, GBR, GENBM; XGBoost, CatBoost, AdaBoost, BRT | 分类、回归、稳健预测 | 中等 |
| 支持向量机与核方法 | SVM, SVR, KRR, RBF树 | 高维空间中的分类和回归 | 中等 |
| 线性与正则化回归模型 | LR, MLR, LASSO, ElasticNet, GLR, glmnet, SDLR, PLSR, PLMR, PR, MARS, RNR | 回归、特征选择 | 低-中等 |
| 判别分析 | LDA | 分类 | 低 |
| 聚类与降维（无监督） | K-Medoids | 结构检测、特征降维 | 中等 |
| 基于实例的方法 | K-NN | 使用相似性/距离进行分类/回归 | 低-中等 |
| 朴素贝叶斯与概率模型 | BN, NB, NBIR, NBM | 快速概率分类，常用于文本或分类数据 | 低 |
| 浅层神经网络 | ANN, MLP, NN, BPNN; PNNS | 简单模式识别、图像分析、时间序列 | 高 |
| 深层神经网络 | CNN（包括VGG16-19, ResNet50, GoogleNET, AlexNet） | 图像/视频、复杂特征提取 | 非常高 |
| 专门化神经网络 | ANFIS | 可解释的混合模型、不平衡数据 | 中等-高 |
| 时间序列 | ARIMA, SARIMA | 统计预测 | 中等 |
| 其他/专门方法 | MaXEnt, JRIP, PLS-DA, GP, SRE, GAM | 规则学习、时间序列、生态位建模 | 多样 |

表3列出了最常用的五种监测算法。随机森林（RF）使用频率最高，其次是支持向量机（SVM）。集成方法XGBoost排名第三。前两种算法在使用相同数据集与其他算法进行测试时表现最佳。

表3. MBD监测中使用的五种最流行的机器学习算法及其在文章中的使用次数
| 排名 | 算法 | 使用文章数量 |
| --- | --- | --- |
| 1 | 随机森林（RF） | 38 |
| 2 | 支持向量机（SVM） | 23 |
| 3 | XGBoost | 14 |
| 4 | 逻辑回归（LR） | 13 |
| 5 | 决策树（DT） | 11 |

虽然识别最常用的机器学习算法可以了解MBD研究的当前趋势，但理解这些模型的评估方法同样重要。所有方法都必须进行评估，在机器学习中，评估指标决定了模型在现实世界应用中的有效性。这些指标衡量模型提供正确结果的能力，并表明其性能，同时确保透明度和可重复性。这种方法还允许使用相同数据集比较不同的机器学习算法，从而指导为特定任务选择最佳模型。表4总结了所选文章中用于评估模型的指标，包括其定义、公式、用法和值的解释。

表4. 用于衡量模型性能的评估指标（36）
| 指标 | 定义 | 公式 | 最佳使用场景 | 解释 |
| --- | --- | --- | --- |
| 准确率 | Proportion of total correct predictions | 类别平衡时更接近1越好 | 更接近1表示更好的预测准确性 |
| 精确度或PPV（阳性预测值） | Of all predicted positives, how many are truly positive | 更接近1表示更好的阳性预测准确性 |
| 召回率（敏感性） | Of all actual positives, how many were correctly identified | 更接近1表示更好的阳性识别率 |
| 特异性 | Of all actual negatives, how many were correctly identified | 更接近1表示更好的阴性识别率 |
| F1分数 | Harmonic mean of precision and recall | 对于类别不平衡的数据集，同时考虑精确度和召回率 |
| AUC-ROC | Area under ROC curve: overall ability to distinguish between classes | 曲线下面积：整体区分类别的能力 |
| Kappa（Cohen’s kappa） | Agreement between predicted and observed classifications, adjusted for agreement occurring by chance | 当类别不平衡或偶然一致性是一个问题时，评估分类性能 |
| R2（R-Squared） | Proportion of variance explained by the model | 更接近1表示模型解释的方差比例更好 |
| RMSE | Root mean squared error | 惩罚较大误差，更接近0表示更好的模型拟合度 |
| MAE | Mean absolute error | 对异常值具有鲁棒性，易于解释 |
| MAPE | Mean absolute percentage error | 比较百分比误差，更接近0表示更好的模型精度 |

模型验证是机器学习可靠性的关键组成部分。交叉验证是最常用的验证方法（53%），其次是时间交叉验证（16%）和保留验证（7%）。值得注意的是，23%的研究报告了不明确的验证策略或没有验证方法。在81项选定的研究中，没有一项进行了外部验证（表1）。

偏差风险评估显示，所包含研究在方法学上存在局限性（图3，补充材料2）。总体而言，大多数研究被归类为具有中等偏差风险，主要是由于模型开发和验证方法的限制。

在数据质量方面，大多数研究的风险被评估为低到中等，反映了使用了定义明确的数据来源，尽管一些研究使用了有限的样本量或报告不完整。相比之下，模型开发经常与中等偏差风险相关，通常是由于特征选择信息不足和对过拟合的讨论有限。在验证方面，风险最高。许多研究依赖于内部验证方法（如交叉验证（53%）或保留方法（7%），而23%的研究没有报告任何验证策略。值得注意的是，没有研究进行外部验证，这突显了模型泛化能力的一个主要限制。

使用的预测变量及其与One Health概念的联系
所审查模型中使用的主要预测变量根据数据的性质和来源被分为八类，代表了疾病动态和数据来源的不同维度（表5）。

表5. 选定的文章中发现的预测变量类型及其定义和数据示例
| 预测变量类型 | 定义 | 示例 |
| --- | --- | --- |
| 气候学变量 | 与天气和气象条件相关的变量。温度（最高、最低、平均）、湿度、风速、降水量、日间/夜间地表温度、海表温度、土壤湿度 |
| 人口统计学变量 | 描述人类人口结构和密度的特征。性别、年龄、城市/农村居住、人口密度、总人口 |
| 昆虫学变量 | 与媒介数量、分布或感染率相关的数据。媒介生物多样性、媒介数量、陷阱数量、捕捉次数、媒介感染率 |
| 流行病学变量 | 关于疾病发生和动态的信息。病例数、发病率、患病率和死亡率、症状和体征 |
| 地理学变量 | 来自地图或遥感的空间或环境特征。土地利用、归一化植被指数（NDVI）、增强植被指数（EVI）、生态系统类型、海拔、距离水体的距离 |
| 基于互联网的变量 | 从搜索引擎或社交媒体等数字平台提取的数据。Twitter（现称为X）数据、Google趋势、搜索查询数据 |
| 移动性变量 | 人类或动物在区域间的移动指标。移民和出境数据、陆地表面旅行时间、国内和海外游客数量、总乘客流量 |
| 社会经济变量 | 描述社会和经济条件的变量。人均收入、国内生产总值、家庭财富、文盲率、家庭规模、住房类型和条件、电力和供水系统的可用性等 |
| 其他变量 | 不属于前述预测变量类型的变量。宿主或储存库的生物多样性和生态学、宿主-储存库的适应性、知识、态度和实践 |

本综述探讨了如何根据One Health框架将MBD监测模型的数据整合到人类、动物和环境领域。图4显示了预测变量在One Health各组成部分之间的流动情况，显示出对人类和环境数据（如流行病学、气候学和人口统计学变量）的强烈依赖，而与动物领域的联系仍然有限。这种模式即使在我们将昆虫学数据归类为动物领域的一部分时仍然存在，将媒介视为对生态因素有反应的动物节肢动物。下载：下载高分辨率图像（562KB）下载：下载全尺寸图像图4. One Health领域与机器学习模型中使用的预测因子之间的关系。左侧是One Health领域，右侧列出了所选文章中使用的预测因子类型。彩色条带表示这两者之间的联系。在所选文章中出现次数少于10次的其他预测因子包括：生物多样性数据、人类流动性数据、互联网搜索数据、社交媒体数据以及临床和诊断数据。如表1和图4所示，在大多数监测研究中，88%的研究重点关注人类健康数据，特别是流行病学信息（84%），如病例发生率和死亡率，以及人口统计（46%）和社会经济（27%）指标来预测疾病。环境数据被用来训练80%的模型，其中包括气候变量（77%），如降雨量、最高和最低温度以及湿度，还有关于各种土地利用和生态系统的地理信息（49%）。相比之下，One Health的动物组成部分明显被低估了，只有31%的研究提到了它的使用。包含One Health所有组成部分的模型仅在15项研究中被识别出来（19%）。

在81篇选定的文章中，发现了机器学习算法在蚊媒疾病监测中的不同应用。其中一些模型被用于开发实时监测系统、预测疾病爆发和估计病例数量、识别疾病传播的关键预测因子、测试遥感和社交媒体数据源用于疾病预测，或者通过使用其他算法或集成模型来提高现有模型的准确性。这些组别在下面的小节中有描述，并且选定的文章摘要可以在补充材料1中找到。

在公共卫生中，预测是指基于历史和环境数据来预测或估计未来趋势，例如潜在的爆发或发病率（37）。在选定的文章中测试的最受欢迎的模型是传统的机器学习算法，如随机森林（RF）、XGBoost、支持向量机（SVM）和逻辑回归（LR），以及时间序列模型——如ARIMA和SARIMA。大多数研究的主要关注点是疟疾和登革热，这些模型主要应用气候和流行病学病例数据来训练。预测可以在地方、国家、区域和全球层面进行。例如，Benedum等人（38）比较了机器学习、回归和时间序列模型，以提前四周预测伊基托斯、圣胡安和新加坡的每周登革热病例数，并提前十二周预测登革热爆发。他们的结果显示，机器学习模型的表现优于传统方法，RF的误差分别比回归和时间序列模型低21%和33%。同样，其他变量，如海表温度，也被用作南非林波波省疟疾发病率的长期预测因子（39）。在印度洋和太平洋的海表温度模式上训练的机器学习分类器能够以80%的准确率预测长达九个月的时间窗口，超过了当地天气信息的预测能力。

在美国的国家和次国家层面，Keyel等人（40）分析了66个与气候相关的变量——主要与温度、降水量和土壤湿度有关——以及环境和监测信息，使用随机森林（RF）来识别最重要的预测因子。他们的模型显著提高了西尼罗河病毒（WNV）爆发的预测准确性，尤其是在使用水文数据（如径流和降水量）进行训练时，这些数据对像库蚊这样的水生媒介至关重要。在圣保罗，Baquero等人（41）使用广义加性模型（GAMs）结合气象变量和时空平滑函数来预测登革热病例。该模型能够准确预测大规模疫情，其中温度、相对湿度和累积降水量是关键预测因子。该模型适用于实际应用，因为它可以在几分钟内更新和训练。

扩大到更大规模的预测，Farooq等人（42）使用XGBoost来预测欧洲的西尼罗河病毒（WNV）爆发，并解释其生态驱动因素，确定了温度和减少的水资源可用性是关键预测因子。

实时监测的目标是利用动态数据流和近乎实时的监测数据收集、分析和报告来检测正在进行的疫情或疾病流行率的变化。这可以通过多种方式实现，包括社交媒体和基于网络的分析、传感器数据或自动化监测系统。本节中的机器学习算法多种多样，包括逻辑回归（LR）、支持向量机（SVM）、随机森林（RF）、LASSO、LDA和XGBoost，主要预测因子是基于互联网的、昆虫学的和流行病学的。社交媒体允许人们分享关于他们日常生活的更新，包括与健康相关的主题。这些信息可以被监控、收集、分析并整合到监测系统中（43）。关于登革热症状和治疗的谷歌搜索查询能够准确预测新加坡和曼谷的登革热发病率，在时间和准确性上都超过了传统的监测系统（44）。逻辑回归在预测发病期方面表现良好，而支持向量机在发病率较高时效果更好。搜索中使用的特定术语与登革热发病率相关，例如在中国，它们预测了疫情的高峰并能够追踪多个省份的登革热动态（45）。同样，应用于Twitter数据的机器学习模型（现在称为X）使用随机森林（RF）和支持向量机（SVM）算法实现了登革热和流感的季节性爆发的早期检测（46）。Nsoesie等人（47）强调了Twitter在空间和时间监测中的价值，注意到推文量与巴西各州确认的登革热病例之间存在强烈相关性。总体而言，这些研究表明，数字和环境数据源结合机器学习可以加强蚊媒疾病的监测和应对策略。社交媒体在疾病监测中的有效性在很大程度上取决于社会经济因素，如教育水平、收入以及农村和城市地区之间的互联网接入差异；因此，某些地区的信息可能不足以创建准确的模型。这些警报可以用来开发决策支持工具，并向公众传达疾病信息。Javaid等人（48）开发了一个基于Web GIS的仪表板，将实时流行病学数据与巴基斯坦的媒介地图和环境信息结合起来。他们使用随机森林（RF）处理了59,662条记录，其中包括流行病学、气候学和社会经济数据，实现了93.7%的疾病预测准确性。他们的平台支持区级监测、地理空间病例可视化和疟疾、登革热和利什曼病的风险映射。同样，Parikh等人（49）创建了一个基于Web的工具，结合机器学习和视觉分析来检测传染病的重新出现，包括登革热和黄热病。该工具旨在最大化召回率，尽管牺牲了一些精度，尤其是在登革热方面，产生了大量假阳性结果。尽管存在这些限制，该工具仍能分析时间趋势并整合多个变量，让用户了解疫情动态并突出导致疫情的原因。

风险映射是指对某些地理区域内疾病发生和媒介存在的空间和生态建模及可视化，帮助公共卫生人员和政策制定者识别需要针对性干预的高风险区域（50）。常用方法包括MaxEnt、随机森林（RF）、支持向量机（SVM）和集成模型，通常与地理统计和地理信息系统（GIS）结合使用来分析分布模式。主要研究的疾病包括疟疾、登革热和寨卡病毒，以及淋巴丝虫病和新兴病毒如马亚罗病毒和乌苏图病毒。Baak-Baak等人（51）使用k-medoids聚类和死亡与发病率数据来按登革热风险水平对墨西哥各州进行分类，并识别出13年期间的持续登革热热点地区，强调了在高疾病负担州进行本地干预的必要性。同样在墨西哥，Dong等人（52）绘制了登革热、基孔肯雅热和寨卡病毒的时空动态图，揭示了高发病率区域中的疾病重叠。他们发现XGBoost在所有病毒方面的精度最高，社会经济属性对疾病流行的影响大于气候属性。在更细的尺度上，Kabaria等人（53）展示了如何使用高分辨率卫星图像和疟疾调查来绘制城市内的疟疾风险。疟疾感染在城市中是异质性的，高风险与靠近密集植被、水域和沼泽地区的位置有关。社会和行为数据也可以丰富风险映射工作，Rahman等人（54）使用多种机器学习模型来绘制和预测泰国128个家庭的埃及伊蚊（Aedes aegypti）数量。他们使用了昆虫学、社会经济和景观数据，以及与登革热和气候变化相关的知识和实践。当结合所有这些输入时，随机森林（RF）实现了最高的预测准确性，突出了周围环境和采取预防性登革热措施的重要性。

在淋巴丝虫病的背景下，Mayfield等人（55）结合机器学习和地理统计来识别萨摩亚的残留感染集群，显著提高了监测和采样效率。在预测高风险位置与低风险位置的家庭中识别出感染个体的几率比为10.2（95%置信区间4.2–22.8）。在尼日利亚，使用分位数回归森林模型结合抗原血症和微丝蚴血症数据以及一系列连续的网格化环境和气候数据来预测淋巴丝虫病的分布和流行率。结果地图显示了异质性的分布，估计抗原血症的感染个体平均数量为870万，微丝蚴血症的感染个体平均数量为330万（56）。较少见的虫媒病毒也进行了建模。Lorenz等人（57）应用MaxEnt建模来预测南美洲的潜在马亚罗病毒传播区域，确定了生物群落类型、降雨量和海拔作为主要风险驱动因素，同时观察到地理变化以及病毒变得更加“城市化”。最后，Jiang等人（58）使用BPNN、GBM和RF模型识别了四个寨卡病毒的高风险区域：北美东南部、南美东部和亚洲东部。BPNN模型展示了更高的预测准确性和更低的不确定性。

风险映射也可以应用于非地方性环境中，例如使用机器学习和XGBoost结合航空交通数据来预测登革热传入欧洲（59）。在这项研究中，最重要的变量是来源国的发病率、人口规模和航空乘客数量。在中国也采用了类似的方法，使用XGBoost和RF模型来建模疟疾的传入风险，利用输入的疟疾病例记录和疟疾来源国的社会经济和连接特征（60）。这突显了这些模型在边境监测和控制中的实用性。

关于蚊媒疾病的媒介/宿主生态学的机器学习研究试图理解蚊子媒介、病原体及其宿主的生物学和生态动态，这对于预测疾病出现和传播至关重要（61）。多项研究应用了机器学习和生态建模来定义媒介栖息地、物种分布和传播周期。主要使用的机器学习算法是XBoost和RF。一些关于媒介和宿主生态学的研究目标也与风险映射和预测重叠。Candeloro等人（62）开发了一个XGBoost模型，结合环境数据、鸟类和马宿主的动物病例信息以及媒介数据来预测意大利的西尼罗河病毒（WNV）传播。他们的模型提前两周以84%的准确性预测了WNV病毒的时空传播，并按感染状态对省份进行了分类。同样，Beeman等人（63）使用集成生态位模型来估计佛罗里达州西尼罗河病毒（WNV）的发生概率，利用遥感和哨兵鸡监测数据。集成模型展示了出色的预测能力，发现哨兵鸡舍的位置能够准确识别WNV暴露地点。Judson等人（64）结合生态位建模和历史疫情数据来研究加纳的黄热病传播，区分了森林、稀树草原和城市循环。植被、土地覆盖、气候因素和非人类灵长类的存在被用作训练模型的输入，因为它们是已知的黄热病风险因素。其他研究更直接关注媒介的分布和生态学。Alexander等人（65）使用随机森林（RF）研究了迈阿密埃及伊蚊（Aedes aegypti）数量的微地理决定因素，发现土地利用和城市社会人口特征对受寨卡影响的社区的蚊子动态有不同的影响。在尼日利亚，Eneanya等人（66）应用了GBM和RF模型来绘制淋巴丝虫病的环境适宜性地图，并估计了处于风险中的种群数量。他们发现媒介栖息地适宜性存在空间异质性，这种异质性受地形、气候和植被的影响，约有1.1亿人处于风险之中。Ding等人（67）专注于全球媒介分布，使用SVM、RF和GBM模型来模拟埃及伊蚊和白纹伊蚊的全球分布。RF模型表现最佳，揭示了支持这两种蚊子共存及其全球范围扩张的重要地理和气候因素。通过机器学习（ML）也可以预测媒介的分布和扩张。例如，Georgiades等人（68）利用气候和环境变量、全球媒介监测数据以及XGBoost和RF分类器的集成来预测白纹伊蚊未来的栖息地适宜性。他们预测到到2100年，白纹伊蚊的分布将显著向极地扩展，尤其是在高排放气候情景下，适合其生存的月份也会增加。

在过去十年中，将机器学习应用于媒介传播疾病（MBD）监测的应用稳步增加。使用ML进行监测可以帮助提前预测疾病，支持跨各种数据流的实时疾病监测，并提供信息以识别和划定感染MBD风险较高的区域和人群。所有这些功能都支持决策制定、资源分配，并显著改善高风险人群的健康状况。关于ML和登革热监测的研究占据主导地位，其次是疟疾相关研究，这突显了这些疾病的全球负担及其对公共卫生的重要性（1, 6）。相比之下，其他新兴MBD的研究相对较少，这可能与资金减少、某些地区疾病发病率较低导致研究优先级改变、缺乏历史数据或监测系统不完善有关（69）。同时，监测工作依赖于长期的野外监测计划、昆虫学数据或国家公共卫生报告系统——这些资源在疟疾和登革热方面的发展通常比其他MBD更完善（70, 71, 72）。然而，这些方法并不完美，因为存在一些限制，比如大量无症状或未报告的感染病例、共感染情况以及复杂的血清型或病毒相互作用（73），这些因素使得获取特定疾病的训练数据变得具有挑战性，尤其是在新出现病毒的情况下。

高收入国家和低收入及中等收入国家都在积极参与这些技术的研究，通过提供信息、样本或方法来解决相关问题。这种地理分布可能反映了研究项目主要由高收入国家资助的趋势，据报道，美国单独支持了大约37%的全球疟疾研究，英国支持了8%（6）。在虫媒病毒研究中也观察到了类似的趋势（74）。这种分布也可能归因于美国、中国和英国等国家在人工智能（AI）研究上的大量投资，这些国家被认为是AI领域的强国，引领着全球AI的使用、投资、基础设施和人才发展（75）。巴西、马来西亚和尼日利亚等国家的贡献不仅归因于它们在科学和技术上的投资增加，还归因于当地MBD的高发病率和负担（76, 77），这些因素影响了研究重点并促进了国际合作。

在所审查的算法中，我们注意到有多种算法可以集成到MBD监测工具包中。需要注意的是，最佳性能的ML分类器会因数据集的不同而有所差异。在所研究的研究中，RF算法使用频率最高，这可能是因为它能够处理复杂的高维数据，并且即使在数据量有限或不平衡的情况下也能产生可靠的结果（78, 79）。其次是SVM算法，它在分类任务中表现优异；XGBoost算法则适用于处理时空和多变量环境数据集，并且始终名列前茅。

我们还注意到，虽然许多ML模型报告了良好的性能，但不同研究之间评估方法和指标的差异很大，且应用不一致。为了评估这些模型，强调了使用特异性和ROC曲线下面积（AUC-ROC）来减少错误警报并提高地理或时间预测的准确性。回归任务（如预测蚊子数量或疾病发病率）通常使用RMSE或R2等指标来评估模型预测与观测值的一致性。评估指标的多样性限制了直接比较，并使得从现有证据中综合模型性能变得复杂。未来，需要创建标准化的报告框架和评估标准，以便比较模型性能并提高ML在MBD监测中的可重复性、可解释性和整体质量。

因此，主要挑战不仅仅是追求更高的准确性，而是追求可靠的智能。像神经网络和一些集成方法这样的复杂算法的“黑箱”特性仍然是其在公共卫生领域应用的主要障碍，因为需要理解这些模型是如何得出特定预测的，以防止错误和偏见，同时确保质量和可信度（80）。这推动了可解释AI（XAI）的发展，其目标是使模型决策透明化（81）。最近提出了多种方法来帮助用户解释复杂模型的预测结果，例如SHAP和LIME。LIME通过构建简单的局部替代模型来显示哪些特征影响了单个预测，而SHAP则利用博弈论中的Shapley值来估计每个变量的贡献（52, 59）。对于MBD监测而言，最有效的路径往往不是使用最复杂的模型，而是使用最易解释且资源效率最高的模型，以便在最需要的地方可靠地部署。

深度学习（DL）在疾病监测中的使用也在不断增加。虽然DL可以从大型、多样化的数据集中更好地捕捉复杂模式（82），但ML模型在这些任务中仍然非常有效，并且所需的计算资源和设备较少（83）。因此，开发能够使用本地数据且计算需求低的精确模型至关重要。选择ML还是DL算法最终应取决于监测目标、数据类型和可用资源（84）。在这篇综述中，我们主要关注ML模型，同时认识到，最有可能从这些技术中受益的地区往往缺乏足够的基础设施和受过培训的医疗专业人员来解释和运用模型输出。

在监测中应用AI及其在实地中的应用仍然有限，因为数据质量、治理问题以及新技能的需求阻碍了AI在医疗领域的顺利采用（85）。全球卫生领域的机器学习模型通常使用片段化或不完整的监测数据开发，这可能导致模型系统性地错误分类或低估这些群体的健康状况（86）。此外，ML模型的开发往往涉及在低收入和中等收入国家生成的数据，但在全球北方的机构进行分析和部署，而这些地方的能力建设和参与式设计相对不足（87）。这引发了关于数据主权和健康数据公平使用的担忧（88）。解决这些问题对于确保基于ML的监测工具既有效又符合伦理标准至关重要。

将这些技术应用于实际场景对于展示其实际价值至关重要。目前，应优先进行模型验证，并在不同地点使用更大的数据集进行模型改进和训练，以提高准确性。我们的分析显示，大多数研究依赖于内部验证技术，如标准的K折交叉验证或保留集分割，而没有进行外部验证。在传染病预测的背景下，由于疾病在时间和空间上都有结构，标准交叉验证可能导致信息从训练阶段泄露到测试阶段（89）。这种泄露可能会产生虚假的相关性，高容量算法（如随机森林和XGBoost）很容易利用这些相关性。因此，模型在验证期间可能看起来非常准确，但在新数据上却无法泛化，导致系统性过拟合。这可能会给人一种机器学习能力过于乐观的印象，掩盖了这些模型在现实世界监测场景中的脆弱性。大多数研究者强调了展示ML模型在特定地理环境之外也有效的必要性，因为寄生虫、媒介、宿主及其环境具有多样的特征和相互作用（62, 63, 90, 91）。未来的研究应优先考虑使用未见数据的外部和前瞻性时间验证。

另一个重要问题是数据质量。多篇文章指出，某些地区缺乏与病例发生和媒介相关的数据，其他文章则面临缺失值、低空间分辨率和时间序列不一致的问题（56, 60, 68, 92, 93）。在新兴虫媒病毒（如马亚罗病毒、寨卡病毒、基孔肯雅病毒和乌苏图病毒）的情况下，这一问题更为明显（49, 57, 94, 95）。此外，无症状感染的漏报也可能对预测和早期预警模型产生重大影响（49, 51）。我们必须记住，糟糕的输入数据会降低模型的性能和可解释性，从而增加偏见和过拟合或欠拟合的风险。确保数据质量的重要步骤应从规划和收集开始，然后经过存储、处理和编译，所有这些过程都应遵循特定的质量控制和评估标准（96）。

我们在审查中发现，性能高估的另一个原因是对空间聚合数据的依赖。大多数模型使用按大区域（如市镇或地区）分组的数据，并结合气象和环境预测因子。虽然这种方法可以减少数据噪声并简化模型训练，但它引入了生态偏差，即错误地假设区域级别的相关性适用于个体级别或微观地点的风险（97）。由于温度对蚊子特征的影响在不同微气候下差异很大，粗略的空间聚合可能会使局部风险高估多达40%（97）。此外，模型性能可能更多地依赖于行政边界而非真实的流行病学动态（98）。基于ML的工具应应用于公共卫生机构，以便将模型输出转化为快速的媒介控制措施和行动计划，以支持疾病管理（99）。这些变化带来了额外的障碍，因为政府必须积极参与制定国家和国际框架，以支持ML工具在疾病监测系统中的监管批准、整合和评估。投资数据质量、治理、透明度、评估和审计调查对于有效整合AI到MBD监测中是必要的。学术界、工业界和公共卫生机构之间的合作可以推动这些创新，同时解决伦理和隐私问题，最终改善公共卫生运作。

AI和ML的人文方面不容忽视。人类专业知识对于开发模型、验证结果、识别潜在错误以及解释发现以支持决策至关重要（100）。AI应被视为辅助而非替代人类专业知识。应优先培训医疗人员，以便更快地从传统监测过渡到更多由AI驱动的技术。使用AI进行蚊子监测还需要跨学科团队的合作，结合病原体和媒介生物学、AI模型开发、流行病学和数据科学方面的专业知识（101）。在包括动物、人类和环境维度的综合方法中，我们主要选择了影响人类的疾病，并从WHO列表中选择模型，这可能影响了在模型开发中使用与动物健康关系较小的预测因子的决策。在我们的分类中，当分析媒介的出现与生态驱动因素相关时，媒介被视为动物领域的组成部分；当分析其生物学、行为或生态学信息时，则被视为环境领域的组成部分。我们的发现强调了ML模型中使用与动物相关的预测因子的不平衡，尽管动物在许多传播循环中扮演着关键角色，如作为储存库、放大宿主或死端宿主（102, 103）。当使用与动物相关的变量时，通常涉及昆虫学数据，在少数情况下还包括物种和宿主生物多样性指数。这种代表性不足可能导致通过哨兵物种或媒介/野生动物监测错失早期检测的机会，并限制了对病原体循环和传播动态的理解。将生物多样性指标、指示物种、土地利用变化、环境驱动因素以及生态学、进化和社会生态系统方法结合起来，对于预防某些人畜共患病病原体的爆发和再次出现至关重要。为了使媒介传播疾病的监测真正有效，机器学习（ML）模型必须整合来自人类、动物（包括媒介）和环境的多模态数据，同时确保数据的可持续性和负责任的处理。构建更加综合的多部门数据集可以提高这些工具的预测能力。此外，还可以将其他数据源整合到媒介传播疾病（MBD）监测中，例如来自健康追踪设备、移动应用程序和社交媒体的数据，以监测人群健康状况的变化，并据此提醒政策制定者（104）。鉴于人为气候变化带来的威胁、传播模式的变化以及MBD的季节性流行病学特征的变化，世界需要新的工具来帮助疾病预测和控制。在不断变化的流行病学环境中，机器学习在加强监测能力方面变得越来越重要，为MBD的早期预警系统提供了支持。

**结论**
机器学习在支持媒介传播疾病监测方面显示出巨大潜力，特别是在资源匮乏的环境中，其应用将在未来几年继续增长。随着准确性的提高、效率的提升以及处理多种数据类型的能力增强，机器学习可以帮助进行MBD监测并为公共卫生决策提供依据。然而，这些工具的成功取决于本地数据的质量和可用性、跨学科合作以及模型的验证。未来的工作应重点关注：1）在多样化、资源匮乏的环境中对机器学习模型进行前瞻性验证；2）开发标准化、多部门（“同一健康”）数据存储库；3）在实际情况中应用机器学习模型。

**作者贡献声明**
Benjamin Roche：撰写、审稿与编辑、监督、概念化。
Juan Vicente Bogado Machuca：撰写、审稿与编辑、调查、数据管理。
Mariana Geffroy：撰写、审稿与编辑、初稿撰写、可视化、数据分析、数据管理、概念化。
Fernando Esponda：初稿撰写。
Gerardo Suzán：撰写、审稿与编辑。

**未引用的参考文献**
105.; 106.; 107.; 108.; 109.; 110.; 111.; 112.; 113.; 114.; 115.; 116.; 117.; 118.; 119.; 120.; 121.; 122.; 123.; 124.; 125.; 126.; 127.; 128.; 129.; 130.; 131.; 132.; 133.; 134.; 135.; 136.; 137.; 138.; 139.; 140.; 141.; 142.; 143.; 144.; 145.; 146.; 147.; 148.; 149.; 150.; 151.

**利益声明**
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文所报告的工作。

**关于手稿准备过程中生成式人工智能和人工智能辅助技术的声明**
在准备这项工作时，MG和JVBM使用了RAYYAN软件来辅助系统审查，包括去重和文章选择等任务。使用该工具后，作者根据需要对内容进行了审查和编辑，并对发表文章的内容负全责。

热点排行