综述：关于机器学习方法在牛结核病检测中的系统评价

《Research in Veterinary Science》：A systematic review of machine learning approaches to bovine tuberculosis in cattle

【字体：大中小】 时间：2026年05月02日 来源：Research in Veterinary Science 1.8

编辑推荐：

　　卡茨珀·博罗迪尤克（Kacper Borodziuk）|阿黛尔·H·马歇尔（Adele H. Marshall）|玛丽亚·J·H·奥哈根（Maria J.H. O’Hagan）|亚历山大·诺瓦科维奇（Aleksandar Novakovic）|艾米丽·A·库尔西耶（Emily A

　　卡茨珀·博罗迪尤克（Kacper Borodziuk）|阿黛尔·H·马歇尔（Adele H. Marshall）|玛丽亚·J·H·奥哈根（Maria J.H. O’Hagan）|亚历山大·诺瓦科维奇（Aleksandar Novakovic）|艾米丽·A·库尔西耶（Emily A. Courcier）
贝尔法斯特女王大学数学与物理学院，大学路（University Rd），贝尔法斯特BT7 1NN，英国

**摘要**
牛结核病（bTB）是一种慢性人畜共患病，由牛分枝杆菌（Mycobacterium bovis）引起。尽管多年来一直致力于根除该疾病，但其在全球范围内仍然十分普遍。机器学习（ML）作为一种能够自动化发现数据模式的技术，已在流行病学领域得到广泛应用；近年来，它也被尝试用于牛结核病的检测和诊断，但效果参差不齐。本系统评价旨在梳理现有发表的关于利用ML处理牛结核病数据集的研究，这些数据集直接或间接关注受感染动物或牛群的身份识别。通过制定搜索策略，我们收集并评估了符合条件的出版物及其方法论。最终确定了19篇符合标准的研究论文，表明该领域仍处于早期发展阶段。最常用的模型是随机森林（Random Forests）和逻辑回归（Logistic Regression）。其中52%的研究采用了多种算法。本评价发现的一个主要问题是报告的方法论缺乏透明度。我们还建议应将模型的可解释性与模型性能同等重视，因为在19篇论文中只有2篇提到了模型可解释性的重要性。本研究为理解ML在牛结核病控制及更广泛的兽医流行病学中的应用奠定了基础，并强调了制定特定报告指南的必要性，以充分发挥这些方法的潜力。

**1. 引言**
牛结核病（bTB）是一种由牛分枝杆菌（Mycobacterium bovis）引起的细菌性人畜共患病（世界动物卫生组织，WOAH，2023a），几乎影响所有哺乳动物，尤其是牛（Kwaghe等人，2015）。该病主要影响牛的呼吸系统，主要通过吸入牛分枝杆菌传播（WOAH，2023a）。最常见的传播途径是牛与牛之间的直接接触，但尿液、粪便、脓液等也可能传播（WOAH，2023a；WOAH，2023b），空气传播或飞沫传播也是可能的（Gannon等人，2007）。受污染的食物和水源以及与野生动物（如欧亚獾（Meles meles）（Vázquez等人，2021；WOAH，2023a）、刷尾负鼠（Trichosurus vulpecula）（Nugent等人，2015）或梅花鹿（Cervus nippon）（Kelly等人，2021）的直接或间接接触也可能导致传播。

牛结核病对公共卫生和经济具有深远影响。据估计，全球有超过5000万头牛感染了这种病毒，每年造成的损失约为30亿美元（Kwaghe等人，2015）。即使发现并实施了控制措施，该病仍会对农业和贸易产生负面影响。扑杀受感染的牛会给农民和政府带来巨大的经济损失，每年损失可达数千万至数亿美元。此外，清除受感染动物还会破坏多年来积累的遗传改良成果，对乳制品和肉类生产造成长期影响（Kwaghe等人，2015；WOAH，2023a）。虽然高收入国家的牲畜群体中牛结核病已基本被根除，但英国（UK）和爱尔兰共和国（ROI）等国仍在努力消灭这一疾病。2024年4月至2025年3月期间，英格兰的发病率是每100个牛群年有7.6例新病例（DEFRA，2025）；威尔士的发病率为7.1%，而苏格兰的发病率则保持在0.6%（DEFRA，2025）；北爱尔兰在2025年6月的发病率为10.80%（DAERA，2025a）。

该病的主要特征是在肺组织、淋巴结和其他器官中形成肉芽肿性病变或结核结节（WOAH，2023a）。由于牛结核病的潜伏期较长，没有专门的检测程序，诊断起来较为困难（Kwaghe等人，2015）。欧盟对牛结核病的官方控制措施依据《动物卫生法》（欧盟法规2016/429）实施。相关机构通过强制性检测所有符合条件的牛只进行生前监测，通过屠宰场尸体检查进行死后监测，对高风险牛群进行额外检测，并扑杀检测呈阳性的动物。根据世界动物卫生组织（WOAH）的描述，标准的生前检测方法是结核菌素皮肤试验（CITT，Comparative Intradermal Tuberculin Test），其灵敏度和特异性在北爱尔兰分别为88.61%至90.56%和99.8%至99.99%（O’Hagan等人，2019）。干扰素-γ（INF-γ）血液检测是另一种生前检测方法，常与CITT结合使用，以提高已知或反复感染牛群中的牛结核病检出率，尤其是在英国和爱尔兰共和国（WOAH，2023a）疫情暴发期间。INF-γ检测的灵敏度约为90%，特异性为96.6%（de la Rua-Domenech等人，2006）。使用血清和批量牛奶样本的血清学检测方法也得到了世界动物卫生组织的认可（WOAH，2023b）。这些检测方法可用于长期感染牛群（McCallan等人，2021）或南美骆驼科动物（Infantes-Lorenzo等人，2018）的辅助诊断。检测呈阳性的牛会被扑杀，并检查其肉芽肿性病变，这些病变通常位于淋巴结、肺部、胸腔内壁和腹部器官，随后送至实验室进行培养和组织学检测（DAERA，2025b；de la Rua-Domenech等人，2006；McCallan等人，2021；Vera-Salmoral等人，2023）。北爱尔兰的死后检测灵敏度估计为53.65%至53.79%，特异性估计为99.66%至99.86%（O’Hagan等人，2019）。

机器学习（ML）是人工智能（AI）的一个分支，研究并应用算法和技术来识别数据中的模式，从而加深理解并做出预测。自诞生以来，ML已成功应用于多种科学问题（Wiens和Shenoy，2017）。ML模型的目标是在数据中寻找模式，并基于这些模式建立通用假设（训练阶段），然后将这些假设应用于未见数据（测试和验证阶段）。当达到可接受的准确度水平后，可以在新数据上测试模型以进行评估。每种算法都有不同的规则和结果。例如，决策树模型基于训练数据的预测能力，具有明确的逐步规则结构；随机森林模型则生成多个随机选择的决策树，最终结果基于多数投票（Wiens和Shenoy，2017）。ML算法可用于多种问题，最常见的应用包括分类、回归和聚类。分类涉及将数据记录分类到预定义的类别中（如确定患者风险或识别组织图像中的炎症），而回归用于根据关系预测连续结果。

在某些情况下，可用数据可能不包含可用于分类的明确因变量。聚类是一种分类方法，算法可以区分相似的数据点，“簇”的数量由用户需求决定并通过试错优化。一般来说，聚类算法会根据数据点之间的数值距离（如k-means算法）或数据空间中的密度（如DBSCAN算法）来分组相似数据（Ester等人，1995）。在流行病学中，聚类有助于将个体分为不同的组，从而实现更精确的治疗（Grant等人，2020）。虽然准确性至关重要，但可解释性和可解释性（人类理解模型决策程度的能力）同样重要甚至更为重要。重视性能而非可解释性的模型被称为“黑箱”模型，其内部工作原理不透明且难以理解。神经网络在处理复杂数据模式（如图像处理）方面表现出色，但由于节点相互连接，其预测方法难以解释（Guresen和Kayakutlu，2011）。在流行病学中，黑箱模型可以判断患者是否患病，但无法解释原因；而白箱模型（如决策树）则侧重于可解释性，能清晰展示结论的得出过程（Gilpin等人，2018；Loyola-González，2019）。然而，白箱模型在处理复杂数据时可能遇到困难。特别是决策树容易过拟合噪声数据。但在疾病流行病学中，白箱模型能够同时回答“谁”和“为什么”的问题（Gilpin等人，2018；Loyola-González，2019）。

官方对牛结核病的控制措施及根除工作产生了大量的数据，包括CITT、INF-γ检测结果、死后检测结果和牛群人口统计数据（如移动记录）。这些数据是应用ML方法预测牛群和个体水平结果的主要来源。这些方法的输出可用于指导疾病控制/根除工作及资源分配，例如政策制定、牛群/动物风险评估和疫情预测。传统统计模型难以处理这些大规模高维数据集中的复杂性和非线性关系。牛结核病数据集通常阳性病例多于阴性病例（类别分布不平衡）。此外，由于缺乏牛结核病诊断的金标准，将病例分类为阳性或阴性更加复杂。ML方法无需显式假设即可处理高维数据，这在一定程度上克服了这些问题。此外，这些方法还可以与数据平衡技术结合使用，以解决类别分布不平衡的问题。

本评价系统地评估了关于ML在牛结核病应用方面的现有文献，重点评估了方法论的稳健性和透明度、结果报告的清晰度以及这些研究在牛结核病研究中的实际效用。

**2. 材料与方法**
文献评价的方法遵循PRISMA（Page等人，2021）制定的指南。2025年6月，我们访问了Springer、PubMed、IEEE、MDPI、HINDAWI、Web of Science、Scopus和Google Scholar等出版物数据库，以收集相关文献。使用的搜索词包括：
• #1 “牛结核病”或“bTB”或“牛结核病”
• #2 “机器学习”或“ML”
• #3 “决策树”或“随机森林”或“SVN”或“XGBoost”或“神经网络”或“回归”或“贝叶斯”或“聚类”
首先搜索#1和#2的组合，然后分别搜索#1与#3中的各个元素。评估相关性时，首先查看论文标题，再查看摘要；如果仍不清楚相关性，则进一步检查方法论。所有论文均由两位作者（KB和EC）共同评审，未发现评审意见分歧。

排除标准如下：
1. 仅包括英文撰写的论文
2. 仅包括定量研究和结果论文
3. 优先考虑直接或间接关注受感染动物或牛群识别的统计方法论文
4. 优先考虑描述创新和改进现有技术的论文
5. 论文必须与ML领域相关；仅讨论牛结核病的论文或专注于数学建模的论文不予考虑
6. 论文必须与牛结核病领域相关；与牛结核病无关的ML论文不予考虑
7. 除非同时介绍了特定于牛结核病的方法，否则不考虑涉及其他分枝杆菌（如结核分枝杆菌、鸟分枝杆菌等）的论文
8. 删除重复论文

总共检索到3654篇论文，其中3631篇被排除，原因包括“不相关”（94.6%）、“重复”（6.03%）、“非英文”（0.85%）或“无法获取”（0.08%）。最终评估的论文数量为19篇（图1）。非英语研究使用谷歌翻译进行了翻译，但在审查后均被排除，因为它们不符合标准。下载：下载高分辨率图片（780KB）下载：下载全尺寸图片

图1. 代表选择和排除被审查出版物的决策过程的图表（PRISMA筛选流程）。

对于所有符合条件的出版物，收集了相同的信息集，重点关注“方法”部分（模型设计、数据选择和准备）、“结果”部分（模型验证、结果报告）以及“讨论/结论”部分（使用可解释的人工智能、其他相关信息）（表1）。

表1. 审查前从每篇出版物中收集的数据分解。

出版物部分
要提取的变量
推理/备注

方法
使用的机器学习技术
空白单元格
样本量
空白单元格
数据清洗程序
对不干净数据集的承认。处理缺失数据、重复数据、格式错误和拼写错误的程序
空白单元格

变量选择
承认分析中不必要的变量。决定将每个变量包含在数据集中或从中移除的流程
空白单元格

处理不平衡数据
承认数据不平衡以及用于处理不平衡的方法。使用SMOTE（Hanley和McNeil，1982年）和类似技术

结果
讨论
结论

验证步骤
承认结果的验证。使用多折验证、训练：测试数据分割。结果的外部验证
空白单元格

传达的结果类型
•AUC
•灵敏度和特异性
•模型准确性

最终模型/指标是如何传达的？
空白单元格

使用可解释的人工智能
承认用于分析的机器学习方法的可解释性和可解释性。提及对可解释人工智能的考虑。

在这项系统评价中，没有进行对审查出版物的偏差分析，因为重点完全放在所采用的方法上。

3. 结果和讨论
搜索发现了19篇涵盖机器学习模型与牛结核病（bTB）数据交叉应用的出版物。其中许多涉及机器学习、bTB或一般流行病学，但由于未能涵盖所有这些领域而被排除。这些论文的主要目标是识别bTB流行病学中的风险因素和/或探索诊断测试特征，以改进个体或群体层面的感染检测。许多研究的最终目标是利用现有数据来提高未来感染的预测能力，从而为基于证据的政策提供信息，并优化疾病控制和根除的资源。

3.1. 数据类型和来源
所有研究都使用了二手数据（即为不同目的已经收集的数据）。大约60%的数据来源是在群体层面分析的，而8篇研究（40%）是在个体动物层面分析的（表3）。十九篇论文中的十五篇（80%）分析了来自国家牛健康数据库的数据，如包含牛bTB检测结果的国家bTB数据库（例如Sedighi和Varga，2021年；Stański等人，2021年；Romero等人，2023年）、国家移动数据库（例如Sedighi和Varga，2021年）以及国家牛奶记录（Denholm等人，2020年）。其余4篇论文使用了来自兽医医院记录（Roy等人，2023年）、野生动物野外研究（例如Crispell等人，2019年；McBride等人，2022年）和实验室记录或基因组数据（例如Rossi等人，2022年）等多种来源的数据。这些研究的规模通常较小，地理范围也较为有限。其中三篇论文还使用了獾（Meles meles）的数据。两篇论文研究了牛和獾之间的相互作用（Crispell等人，2019年；Rossi等人，2022年），而一篇论文仅研究了獾的数据（McBride等人，2022年）。

样本量差异很大，有些研究仅使用了73个观察值（Sahli等人，2015年，Sahli等人，2016年），而其他研究的样本量超过100,000个（May等人，2019年；Stański等人，2021年；McBride等人，2022年；Byrne等人，2022年；Romero等人，2022年；Romero等人，2023年；Roy等人，2023年）——见表2。有一项研究的观察值超过一百万个（Denholm等人，2020年）。有三篇出版物没有报告其数据集中的记录数量（Sedighi和Varga，2021年），或者从文本中无法明确用于最终分析的记录数量（Crispell等人，2019年；Rossi等人，2022年）（图2）。较小的样本量可以加快模型训练速度，允许在工作流程中进行更多迭代，并更灵活地调整方法。然而，较小的样本量容易出现过拟合和模型复杂性低的问题，这可能导致难以对新数据进行分类。大型数据集也存在挑战，如数据准备困难、计算成本高和模型训练时间长。另一方面，大型数据集可以提高模型的泛化和预测能力，并减少过拟合——特别是当数据集平衡良好时，还可以更严格地选择训练中包含的特征。

表2. 机器学习方法的回顾（使用的数据平衡方法）。

出版物
样本
机器学习
数据
数据
AUC
特异性
灵敏度
准确性
备注
大小（群体/动物层面）
方法
平衡
清洗
验证
训练/测试分割
报告
报告
报告
报告

McBride K.等人（2022）
15
10 / 动物
决策树、随机森林、XGBoost、逻辑回归
是
是
80%/20%
是
否
否
是

Crispell J.等人（2019）
未明确说明/ 动物
随机森林、逻辑回归
N/
否
50%/50%
N/
N/
N/
N/
A
报告的结果集中在系统发育树上。

Romero P.等人（2022）
25,098/ 群体
决策树、随机森林
是
是
80%/20%
是
是
是
是

Romero P.等人（2021）
52,668/ 群体
随机森林、Lasso回归
是
是
80%/20%
是
是
是
是

Brunton L.A.等人（2017）
2148/ 群体
逻辑回归、增强回归树、地理加权回归
否
是
否
N/
N/
N/
N/
A
报告了模型的强预测变量和r2值。

Romero P等人（2020）
52,668/ 群体
决策树、逻辑回归
是
是
80%/20%
是
是
是
是

Romero P等人（2023）
475,019/ 群体
决策树、随机森林
是
是
80%/20%
是
是
是
是

Stanski K.等人（2021）
500,000/ 群体
随机森林、XGBoost、神经网络、SVC
否
是
是
是
是
是
是
数据被分为训练集和测试集。仅报告了离散数字，而不是比率。

Novakovic A.等人（2023）
1013/ 动物
决策树、随机森林、装袋树
是
d
是
80%/20%
是
否
否
是
提供了结果真值表。

Roy R.等人（2023）
700,000/ 群体
随机森林、聚类、SVM、线性回归、AdaBoost、CatBoost
否
否
80%/20%
否
是
是
是

Denholm SJ.（2020）
1,700,000/ 动物
神经网络
是
b
C
否
80%/20%
N/
A
是
是

Sahli H.等人（2015a）
73/ 动物
神经网络
否
否
50/23
否
否
是

Sahli H.等人（2015b）
73/ 动物
聚类
否
是
30/30
否
否
是

May E.等人（2019）
580,530/ 动物
逻辑回归
N/
A
是
N/
AN/
AN/
AN/
A
由于存在缺失值，移除了单列。报告了比值比。

Byrne AW.等人（2022）
844,207/ 动物
逻辑回归
是
否
50%/50%
是
否
否
是

Sedighi T. & Varga L.（2021）
未披露/ 群体
贝叶斯网络
N/
AN/
AN/
AN/
AN/
AN/
A
使用动态贝叶斯网络来估计不同情景下的感染概率。

Rossi G.等人（2022）
未明确说明/ 动物
增强回归树
N/
否
N/
AN/
AN/
AN/
A
报告的结果集中在系统发育树上。

Tratalos JA.等人（2023）
90,257/ 群体
逻辑回归
否
否
N/
AN/
AN/
AN/
A
报告了爱尔兰所有县区的感染比值比。

Byrne AW.等人（2021）
4459/ 群体
逻辑回归
否
否
是
是
是
否
a= SMOTE
b= SMOTE和ADASYN
c= 下采样
d= 下采样、上采样、SMOTE和随机过采样示例（ROSE）

下载：下载高分辨率图片（140KB）下载：下载全尺寸图片

图2. 按执行和披露每个预处理步骤的出版物数量划分的预处理步骤。

3.2. 使用的机器学习技术
总共有15种不同的技术在论文中被描述（表2，表3）。随机森林和逻辑回归是在近三分之一的研究中最常用的技术。开发和使用多种机器学习技术通常比使用单一模型更有益。在机器学习管道中，比较不同类型的模型是一个标准程序，因为它可以为特定数据集和问题找到偏差、方差和模型复杂性与可解释性之间的最佳平衡。大约一半的出版物（52.3%，n = 10）使用了多种机器学习技术。一些出版物（Stański等人，2021年；McBride等人，2022年；Romero等人，2022年；Roy等人，2023年）构建了多个模型以确定最佳性能的模型。那些以最准确地预测bTB状态为目标的出版物更倾向于使用多模型方法。依赖单一机器学习技术的出版物通常将模型选择与研究的主要目标联系起来，例如Romero等人（2020年）将决策树算法应用于bTB数据。例如，Denholm等人（2020年）基于早期使用卷积神经网络预测奶牛妊娠状态的研究成功，选择了深度神经网络技术。

表3. 不同机器学习技术和方法的使用频率。

机器学习技术
出版物数量（百分比）
参考文献
随机森林
8（42%）
（Crispell等人，2019年；McBride等人，2022年；Novakovic等人，2023年；Romero等人，2023年，2022年，2021年；Roy等人，2023年；Stański等人，2021年）
逻辑回归
8（42%）
Brunton等人（2017年），Byrne等人，2021年，（2022年），Crispell等人（2019年），May等人（2019年），McBride等人（2022年），Romero等人（2022年），Tratalos等人（2023年）
决策树
5（26%）
McBride等人（2022年），Novakovic等人（2023年），Romero等人（2020年），（2022年），（2023年）
神经网络
3（16%）
Denholm等人（2020年），Sahli等人（2015年），Stański等人（2021年）
贝叶斯方法
2（11%）
Crispell等人（2019年），Sedighi和Varga（2021年）
Xgboost
2（11%）
McBride等人（2022年），Stański等人（2021年）
增强回归树
2（11%）
Brunton等人（2017年），Rossi等人（2022年）
聚类
2（11%）
Romero等人（2021年），Sahli等人（2015年）
正则化回归LASSO
1（5%）
Romero等人（2021年）
地理加权回归
1（5%）
Brunton等人（2017年）
SVM
1（5%）
Roy等人（2023年）
线性回归
1（5%）
Roy等人（2023年）
adaBoost
1（5%）
Roy等人（2023年）
SVC
1（5%）
Stański等人（2021年）
装袋树
1（5%）
Novakovic等人（2023年）

五分之一的审查出版物使用了随机森林（RF）（n = 8，20%）（表3）。RF有几个优点，如易于实现、能够应用于分类和回归问题，并且在处理噪声数据时表现良好。然而，其弱点在于可解释性较差，因为它是一个黑箱模型，其决策对用户来说大部分是隐藏的。不过，它为影响预测的变量集提供了一个特征重要性分数，这些变量可以根据它们对模型的贡献进行排名。

没有一篇审查的出版物使用了集成机器学习，集成机器学习结合了多个模型的预测以提高可靠性。虽然这种技术可以增强预测能力，但它也会增加复杂性、延长训练时间并降低可解释性（Ammar和Kora，2023年）。将单个模型的结果与结合它们模型的集成方法进行比较可能对未来的研究有益。

3.3. 数据准备和预处理步骤
图2和表2提供了出版物中报告的准备和预处理步骤的细分。在机器学习中，数据质量至关重要。一个干净、平衡且足够大的数据集，以及精心选择的变量，将通过减少噪声和防止过拟合/欠拟合来显著影响模型的最终性能。尽管如此，不到一半的研究（n = 9）描述了数据清洗方法（Sahli等人，2016年；Brunton等人，2017年；May等人，2019年；McBride等人，2022年；Novakovic等人，2023年；Romero等人，2023年，Romero等人，2022年，Romero等人，2021年，Romero等人，2020年）。其他研究没有提到进行任何数据清洗（Sahli等人，2015年；Crispell等人，2019年；Sedighi和Varga，2021年；Stański等人，2021年；Byrne等人，2022年，Byrne等人，2021年；Rossi等人，2022年；Roy等人，2023年；Tratalos等人，2023年），或者进行了数据清洗但没有说明记录被移除的过程（Denholm等人，2020年）。移除记录的主要原因是存在缺失值以及被认为是不相关的数据。在某些情况下，确定了一部分记录与分析无关，并随后从数据集中移除。例如，（Romero等人，2022年）移除了所有不确定的记录，以分析bTB检测中的不确定反应者（图2）。

九篇出版物（Brunton等人，2017年；Stański等人，2021年；Byrne等人，2022年；McBride等人，2022年；Novakovic等人，2023年；Romero等人，2020年，Romero等人，2021年，Romero等人，2022年，Romero等人，2023年）描述了数据集中的变量以及从建模过程中移除这些变量的选择过程，指出高相关性、重复性和缺乏预测能力是原因。六项研究（Sahli等人，2015年，Sahli等人，2016年；Brunton等人，2017年；Denholm等人，2020年；Sedighi和Varga，2021年；Novakovic等人，2023年）描述了变量但没有移除任何变量。四篇出版物没有披露变量信息（Crispell等人，2019年；May等人，2019年；Rossi等人，2022年；Roy等人，2023年）。

变量选择是分阶段进行的。首先移除没有预测能力的变量，如识别编号。接下来，将高度相关的变量减少到一个变量，通常是预测能力最强的那个（称为特征选择）。如果缺失数据集中在一个变量上，则会移除该变量本身。一些机器学习（ML）方法，如随机森林（RFs），提供了特征重要性评分，以便通过移除影响较小的变量来简化数据集。Stański等人（2021年）将他们的数据集从139个变量减少到25个最具影响力的变量，同时保持了模型的准确性。作者们面临了各种挑战，尤其是在数据量（n = 13）方面，其次是方法论和解释方面的问题（n = 9）。Denholm等人（2020年）指出bTB数据的不平衡状态，将其归因于记录的阳性病例数量较少。数据集的类别平衡在数据准备中非常重要，如果不进行平衡，可能会导致过拟合或欠拟合以及有偏的预测结果。当模型在不平衡的数据上进行训练时，它通常会通过每次都预测多数类来达到高准确性。平衡数据可以使模型学会预测少数类，从而提高实际应用中的性能。有两种数据平衡方法：过采样（增加少数类的数量）或欠采样（减少多数类的数量）。有八项研究采用了数据平衡方法（Byrne等人，2022年；Denholm等人，2020年；McBride等人，2022年；Novakovic等人，2023年；Romero等人，2020年；Romero等人，2021年；Romero等人，2022年）。在引用的论文中，最常用的预处理技术是欠采样。这种方法被六篇论文采用（Byrne等人，2022年；Novakovic等人，2023年；Romero等人，2020年，Romero等人，2021年，Romero等人，2022年，Romero等人，2023年）。例如，Romero等人（2022年）报告称疾病状态变量中有79%是bTB阴性观察结果，因此决定对bTB阴性观察结果进行降采样以匹配阳性观察结果。作为类别平衡方法的欠采样减少了多数类样本的数量，仅使用现有数据进行分析。这一点很重要，因为引入合成数据可能无法反映真实数据。然而，数据的丢失可能会使模型的敏感性降低。在少数类严重不足的情况下，降采样可能会移除大部分数据集，从而对模型的泛化能力产生不利影响（He和Garcia，2009年）。第二种常用的方法是合成少数类过采样技术（SMOTE），该技术被三篇论文采用（Denholm等人，2020年；McBride等人，2022年；Novakovic等人，2023年）。合成采样在生成新的少数类实例的同时保留了所有数据，从而改善了类别平衡，但计算成本较高，并且如果合成数据不能充分代表少数类，则有更高的过拟合风险（Chawla等人，2002年）。新观察结果是通过复制现有的少数类样本或使用聚类方法（如k最近邻）创建的（Chawla等人，2002年）。合成少数类过采样技术（SMOTE）在现有邻居之间进行插值，而自适应合成采样（ADASYN）则由两篇论文采用（Denholm等人，2020年；Novakovic等人，2023年），专注于在少数类和多数类之间的边界创建样本。这些技术的成功取决于现有少数类中是否存在代表性数据。稀疏的少数类可能会阻碍找到高质量的邻居（SMOTE）或明确的边界（ADASYN），从而导致训练数据中的样本不具代表性或潜在的噪声。选择正确的方法取决于上述限制（Chawla等人，2002年）。只有一篇论文（Novakovic等人，2023年）评估了多种数据平衡方法。所有论文都报告称，使用这些方法后模型性能有所提高。Denholm等人（2020年）使用了深度神经网络（DNN），这是一种需要高质量、标记良好的数据进行训练的ML算法。他们认识到从头开始构建DNN的难度和成本，并决定采用迁移学习，即使用现有的预训练模型并进行修改以适应不同的任务。对于这个DenseNet-161图像识别深度神经网络，需要在重新训练模型之前将原始光谱仪数据转换为图像数据。防止过拟合需要大量的数据，运行DenseNet-161也需要大量的计算资源。如果操作正确，迁移学习可以以较少的时间和资源实现非常强的性能（Pan和Yang，2010年）。Denholm等人（2020年）获得了0.96的敏感性和0.94的特异性。数据集也给作者带来了其他重大挑战。May等人（2019年）提到了“畜群规模”变量（畜群中的动物数量）中的缺失值，这是bTB的一个强预测因子（Byrne等人，2021年）。May等人（2019年）没有说明如何处理缺失值。Rossi等人（2022年）指出，由于缺乏信息，bTB阳性獾的数据收集存在问题，这阻碍了有效的疾病控制。同时，Crispell等人（2019年）指出M. bovis的基因组变异性低，以及不同宿主物种之间的采样不平衡，导致难以确定bTB的传播方向。3.4 模型验证所有出版物都报告了某种形式的模型验证策略。最常见的方法是保留验证，有12项研究将数据集分为训练集和测试集，通常是80:20的比例。较大的“训练”数据用于构建和训练ML模型，而较小的“测试”数据集用于评估其性能。模型验证是ML模型开发的重要组成部分，提供了准确性、可靠性和泛化能力的关键指标。如果没有适当的验证程序，模型可能会过拟合，在训练数据上表现良好，但在新数据上表现不佳。模型验证可以揭示诸如对噪声数据或不平衡数据的敏感性、超参数优化不足或算法选择错误等问题。保留验证、k折交叉验证、使用现有指标进行基准测试以及外部数据集验证是一些可用的验证方法，涵盖了大多数ML用例。k折交叉验证将数据集分成k个较小的数据集。然后在k-1个数据集上训练模型，并用剩余的数据集进行测试，重复k次以计算性能指标。五篇出版物使用了k折交叉验证。Romero等人（2020年）在他们的随机森林模型中对分类树进行了早期剪枝，以防止模型过拟合。其他四篇出版物都使用了5折交叉验证来提高模型性能（Byrne等人，2022年；Novakovic等人，2023年）并减少过拟合（Romero等人，2023年；Romero等人，2022年）。此外，Romero等人（2023年）还使用外部数据集验证了模型的性能。Novakovic等人（2023年）和Stański等人（2021年）根据现有指标验证了他们的模型。Novakovic等人（2023年）计算了两种bTB检测方法（INF-γ g测试和死后可见病变检测）的曲线下面积（AUC）和准确性得分，从而为模型的预测能力建立了基准比较点。另一方面，Stański等人（2021年）计算了2012-2015年间每年皮肤测试的观察到的畜群敏感性和特异性，以验证他们的模型。其余的出版物要么没有进行验证，要么没有报告验证方法。3.5 模型性能ML模型提供了多种指标来评估其性能。敏感性和特异性是流行病学中评估模型性能的标准指标（Monaghan等人，2021年），表明模型与其他诊断测试的比较情况。在专注于bTB预测的出版物中，只有六篇报告了敏感性和特异性指标。报告这些指标对于与CITT和INF-γ测试的性能进行比较至关重要。Roy等人（2023年）报告了所有评估模型的特异性和敏感性，但它们与bTB诊断的相关性不明确。有一篇出版物（Novakovic等人，2023年）没有披露这些指标，但他们提供了计算这些指标所需的真值表。准确性是分类中最常报告的指标，因为它表示正确预测的比例。这个指标对bTB中常见的不平衡数据集很敏感，可能会产生误导。在一个包含1000条记录的假设数据集中，如果大多数预测类占数据的95%，那么在这个数据上训练的模型很可能会只预测多数类，并且仍然能够获得95%的准确性得分。AUC衡量模型区分类别的能力，通常与准确性一起报告，以提供额外的背景信息并减少准确性得分可能引起的混淆（Hanley和McNeil，1982年）。在bTB数据集中常见的极度不平衡数据集的情况下，AUC（基于真正例率和假正例率之间的权衡）也可能产生误导。在这种情况下，精确度-召回率AUC（基于精确度/阳性预测值和召回率/敏感性之间的权衡）更为有用，因为它更关注少数类的分类。同时，F1分数（精确度和召回率的平均值）也与准确性一起报告更为重要。3.6 模型效用在bTB的背景下，模型效用指的是模型是否可以在操作层面改进决策、结果或理解。通过使用模型，在动物层面（例如Denholm等人，2020年）和畜群层面（例如Romero等人，2023年）优化了资源用于有针对性的干预。基于模型的研究强调了基于风险的政策制定（Byrne等人，2021年；Tratalos等人，2023年）。早期管理和决策支持也被视为这些研究的潜在应用（Denholm等人，2020年；Romero等人，2020年；Sedighi和Varga，2021年）。模型还用于验证诊断测试（McBride等人，2022年）和进一步了解bTB的流行病学（Crispell等人，2019年；Rossi等人，2022年）。因此，这些模型的发现可以促进政策变革并影响个人。根据欧盟通用数据保护条例第13-15条关于“自动化决策所涉及逻辑的有意义信息”的权利以及其他伦理考虑，可解释性和可解释性在考虑这些模型的实际效用时变得重要。4. 结论bTB的研究受到传播动态和关键风险因素不确定性的阻碍，导致研究中可能存在偏差（McBride等人，2022年；Sedighi和Varga，2021年）。此外，CITT经常被认为敏感性较低（Romero等人，2020年；Stański等人，2021年）。然而，有五篇出版物报告没有方法论挑战（Sahli等人，2015年；Sahli等人，2016年；Crispell等人，2019年；Roy等人，2023年；Tratalos等人，2023年）。在开发的40个模型中，55%（n = 22）是“黑箱”模型，89%（n = 18）的出版物没有考虑可解释性。这种缺乏透明度以及不同的报告标准阻碍了模型的复制，并导致对ML结果的不信任（Singh等人，2020年）。只有两篇出版物（Romero等人，2022年；Romero等人，2023年）同时重视可解释性和性能。为了提高ML的质量和采用率，应在ML开发的四个关键阶段提供清晰、透明和充分的细节（Stevens等人，2020年）：1. 训练协议和评估2. 方法（包括特定于方法的超参数）3. 优化策略和泛化技术4. 复制、外部验证和测试Stevens等人（2020年）还强调了披露研究中使用的任何数据的细节、来源、规模以及任何缺失数据问题的重要性。这支持并紧密符合本文中的发现和观察结果。只有7篇出版物（Stański等人，2021年；McBride等人，2022年；Novakovic等人，2023年；Romero等人，2021年，Romero等人，2022年，Romero等人，2023年；Romero等人，2020年）满足了清晰详细说明模型开发过程的标准。此外，我们的论文表明需要特定的标准化报告指南，以增强现有的预测模型报告指南，从而提高使用模型的研究的透明度、可重复性和质量。鉴于出版物数量有限，ML在bTB中的应用仍处于起步阶段。使用多种方法表明没有“一刀切”的解决方案。主要挑战是报告的方法中经常缺乏透明度，特别是在数据处理方面。鉴于ML模型的复杂性，必须同等重视模型的可解释性和性能，以建立信任并指导政策（模型的实际效用）。这篇综述采用了多种研究方法和背景分析，为将机器学习（ML）应用于牛结核病（bTB）研究提供了全面的入门指导，并强调了在该领域制定特定报告指南的必要性。

**作者贡献声明：**
- Kacper Borodziuk：撰写综述与编辑、撰写原始稿件、数据可视化、验证、项目监督、软件开发、资源管理、方法论设计、研究实施、资金筹集、数据分析、数据整理及概念框架构建。
- Adele H. Marshall：撰写综述与编辑、撰写原始稿件、项目监督、资源管理、方法论设计、研究实施、资金筹集、数据分析、数据整理及概念框架构建。
- Maria J.H. O’Hagan：撰写综述与编辑、撰写原始稿件、项目监督、资源管理、方法论设计、研究实施、资金筹集、数据分析、数据整理及概念框架构建。
- Aleksandar Novakovic：撰写综述与编辑、项目监督、资源管理、方法论设计、研究实施、资金筹集、数据分析、数据整理。
- Emily A. Courcier：撰写综述与编辑、撰写原始稿件、项目监督、方法论设计、研究实施、资金筹集、数据分析、数据整理及概念框架构建。

**资金支持：**
本项工作得到了DAERA-NI研究生奖学金的资助。

热点排行