综述：人工智能在运动相关脑震荡中的应用：一项更新的综述研究

《Journal of Science and Medicine in Sport》：Artificial intelligence applications in sport-related concussion: an updated scoping review

【字体：大中小】 时间：2026年05月10日 来源：Journal of Science and Medicine in Sport 3.4

编辑推荐：

　　马可·韦基亚托（Marco Vecchiato）| 菲利波·达尔蓬特（Filippo Dal Ponte）| 埃马努埃莱·扎纳尔多（Emanuele Zanardo）| 斯特凡诺·帕莱尔米（Stefano Palermi）| 马可·巴佐（Marco Bazo）| 丹尼尔·诺伊纳豪泽（Daniel Neunhaeuserer）| 安德烈亚·埃尔莫拉奥（Andrea Ermolao）| 西尔维娅·布雷桑（Silvia Bressan）| 维罗尼卡·拜奥卡托（Veronica Baioccato）
帕多瓦大学医学系体育与运动医学分部，意大利帕多瓦35128，朱斯蒂尼亚尼街2号（Via Giustiniani 2, Padova 35128）

**摘要**
**目的**
运动相关脑震荡（Sport-related Concussion, SRC）是一种复杂的轻度创伤性脑损伤，其诊断、监测和预后在很大程度上仍依赖于主观临床评估。人工智能（AI）作为一种潜在工具，通过整合SRC护理过程中的高维多模态数据来提高客观性。

**方法**
系统性文献回顾，涵盖六个数据库（MEDLINE、EMBASE、SPORTDiscus、Scopus、Web of Science和Cochrane Central），时间范围从研究开始直至2025年12月。符合条件的研究被分为四个领域：检测与诊断（Detection & Diagnosis）、监测与监控（Monitoring & Surveillance）、预后与恢复（Prognosis & Recovery）以及预防与风险建模（Prevention & Risk Modeling）。

**结果**
共有55项研究符合纳入标准，其中超过80%的研究发表于2020年后。检测与诊断领域的研究较多，主要利用脑电图（EEG）、言语、运动和多模态临床数据。监测与监控研究侧重于可穿戴传感器、护齿器和基于视频的冲击检测方法，以量化暴露程度并减少假阳性结果。预后与恢复模型探讨了恢复轨迹、持续症状和再次受伤风险；预防与风险建模研究主要依赖生物力学和有限元分析数据来估计受伤风险。尽管这些方法表现良好，但研究存在高度异质性，常见的问题包括样本量小或不平衡、结果定义不一致、外部验证有限以及模型可解释性差。

**结论**
基于AI的方法在支持SRC管理方面展现出巨大潜力，可应用于多个临床领域。然而，现有证据表明其主要用途是作为决策支持工具。未来研究应优先考虑大型多中心研究、透明的数据标注策略、可解释的AI框架以及严格的外部验证，以确保其安全性和临床意义。

**1. 引言**
运动相关脑震荡（SRC）是由于头部受到直接或间接生物力学力作用而引发的轻度创伤性脑损伤，常见于接触性和碰撞性运动中。虽然大多数病例在几天内可自行恢复，但10-20%的运动员会出现长期症状或脑震荡后综合征，表现为身体、认知、前庭和心理方面的障碍，这些症状可能持续数周甚至数月。由于缺乏标准血液检测、仪器评估和影像学研究的客观验证结果，SRC的诊断尤为困难，因此高度依赖主观症状报告和临床判断。这种依赖性导致了评估者间的较大差异以及诊断结果的不确定性。

**2. 方法**
鉴于评估AI在SRC应用方面方法学的多样性，目前尚无法进行有意义的定量综合或元分析，因此采用范围性回顾（scoping review）作为最适合的方法来梳理现有证据并识别研究空白。本研究遵循JBI范围性回顾方法论，并使用PRISMA-ScR清单指导报告过程。

**3. 研究团队**
为确保方法上的严谨性和临床相关性，研究团队包括了在证据综合、运动与运动医学、神经学及脑震荡领域具有专长的学者，以及了解AI在临床和研究环境中应用情况的专家。

**4. 研究问题**
“现有文献中关于AI在SRC应用方面的研究有哪些？”

**5. 研究选择标准与数据提取**
纳入标准基于“人群、概念和背景”（Population, Concept, Context, PCC）框架：
- **人群（P）**：任何年龄或表现水平的运动员或退役运动员，他们经历过SRC或参与了模拟SRC相关头部冲击的研究。
- **概念（C）**：AI的应用，包括机器学习（ML）和深度学习（DL），应用于至少一个与SRC相关的领域（诊断、监测、预后和预测）。
- **背景（C）**：研究可在任何环境中进行，包括真实体育环境、临床研究或计算机模拟。

**6. 排除标准**
不符合PCC标准的研究被排除在外。

**7. 搜索策略**
完整的搜索字符串（包括MeSH术语和关键词）详见补充表1。搜索策略适用于MEDLINE、EMBASE、SPORTDiscus、Scopus、Web of Science和Cochrane Central数据库，搜索日期为2025年12月31日，无时间限制。

**8. 结果分析**
经过筛选，最终共有55项研究被纳入分析。这些研究主要关注检测与诊断、监测与监控、预后与恢复以及预防与风险建模领域。

**9. 结论**
AI技术在多个临床领域支持SRC管理方面具有巨大潜力，但目前主要作为决策支持工具使用。未来研究应重点关注大型多中心研究、透明的数据标注策略、可解释的AI框架以及严格的外部验证，以实现安全有效的应用。研究总结

研究类别 | AI输入 | AI输出 | 样本量 | 性别（男性，%） | 脑震荡与非脑震荡 | AI方法 | 标签/真实值 | 数据采集时间 | 性能 | 对比 | 国家 | 偏差风险
------------------|-----------|----------------|---------|-------------|----------|------------------|------------|-----------|------------|-------|------------|
Cao等人，2008年 | 监测与监控 | 静息状态EEG | SRC后的残余功能缺陷 | 61 | 未报告 | 30名脑震荡患者 vs 31名对照组 | SVM | 医生诊断的SRC | 基线；亚急性（30天） | 准确率77.1%，敏感性高达96.7% | 美国 | 中等 |
Falcone等人，2013年 | 检测与诊断 | 声学语音特征 | SRC分类 | 105 | 100% | 7名脑震荡患者 vs 98名对照组 | 单类SVM | 医生诊断的SRC | 急性（比赛后） | 准确率高达98% | 美国 | 高 |
Helfer等人，2014年 | 检测与诊断 | 语音发音协调特征 | 认知改变检测 | 32 | 78% | NA | SVM | 基于IMPACT的认知衰退（临床mTBI） | 基线/受伤前 | AUROC 0.72-0.98（发音动态），AUROC 0.94-0.98（发音协调） | 美国 | 中等 |
Goswami等人，2016年 | 监测与监控 | 从钩状束中逐个体素提取的扩散MRI指标 | 多次脑震荡史 | 36 | 100% | 19名脑震荡患者 vs 17名对照组 | SVM（RBF，线性，多项式核）；ElasticNet LR | 临床验证的脑震荡史 | 慢性阶段；退役运动员，距离最后一次脑震荡超过10年 | 准确率高达83%，AUC约为0.80 | 加拿大 | 中等 |
Tremblay等人，2017年 | 检测与诊断 | 多模态MRI（DTI连接性，光谱学，体积测量）+临床数据 | 远距离脑震荡史的检测 | 30 | 100% | 15名脑震荡患者 vs 15名对照组 | 集成ML | 医生访谈 | 慢性（受伤后数十年） | 准确率高达90%；敏感性=93%，特异性=87% | 加拿大 | 中等 |
Cai等人，2018年 | 检测与诊断 | 从FE头部模型模拟中得出的全脑体素级白质纤维应变 | SRC分类 | 58 | 重建的头部撞击 | 100% | 25名脑震荡患者 vs 33名对照组 | SVM，RFC | 医生诊断的SRC | 冲击后（回顾性） | 准确率=0.86；敏感性=0.84；特异性=0.88；AUROC=0.89 | 美国 | 中等 |
Reynolds等人，2018年 | 监测与监控 | 静息态fMRI连接性 | 亚脑震荡暴露相关的网络变化 | 72 | 未报告 | NA | SVM | 季前 vs 季后比较 | 美国 | 中等 |
Bergeron等人，2019年 | 预测与恢复 | 症状+临床变量 | 恢复时间预测 | 16 | 11 | 未报告 | 所有脑震荡患者 | 监督ML分类器（NB，RF，SVM，LR，kNN，MLP，DT） | 运动训练师报告的症状解决时间 | 急性至恢复阶段 | AUROC 0.66–0.74 | 美国 | 中等 |
Boshra等人，2019年 | 检测与诊断 | EEG特征 | 远距离脑震荡史 | 39 | 100% | 19名脑震荡患者 vs 20名对照组 | SVM | 自报的脑震荡史 | 慢性 | 准确率81%；敏感性82%；特异性80% | 美国 | 中等 |
McNerney等人，2019年 | 检测与诊断 | 静息态EEG+症状 | SRC分类 | 85 | 68% | 38名脑震荡患者 vs 47名对照组 | 提升ML | 医生诊断的SRC | 急性（≤72小时） | 准确率约91% | 美国 | 中等 |
Visscher等人，2019年 | 检测与诊断 | 前庭与平衡测试 | 表型聚类 | 96 | 81% | 所有脑震荡患者/PCS | 无监督ML（SOM） | 临床诊断的SRC/PCS | 亚急性–慢性（中位数52天） | 稳定的2簇解决方案 | 瑞士 | 中等 |
DiCesare等人，2020年 | 监测与监控 | 可穿戴传感器时间序列 | 冲击分类与暴露 | 22 | 0% | NA（亚脑震荡） | SVM；XGBoost | 视频验证的头部撞击 | 慢性（整个赛季） | 准确率：83.5%；敏感性：83.8%；AUROC：0.90 | 美国 | 中等 |
Gabler等人，2020年 | 检测与诊断 | 颜值护具运动数据（6自由度） | 冲击事件分类 | 21（185次头部撞击） | 100% | NA | ML分类器 | 视频验证的头部撞击 | 中场/实时 | 准确率98.3%，召回率81.6% | 美国 | 中等 |
Raji等人，2020年 | 检测与诊断 | DTI边缘密度成像 | SRC分类 | 24 | 58% | 14名脑震荡患者 vs 10名对照组 | SVM | 医生诊断的mTBI | 慢性 | AUROC 0.94；敏感性79%；特异性100% | 分数各向异性；神经认知测试 | 美国 | 中等 |
Seeger等人，2020年 | 预测与恢复 | 唾液细胞因子+临床数据 | 症状负担与RTS预测 | 36 | 81% | 所有脑震荡患者 | 提升决策树 | SCAT-3症状严重程度评分；医生批准的RTS | 急性 | 症状严重程度：r=0.505；症状数量：r=0.637；RTS：r=-0.299 | 加拿大 | 中等 |
Shim等人，2020年 | 预防与风险建模 | FE衍生的应变指标 | 脑应变与伤害风险预测 | NAN | NAN | PLSR | FE衍生的应变 | 体外预测误差约3%（分布）；7-9%（峰值） | FE模拟 | 新西兰/加拿大/韩国 | 高 |
Bazarian等人，2021年 | 检测与诊断 | EEG衍生的脑震荡指数 | SRC概率 | 58 | 207名脑震荡患者 vs 373名对照组 | ML集成 | 医生诊断的SRC | 急性–亚急性（72小时内） | 敏感性=86%，特异性=70.8%，AUROC=0.89 | SCAT；临床诊断 | 美国 | 低–中等 |
Castellanos等人，2021年 | 预防与风险建模 | 基线临床与神经认知数据 | 未来SRC预测 | 15,68 | 265.8% | 595名脑震荡患者 vs 15,087名对照组 | SVM | 医生诊断的SRC | 受伤前（基线） | AUROC 0.73 | 美国 | 中等 |
Chu等人，2021年 | 预测与恢复 | VOMS；King-Devick；C3 Logix | 恢复时间（天）；长期恢复（>21天） | 65 | 55% | 所有脑震荡患者 | CatBoost | 医生批准（RTS/重返学习） | 急性/亚急性 | AUROC：0.78-0.84；RMSE：10.8-12.8天 | 美国 | 中等 |
Domel等人，2021年 | 监测与监控 | 颜值护具运动数据（6自由度） | 冲击事件检测 | >3000次验证的撞击 | 未报告 | NA（冲击级别数据） | DL（MiGNet） | 视频验证的头部撞击 | 中场/实时 | 准确率96% | 基于SVM的检测 | 美国/加拿大 | 低–中等 |
Fedorchak等人，2021年 | 预测与恢复 | 唾液RNA谱型 | 恢复持续时间与PPCS预测 | 112（505个唾液样本） | 56% | 32名PPCS vs 80名非PPCS患者 | SVM | 临床恢复状态 | 急性–亚急性（≤14天；≥21天） | AUROC=0.86 | Zemek风险工具 | 美国 | 中等 |
Tirdad等人，2021年 | 监测与监控 | 社交媒体文本（Twitter） | 情感监控 | >98,000条推文 | NAN | DL集成（CNN，LSTM） | 专家标记的情感 | 回顾性/实时 | F1=62.7% | 单个DL模型 | 加拿大 | 中等–高 |
Thanjavur等人，2021年 | 检测与诊断 | 原始静息状态EEG | SRC分类 | 58 | 100% | 23名脑震荡患者 vs 35名对照组 | DL（LSTM；ConcNet） | 医生诊断的SRC | 亚急性（≤受伤后1个月） | 准确率94.4%；AUROC 0.97 | 6通道EE模型 | 加拿大 | 中等 |
Zhuang等人，2021年 | 监测与监控 | FBG嵌入式头盔 | 冲击幅度和方向 | NAN | NA | SVM，IBK，RF | 已知的冲击条件 | 实时 | R2≈0.88–0.94（幅度）；R2≈0.91–0.99（方向） | 非ML方法 | 美国 | 中等–高 |
Ferris等人，2022年 | 检测与诊断 | VOMS + SCAT变量 | 急性SRC区分 | 39 | 58个赛季前+496次急性评估 | 52.2%（赛季前）；62.5%（急性SRC） | 未报告 | ML辅助ROC | 临床SRC诊断（CARE） | 基线；急性 | AUROC高达约0.83 | 个别VOMS/SCAT测量 | 美国 | 中等 |
Ghazi等人，2022年 | 预防与风险建模 | 旋转头部运动学 | 全脑应变预测 | 110 | 4次撞击 | 100% | NaN | CNNFE衍生的应变 | 体外 | MPS准确率：98.6% | 直接FE模拟 | 美国 | 中等–高 |
Jacob等人，2022年 | 检测与诊断 | 多模态VR系统+SCAT | 5 | 远距离脑震荡史 | 54 | 26名脑震荡患者 vs 28名对照组 | 结構方程建模 | 自报历史+SCAT | 5 | 慢性 | 准确率95.5% | SCAT5单独 | 冰岛 | 中等–高 |
Mansouri等人，2022年 | 预防与风险建模 | 多模态移动获取数据 | 未来肌肉骨骼损伤风险 | 74 | 100% | 21次之前的SRC vs 54次无SRC | XGBoost，CHAID，MLP | 前瞻性损伤监控 | 基线→赛季中 | 准确率高达91.9% | ML模型 | 美国 | 中等 |
Raymond等人，2022年 | 监测与监控 | 颜值护具运动学（时间序列） | 冲击事件检测 | 61（12,014次撞击） | 100% | NA | DL（MiGNet） | 视频验证的撞击 | 中场/实时 | 准确率96% | 美国/加拿大 | 低–中等 |
Fedorchak等人，2021年 | 预测与恢复 | 唾液RNA谱型 | 恢复持续时间与PPCS预测 | 112（505个唾液样本） | 56% | 32名PPCS vs 80名非PPCS患者 | SVM | 临床恢复状态 | 急性–亚急性（≤14天；≥21天） | AUROC=0.86 | Zemek风险工具 | 美国 | 中等 |
Tirdad等人，2021年 | 监测与监控 | 社交媒体文本（Twitter） | 情感监控 | >98,000条推文 | NAN | DL集成（CNN，LSTM） | 专家标记的情感 | 回顾性/实时 | F1=62.7% | 单个DL模型 | 加拿大 | 中等–高 |
Thanjavur等人，2021年 | 检测与诊断 | 原始静息状态EEG | SRC分类 | 58 | 100% | 23名脑震荡患者 vs 35名对照组 | DL（LSTM；ConcNet） | 医生诊断的SRC | 亚急性（≤受伤后1个月） | 准确率92.6%；AUROC 0.97 | 基于特征的ML | 加拿大 | 中等–高 |
Zhuang等人，2021年 | 监测与监控 | FBG嵌入式头盔 | 冲击幅度和方向 | NAN | NA | SVM，IBK，RF | 实时 | R2≈0.88–0.94（幅度）；R2≈0.91–0.99（方向） | 非ML方法 | 美国 | 中等–高 |

在纳入的55项研究中，大多数（80%）发表于2020年及以后，反映了人工智能在SRC应用方面的研究兴趣迅速增长（图2）。主要的研究设计是观察性队列（40%），其中12.7%的研究包含了体外/计算模拟成分。此外，20项研究关注头部创伤模拟、基于传感器的头部撞击评估，以及智能颜值护具和头盔的使用。

图2展示了体育相关脑震荡研究中人工智能应用的时间演变，突显了出版量的快速增长，以及方法从探索性机器学习方法向深度学习转变，最近又转向与特定临床用例相匹配的多模态和任务导向的AI框架。检测与诊断是最常研究的领域（43.6%），主要利用基于EEG的模型、语音和语言分析以及多模态方法。监测与监控占纳入研究的21.8%，主要集中在基于传感器的头部撞击检测和纵向信号跟踪上。预测与恢复占20%，AI方法越来越多地应用于模拟恢复轨迹、识别持续症状的预测因素，并对可能延迟重返比赛的运动员进行分层。预防与风险建模（14.5%）是一个新兴但日益重要的领域，涉及伤害风险估计。

样本量在各项研究中差异很大，从小型的单一中心队列（22名参与者）到大型多中心数据集（超过15,000名运动员）不等，总共分析了29,887名人类参与者。此外，一些研究没有直接的人类参与，提供了大规模的生物力学和基于传感器的数据集，包括超过10,000次头部撞击事件和计算模拟。在41项有人类参与者的研究中，性别的报告不一致，女性参与者比例有限。有十项研究仅包括男性样本，而只有五项研究仅招募女性参与者；四项研究根本没有报告性别。在报告性别的研究（n=26,395名参与者）中，女性占10,068名（38%）。年龄分布非常多样化（从儿童期到老年期；平均年龄约为24岁），但明确针对儿童的研究仅涉及1,990名参与者。

在24项研究中分析了大约5,300名参与者。大多数诊断研究采用了病例对照或队列设计，其中大多数包括非脑震荡对照组，以便对SRC状态进行二元分类。在较少的研究中，没有设立正式的对照组（26., 27., 28.）；在这些情况下，AI模型被训练用来检测与个体基线的偏差，或者区分经过临床验证和未验证的事件，而不是直接对脑震荡和非脑震荡进行分类。研究设计多种多样，包括观察性队列研究、干预性设计以及方法学模型开发研究。使用了广泛的AI技术，包括传统的机器学习模型，如支持向量机（SVM）、逻辑回归和随机森林（RF），以及更先进的深度学习架构，特别是用于时间序列数据的卷积神经网络（CNN）和长短期记忆（LSTM）网络。在诊断输入方面，脑电图（EEG）是最常被研究的模式，在四分之一的诊断研究中使用，当使用ML或DL方法进行分析时，通常能够实现高分类性能。语音和语言分析是另一个重要的诊断方向，基于声学和发音特征的模型在区分脑震荡运动员和非脑震荡运动员方面表现出较强的能力。其他诊断方法还包括前庭和平衡评估、步态和运动表现指标、可穿戴传感器数据以及多模态临床测试组合。

在参考标准方面，大多数研究依赖于医生判定的临床诊断，通常由SCAT?等标准化工具作为真实标签。其他比较方法包括SCAT?的各个组成部分、传统统计分析、手动EEG解读、视频验证的头部撞击评估以及已建立的临床风险工具。然而，在不同研究中，结果定义和标记策略存在显著差异，这反映了SRC诊断缺乏统一客观标准的现状，这也是在该领域开发AI模型的一个关键方法学挑战。

3.4 监测与监控
共有12项研究被归类为此类别（41., 42., 43., 44., 45., 46., 47., 48., 49., 50., 51., 52.）。这些研究关注头部撞击的纵向或实时监测、暴露指标或生理信号，而不是SRC的诊断或结果预测。总体而言，这些研究分析了超过15,000名运动员的数据，以及数千次在训练、比赛或实验室测试中记录的头部撞击事件。大多数研究采用了观察性队列设计，通常嵌入在实际的体育环境中。大多数研究没有进行脑震荡与非脑震荡的临床比较（41., 42., 43., 46., 47., 48., 49., 50., 51.），因为它们的主要目标是识别、分类或描述头部撞击事件，减少误检，或量化累积暴露量。因此，结果通常在事件或暴露水平上定义，而不是在个体临床水平上。
应用了多种机器学习和深度学习方法，包括SVM、RF、梯度提升方法、CNN和基于物理的学习框架。一些研究将基于AI的分类器与传统基于阈值的或启发式方法进行了比较，一致性地显示出在撞击检测和事件分类方面的改进准确性。

在数据输入方面，可穿戴技术是主导的监控方式。装有传感器的护齿器和头盔嵌入式传感器系统用于捕捉训练和比赛中的高频线性和旋转头部运动学数据。这些方法通过基于视频和计算机视觉的框架得到补充，能够直接从比赛录像中自动检测头部相互撞击事件，并作为模型训练和验证的参考标准。此外，一些研究采用了神经生理监测，使用重复的EEG评估来表征与反复头部撞击或亚脑震荡暴露相关的微妙或亚临床改变。当在监控领域使用EEG时，记录通常在预定义的时间点进行定期或重复的评估，通常在控制实验室或临床环境中进行，最常见的是在静息状态下（眼睛睁开或闭上），较少情况下在旨在检测残留神经生理改变的简单任务范式中进行。

最后，一小部分研究探索了替代的监控方法，包括行为报告模式和基于社交媒体的信号监控。在参考标准方面，监控模型大多针对视频验证、专家手动审查或已知的物理真实情况进行验证，而不是针对临床诊断工具。

3.5 预后与恢复
共有11项研究被归类为此类别（53., 54., 55., 56., 57., 58., 59., 60., 61., 62., 63.），分析了超过6000名运动员的数据。这些研究关注受伤后的临床演变预测，包括恢复时间、症状持续期或SRC后不良或延迟结果的风险。大多数研究采用了观察性或回顾性队列设计，通常仅招募脑震荡运动员，并对与恢复相关的结果进行建模，而不是二元诊断状态。AI方法被用来预测症状缓解时间、恢复延迟的风险或持续性脑震荡症状，以及在某些研究中预测长期结果轨迹。预后模型通常结合了基线临床变量、症状负担和特征、神经认知测试以及心理社会因素，而少数研究整合了生物学或影像学特征。值得注意的是，最近在青少年和儿童人群中的大规模研究表明，自我报告的症状严重程度、情绪和睡眠相关指标以及受伤前因素是预测不利恢复轨迹的最强预测因素。使用了多种机器学习技术，包括RF、SVM、梯度提升方法、人工神经网络和基于回归的多变量模型。报告的性能通常是中等至良好的，与单领域临床模型相比，采用多模态特征整合的研究观察到更高的预后准确性。
在数据输入方面，最常见的特征包括症状负担和恢复概况、临床和人口统计变量以及感知-运动或认知评估，支持的模型专注于症状和恢复轨迹预测。一项研究使用唾液RNA表达谱来预测恢复时间和持续症状。其他研究整合了基于神经影像学的特征，实现了基于神经影像学的预后预测，而大多数研究依赖于结合临床、功能和上下文变量的多模态预后框架。在结果定义方面，参考标准包括医生确定的医学许可、预定义的恢复时间阈值、症状缓解标准或纵向临床随访。然而，在不同研究中，恢复和预后终点的定义存在显著差异，这限制了可比性和外部有效性。

3.6 预防与风险建模
共有8项研究被归类为此类别（64., 65., 66., 67., 68., 69., 70., 71.），这些研究依赖于非临床或受伤前的数据。大多数研究采用了计算或实验室设计，经常使用有限元（FE）头部模型、重建的撞击数据或实验衍生的运动学数据。AI方法被用来预测大脑应变分布、撞击严重程度或给定特定撞击特征的脑震荡概率，从而能够在不同条件下快速估计受伤风险。一些研究还探索了基线风险建模，整合了人口统计、临床或与表现相关的变量来估计未来的SRC或受伤易感性。使用了多种机器学习技术，包括SVM、RF、偏最小二乘回归、CNN和在FE衍生特征上训练的DL架构。在生物力学研究中，基于AI的模型经常与传统的标量伤害指标或直接FE模拟进行基准测试，显示出可比或更好的预测性能，并显著降低了计算成本，尤其是在估计基于应变的伤害替代指标时。在数据输入方面，主要特征包括线性和旋转头部运动学、撞击的频谱或时间序列描述符，以及从FE模型或基于DL的替代模型中得出的区域特定大脑应变指标。在基线风险建模研究中，输入包括赛季前的临床、人口统计或功能变量，结果定义为未来的SRC发生或随访期间的受伤风险。

4. 讨论
这些发现展示了基于AI的工具如何支持整个临床连续体中的SRC管理，涵盖检测和诊断、监控、预后和预防，同时也强调了进一步验证和标准化的必要性（图3）。与2021年之前发布的综述相比，本综述纳入了更多和最新的证据，将AI应用扩展到了早期概念验证模型之外。总体而言，所包含的研究表明，AI和ML方法有潜力提高诊断准确性，特别是通过基于EEG和语音的模型；利用可穿戴技术支持头部撞击的实时监控和监控；为预后评估提供信息，包括恢复轨迹和不良结果的风险；并通过生物力学风险建模和基线风险分析为预防策略做出贡献。同时，当前的的证据基础在研究设计、样本大小、数据来源、结果定义和验证策略方面存在显著差异，这直接影响了报告模型性能的可靠性、可比性和普遍性。以下部分将讨论每个领域的主要发现，突出AI在SRC护理中的临床机遇以及目前限制其转化为常规实践的方法学限制。

下载：下载高分辨率图像（350KB）
下载：下载全尺寸图像
图3. 体育相关脑震荡管理中人工智能应用的成熟度图
该图总结了每个领域（检测与诊断、监控与监控、预后与恢复以及预防与风险建模）的当前证据状态（绿色勾选标记）、关键的方法学和转化限制（红色警告符号）以及临床采用的优先未满足需求（蓝色拼图图标）。（关于图中颜色引用的解释，请参阅本文的网络版本。）

4.1 检测与诊断：通过多模态和任务导向的AI方法提高客观性
基于AI的方法在SRC检测和诊断支持方面展现出了巨大潜力，主要是通过引入更多的客观性到仍然主要依赖于主观症状报告和专家判断的临床环境中。在本综述中包含的研究中，诊断AI应用主要针对神经生理、行为和功能信号，而不是依赖于传统成像可检测的结构异常。EEG仍然是基于AI的SRC检测中最广泛研究的模式。稳态视觉诱发电位（SSVEP）分析与经典ML分类器结合使用，显示出中等的诊断准确性（约64%），这突显了单一模态方法单独使用时可行性和当前的局限性。相比之下，专门为时间序列数据设计的DL架构，如ConcNet，使用较少的EEG通道实现了显著更高的诊断准确性（高达94.4%），支持它们在边线或现场应用的潜力。同样，基于EEG的脑震荡指数显示出良好的敏感性（86%），并与临床恢复时间线相关联，加强了基于EEG的AI工具作为决策支持系统的潜力。然而，这些有希望的绩效指标应谨慎解读，因为一些研究依赖于相对较小或不平衡的数据集，或者人口统计上同质的样本，在这些条件下，诊断准确性可能被高估，普遍性受到限制。最近针对女性和青少年群体的研究进一步强调了在开发基于EEG的诊断模型时需要考虑性别和年龄特定的神经生理模式。除了电生理学之外，语音和语言分析已成为一种强大且可扩展的诊断途径。基于声学和发音特征训练的DL模型实现了接近或超过90%的诊断准确性，提供了比传统评估更客观和低成本的替代方案。最近的大规模研究在异质记录条件和最小的设备要求下显示出稳健性，支持远程或重复评估的潜力。基于运动和平衡的方法也对诊断建模做出了有意义的贡献。ML对步态、姿势稳定性和基于运动的评估的分析在多个队列中显示出超过90%的诊断准确性，强调了认知-运动整合对SRC相关损伤的敏感性。值得注意的是，无监督方法被用来识别脑震荡人群中的表型簇，表明AI可能有助于区分SRC的异质性，而不仅仅是提供二元分类。尽管传统成像对于急性SRC仍大多不敏感，但一些研究利用AI从高级MRI和扩散成像数据中提取了诊断相关的模式。基于ML的放射组学和网络分析成功地区分了脑震荡运动员和对照组，并识别了脑震荡的远期或慢性影响，特别是在退役运动员中。这些方法似乎更适合回顾性评估和风险分层，而不是急性边线诊断，但它们提供了关于SRC长期神经生物学影响的重要见解。一些研究表明，多模态整合，结合神经生理数据与症状、功能测试或人口统计变量，与单领域模型相比，一致地提高了诊断性能。这与SRC作为多维状况的临床现实相符，并支持开发反映现实世界决策过程的AI框架。相比之下，配备传感器的护齿器和撞击检测系统虽然在识别头部撞击方面非常准确，但主要解决事件检测问题，而不是SRC诊断，因此应被视为补充性监控工具而不是诊断解决方案。基于FE的应变建模进一步展示了AI在支持基于生物力学的诊断假设方面的潜力，尽管其临床适用性仍然是间接的。在诊断研究中，结果标记仍然是一个关键限制。大多数AI模型都是使用临床诊断、SCAT?评分或专家共识作为真实标签进行训练的，而这些方法都存在评估者间差异和时间上的不稳定性。这种内在的标签噪声可能会限制模型的学习能力，并部分解释了不同研究中报告的诊断性能的差异。此外，数据采集的时间点差异很大，从急性边线评估到亚急性或慢性评估，进一步增加了比较和临床应用的复杂性。而且，许多诊断研究的偏见风险中等到高，主要原因是样本量小或不平衡、结果定义不统一以及外部验证有限。总体而言，现有证据表明，基于AI的方法已经在SRC检测和诊断支持方面提供了有意义的临床价值，尤其是在应用于神经生理学、 Speech和功能数据时。然而，这种附加价值是特定领域和任务相关的，并不适用于所有提出的诊断方式。目前，AI工具应被视为增强客观性和模式识别的决策支持系统，而不是独立的诊断解决方案。该领域的未来进展将 less 依赖于模型精度的渐进提升，而更多依赖于数据质量、结果标注、外部验证以及与实际临床工作流程的整合。

4.2. 监测与监控：扩展超越临床终点的暴露意识
基于AI的监测和监控方法是SRC护理路径中快速发展的部分，其主要关注点是持续或事件级别的头部撞击和暴露指标的跟踪，而不是诊断或结果预测。在该领域包含的研究中，AI主要被用来增强训练和比赛期间头部撞击事件的检测、分类和量化，解决了传统基于阈值的传感器系统的长期局限性。重要的是，最近SRC监测的进步是由传感技术和AI算法的共同发展推动的，而不仅仅是算法创新。可穿戴硬件的改进扩大了数据可用性，而AI方法增强了信号解释能力，减少了误报，并实现了纵向暴露跟踪。大多数监测研究利用了带有传感器的牙套或头盔内嵌的传感器，结合机器学习（ML）或深度学习（DL）分类器来区分真正的头部撞击和虚假的传感器事件，并随时间 caractomerize 撞击的强度和频率。基于AI的方法在减少误报和提高事件分类准确性方面始终优于传统的启发式或基于阈值的算法，尤其是在经过视频验证的撞击或专家审查的数据集上进行验证时。最近的研究进一步表明，基于计算机视觉的方法可以通过直接从比赛录像中检测头部撞击来补充可穿戴传感器，在无法或不完全使用可穿戴仪器的环境中扩展了监测能力。一小部分研究将监测扩展到了生物力学信号之外，使用神经生理学或成像评估来表征SRC后的残留或长期变化。纵向EEG和成像分析表明，AI可以检测到在临床症状消失后仍然存在的微妙神经生理变化，支持其在伤后监控而非急性诊断中的潜在作用。此外，新兴的监控方法探索了非传统数据流，包括社交媒体信号和行为报告模式，以识别与脑震荡暴露和报告行为相关的趋势。尽管方法上存在差异，但这些研究表明了AI在运动员层面仪器之外所能实现的监控应用的广泛性。尽管技术上已经成熟，但监测和监控模型与临床SRC结果的关联较弱且往往间接。大多数研究集中在事件检测或暴露量化上，没有系统地将监测指标与诊断出的脑震荡、症状负担或恢复轨迹相关联。因此，对监测暴露的临床解释仍然具有挑战性，这些工具的附加价值主要在于风险意识、暴露管理和安全监控，而不是直接临床决策。实际上，从研究级别的可穿戴监测系统过渡到获得比赛批准和监管认可的设备（如带有传感器的牙套）需要遵守医疗器械法规、标准化的验证协议以及对预期临床用途的明确定义，这代表了实际应用的另一个障碍。总体而言，基于AI的监测和监控工具已经在提高运动中头部撞击检测和暴露跟踪的准确性和可扩展性方面展示了持续的附加价值。然而，它们的贡献仍然是补充性的，主要支持安全监控和预防策略，而不是替代临床评估，其整体偏见风险主要由传感器特定的验证、有限的外部普遍性和基于事件级别而非临床终点的结果定义所驱动。未来的进展将依赖于将监测输出与具有临床意义的结果相结合，在不同传感器平台上标准化验证框架，并明确暴露指标如何为实际SRC管理提供信息。

4.3. 预后与恢复：朝向超越症状缓解的个性化结果预测
基于AI的预后模型旨在解决SRC中最具有临床相关性但又最具挑战性的方面之一：预测个体的恢复轨迹和伤后结果。在该领域包含的研究中，AI主要被用来预测恢复时间、症状持续时间延长或延迟的风险以及不良的脑震荡后果，而不是支持急性诊断决策。一些研究侧重于使用基线临床特征、症状负担和功能评估来预测恢复时长或延迟回到比赛的时间。这些方法表明，基于AI的模型能够捕捉到早期伤后特征与后续恢复模式之间的复杂非线性关系，通常优于传统的基于回归的方法。大规模的特定人群队列进一步证明，早期的情绪、睡眠相关和症状严重程度指标是最强的不良恢复轨迹预测因素，突显了常规收集数据的临床相关性。重要的是，这些模型强调了个体间恢复的显著差异，突显了“一刀切”恢复时间表的局限性。除了基于症状的模型外，一些研究还探索了生物标志物和神经影像学信号以提供预后信息。基于生物标志物的方法（如利用唾液RNA谱型）在识别恢复延迟风险较高的运动员方面显示出潜力，表明客观生物指标在早期预后分层中的潜在作用。同样，基于神经影像学的模型使用AI从高级成像数据中提取预后相关的模式，支持即使传统成像看起来正常时，细微的脑网络变化也可能具有预后价值的概念。最近针对儿童和青少年的研究进一步强调了年龄和性别特定因素的预后重要性，强调不同人群之间的恢复轨迹和风险特征可能存在显著差异。大多数预后研究采用了多模态建模策略，整合了临床、人口统计、功能和背景变量以提高预测性能。这种方法与SRC恢复的多因素性质相符，反映了从单变量预测因子向整体预后框架的转变。然而，尽管性能指标令人鼓舞，但大多数模型都是使用回顾性或登记数据开发的，并且缺乏强有力的外部验证，限制了它们的即时临床适用性。从临床角度来看，基于AI的预后工具为个性化回到比赛的规划和针对性随访提供了潜在支持，特别是在识别恢复延迟风险较高的运动员方面。尽管如此，不同研究在结果定义、随访持续时间和恢复阈值方面存在显著差异，这使得跨研究比较和普遍性变得复杂。预后终点范围从症状缓解到功能结果和二次受伤风险，突显了SRC研究中缺乏标准化恢复指标的情况。总体而言，基于AI的预后模型代表了SRC护理路径中一个有前景但仍在发展的领域。虽然现有证据表明它们在预测恢复轨迹和识别高风险个体方面具有潜在的附加价值，但这种贡献仍然高度依赖于结果定义和数据质量。确实，许多预后研究具有中等的偏见风险，这主要是由于回顾性设计、样本量有限以及验证策略的多样性所致。未来的进步将需要标准化的预后终点、前瞻性研究设计和外部验证，以及更清晰地整合预后输出到临床决策中。

4.4. 预防与风险建模：从生物力学洞察到可操作的风险分层
基于AI的预防和风险建模方法关注SRC护理路径的上游阶段，侧重于在临床表现之前估计受伤风险和头部创伤的机制理解，而不是诊断或伤后管理。在该领域包含的研究中，AI主要应用于非临床或伤前数据，将重点从伤后评估转移到预测性风险估计和预防性决策支持。大多数这类研究依赖于有限元（FE）头部模型或实验得出的运动学数据来估计特定区域的脑应变和受伤易感性。AI技术（包括DL架构和基于回归的ML模型）被训练用来近似FE得出的结果，能够快速估计原本需要计算密集型模拟的受伤指标。在受控撞击条件下训练的基于AI的代理模型已经证明能够在计算成本大大降低的情况下快速估计生物力学受伤指标。这些方法与传统的FE模型高度一致，同时显著减少了计算成本，支持它们在设备评估、规则修改和暴露管理中的潜在应用。除了机械建模之外，一些研究还应用AI根据头部运动学来估计撞击严重程度或受伤可能性，以及使用季前临床、人口统计或功能变量进行基线风险分析。这样的模型旨在识别在随访期间SRC或相关受伤风险较高的运动员，从而提供预防策略和针对性干预的信息。然而，该领域的结果通常使用代理或间接终点（如生物力学阈值或受伤发生）来定义，而不是临床裁决的脑震荡。从临床角度来看，基于AI的预防和风险建模工具为个性化回到比赛的规划和针对性随访提供了有价值的见解，特别是在识别恢复延迟风险较高的运动员方面。然而，结果定义、随访持续时间和恢复阈值在不同研究中存在显著差异，这使得跨研究比较和普遍性变得复杂。预后终点从症状缓解到功能结果和二次受伤风险不等，凸显了SRC研究中缺乏标准化恢复指标的问题。总体而言，基于AI的预后模型代表了SRC护理路径中一个有前景但仍在发展的领域。虽然现有证据表明它们在预测恢复轨迹和识别高风险个体方面具有潜在的附加价值，但这种贡献仍然高度依赖于结果定义和数据质量。确实，许多预后研究具有中等偏见风险，这主要是由于回顾性设计、样本量有限和验证策略的多样性所致。未来的进步将需要标准化的预后终点、前瞻性研究设计和外部验证，以及更清晰地将预后输出整合到临床决策中。

4.5. 限制与未来展望
在解释本综述的发现时，应承认当前文献的一些局限性。值得注意的是，大多数包含的研究集中在男性运动员身上，女性参与者代表性不足。这种不平衡可能阻碍模型在不同性别之间的普遍性，特别是考虑到性别在SRC发病率、症状表现和恢复时间方面的差异。此外，尽管有证据表明儿童和青少年运动员对脑震荡的神经生理反应不同，但他们经常与成人一起被纳入研究。开发针对性别和年龄的AI模型可以显著提高诊断准确性和恢复预测，支持个性化的回到比赛协议。从方法论的角度来看，整体证据质量中等，许多研究受到小样本量或单一中心队列、有限的外部验证和异质结果定义的限制。这些因素限制了在不同运动项目、竞技水平和临床环境中的普遍性。一个特别关键的问题是数据集不平衡。在许多队列中，脑震荡运动员只占总样本的一小部分。在这种情况下，为总体准确性优化的模型可能会主要预测非脑震荡类别而表现出看似高的性能，而不提供有意义的临床区分。未能通过采样策略、适当的指标或成本敏感的学习来适当解决类别不平衡是当前SRC AI研究中的一个关键方法论弱点。与此问题密切相关的是真实标签标注的问题。在不同研究中，脑震荡标签是根据不同的参考标准得出的，包括临床判断、标准化评估工具（例如SCAT?）、症状报告、影像学发现或代理结果。由于缺乏统一的SRC诊断标准，这种变异性引入了标签噪声，可能显著阻碍模型学习，并部分解释了研究之间结果的一致性不足。未来的研究应优先透明地报告标注程序，并探索多模态或基于共识的标注策略。另一个限制是AI模型中上下文信息的使用。静态变量如性别或年龄有时被包含在监测或监控模型中作为预测因子，尽管它们在动态事件级别的监控任务中的信息能力有限。虽然这些变量可能对分层或预后建模有用，但在实时监控中的作用应明确区分，以避免夸大其临床效用。尽管在几个领域中表现出令人鼓舞的性能，但模型的可解释性仍然是临床采用的一个关键障碍。许多高性能的模型依赖于复杂的机器学习（ML）或深度学习（DL）架构，这些架构基本上是“黑箱”，我们对其如何生成预测结果的了解非常有限。在大多数情况下，性能指标的报道并未附带可解释性分析，这可能会降低临床医生的信任度以及监管机构的认可度。尽管一些研究隐含地使用了具有生理学或生物力学意义的特征，但系统性地应用可解释的人工智能（AI）方法仍然很少。最后，伦理和实际挑战也需要关注。针对特定运动（如美式足球）、地区或人群特征的训练数据集可能会导致算法偏见，从而对代表性不足的群体产生不利影响。为了确保不同人群（尤其是女性、儿童和少数族裔运动员）的公平评估，需要更多样化的数据集、注重公平性的建模方法以及分层化的性能报告机制。总体而言，未来的进展将依赖于临床医生、AI专家、研究者和政策制定者之间的跨学科合作，AI应被视为补充而非替代临床判断的工具，以实现更准确、透明和个性化的运动相关伤害（SRC）护理。

5. 结论
从传统的ML模型到先进的DL架构，基于AI的方法展示了在提高诊断敏感性、检测细微生理变化以及支持更个性化的SRC管理决策（包括重返赛场策略）方面的潜力。在多个领域，尤其是在脑电图（EEG）分析、语音评估和可穿戴传感器数据方面，基于AI的方法相较于传统方法表现出了良好的性能。然而，这些结果应谨慎解读，因为所报告的性能指标受到数据集规模、类别不平衡和研究设计的显著影响。

尽管有这些积极的信号，AI在常规SRC管理中的整合仍处于早期阶段。目前，AI应主要被视为一种决策支持工具，而不是自主的诊断系统。

从运动医学的角度来看，未来的研究应优先考虑大规模、多中心的前瞻性研究，这些研究应包括预先规划的外部验证、标准化的结果定义以及针对女性和青少年运动员的分层招募，以确保基于AI的SRC工具具有鲁棒性、普遍适用性和临床可行性。

**作者贡献**
- Marco Vecchiato：概念构思；方法学；监督；撰写初稿；审阅与编辑；项目管理；通讯作者
- Filippo Dal Ponte：数据整理；形式分析；撰写初稿；可视化
- Emanuele Zanardo：数据整理；形式分析
- Stefano Palermi：验证；审阅与编辑
- Marco Bazo：审阅与编辑
- Daniel Neunhaeuserer：方法学；监督；审阅与编辑
- Andrea Ermolao：监督；资源协调；审阅与编辑
- Silvia Bressan：验证；审阅与编辑；临床 expertise
- Veronica Baioccato：方法学；数据整理；审阅与编辑

**伦理批准和参与同意**
- 不适用

**声明与披露**
- 发表同意：不适用

**数据和材料的可用性**
- 本研究支持的数据可应要求向通讯作者获取

**利益冲突**
- 所有作者声明没有利益冲突

**资金来源**
- 本研究未获得公共部门、商业机构或非营利组织的任何特定资助

**作者贡献**
- 所有作者都对本研究做出了实质性贡献，并参与了手稿的修订工作。所有作者均审阅并批准了最终提交版本。

热点排行