LLM驱动的多模态生理信号分析与医学引导提示在吞咽障碍筛查中的应用研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月19日 来源：IEEE Transactions on Neural Systems and Rehabilitation Engineering 5.2

编辑推荐：

　　本文研究针对脑卒中患者常见的吞咽障碍并发症，其临床传统筛查方法存在可及性、可靠性及侵入性局限。为解决数据有限和多模态信号复杂的挑战，研究人员开展了基于大语言模型（LLM）的吞咽障碍筛查框架研究。该研究整合喉部振动、鼻气流和吞咽声音等多模态生理信号，并利用LLM的强大推理能力进行分析。通过设计医学引导的提示模板，有效聚焦吞咽障碍相关模式。研究结果显示，所提方法在包含217名参与者的队列中，分类准确率达96.3%，显著优于基线模型，且在少样本学习中仍保持稳健性能，展现出优异的泛化能力，为临床早期吞咽障碍筛查提供了创新性解决方案。

吞咽，这个我们每餐饭都要重复数十次的动作，对健康人而言平常到几乎被忽略，但对于脑卒中患者来说，却可能成为一个隐藏的致命威胁。吞咽障碍（Dysphagia）是脑卒中后最常见的并发症之一，它悄无声息地增加着患者发生吸入性肺炎、营养不良甚至死亡的风险。及时、准确地识别吞咽障碍，是改善患者预后、降低相关并发症的关键第一步。然而，临床实践中这一步走得并不轻松。传统的筛查与诊断方法，如床边吞咽筛查，其可靠性往往依赖于操作者的经验；而被视为“金标准”的电视荧光吞咽造影检查（VFSS），则受限于设备可及性、辐射暴露以及侵入性操作，难以作为常规、广泛的筛查工具广泛应用。面对临床筛查的迫切需求与现有技术局限之间的矛盾，一项融合前沿人工智能技术与多模态生物信号分析的研究应运而生，旨在为吞咽障碍的早期识别开辟一条智能化、精准化的新路径。

这项题为“LLM-Powered Dysphagia Screening with Multimodal Physiological Signal Analysis and Medically-Informed Prompts”的研究，发表在《IEEE Transactions on Neural Systems and Rehabilitation Engineering》期刊上。研究团队敏锐地捕捉到两个核心挑战：可用于分析的生理信号数据相对有限，以及从喉部振动、鼻气流、吞咽声音等多模态信号中提取有效判别特征的复杂性。为了应对这些挑战，他们创新性地提出了一个基于大语言模型（Large Language Model, LLM）的筛查框架。这个框架的巧妙之处在于，它并非将LLM用于处理文本，而是将其强大的模式识别与推理能力，应用于对多通道生理信号数据的“解读”上。研究人员设计了一种融合医学先验知识的提示模板，将个体属性、关键的生物信号特征以及具体的分析任务指令整合其中，从而有效地引导LLM关注与吞咽障碍相关的特异性模式，化复杂信号为可判别的“语言”。

研究招募了总计217名参与者，形成了一个具有良好对照的队列，其中包括109名存在吞咽障碍的脑卒中后患者和108名健康个体。通过对这些参与者进行信号采集，研究最终生成了1,391个吞咽障碍样本和1,273个健康对照样本，构建了用于模型训练与评估的数据基础。评估结果表明，所提出的LLM驱动方法展现出了卓越的性能，在吞咽障碍分类任务中达到了96.3%的准确率，显著超越了作为对比的各类基线模型。尤为值得一提的是，该模型在少样本学习场景下依然保持了稳健的性能，这凸显了其强大的泛化能力，即在数据有限的新临床环境中也能可靠工作的潜力。这项研究证实，通过有效整合多模态生物信号并利用提示驱动的推理，基于LLM的框架为临床早期吞咽障碍筛查提供了一个极具前景的解决方案，具有广泛的临床应用价值。

关键技术方法概述

为开展研究，团队主要运用了以下关键方法：1. 多模态生理信号采集与处理：同步采集受试者的喉部振动（通过加速度计）、鼻气流（通过鼻插管式热敏传感器）和吞咽声音（通过颈部麦克风）信号，构成分析基础。样本队列来源于109名脑卒中后吞咽障碍患者和108名健康志愿者。2. LLM驱动分析框架构建：创新性地将多通道生理信号数据转化为适合大语言模型处理的序列格式，并设计医学引导的提示模板，将受试者个体信息、信号关键特征与分类任务指令结合，以引导模型推理。3. 模型训练与评估策略：在生成的2,664个样本（1,391个障碍，1,273个健康）数据集上训练模型，采用严格的评估指标（如准确率、灵敏度、特异度）并与传统机器学习模型（如支持向量机SVM、随机森林）进行性能对比。同时，设置了少样本学习场景以验证模型的泛化与数据利用效率。

研究结果

•
多模态信号特征的有效性：通过对喉部振动、鼻气流和吞咽声音信号的时域、频域及非线性特征分析，研究发现吞咽障碍患者的信号在振幅、时序协调性及谱能量分布上与健康对照存在显著差异，这些特征为后续的模型判别提供了关键依据。
•
LLM框架的分类性能：所提出的基于LLM的筛查模型在测试集上实现了96.3%的整体分类准确率，其灵敏度和特异度也分别达到较高水平，证明其能有效区分吞咽障碍与健康吞咽。
•
与基线模型的性能对比：与支持向量机（SVM）、随机森林、卷积神经网络（CNN）等基线模型相比，LLM框架在准确率、F1分数等核心指标上均表现出显著优势，尤其在处理多模态信号复杂关联和非线性模式方面能力更强。
•
少样本学习下的稳健性：在仅使用少量训练样本（如总样本的10%、20%）的场景下，LLM模型的性能下降幅度远小于传统深度学习模型，保持了较高的分类能力，证明了其卓越的数据效率和泛化能力，更贴近临床数据获取有限的现实。
•
医学提示模板的贡献分析：通过消融实验（即对比实验）发现，移除医学引导提示模板中的关键组成部分（如个体属性、任务指令）会导致模型性能明显下降，这验证了精心设计的提示对于引导LLM聚焦于吞咽障碍相关模式、提升判断准确性的重要作用。

结论与讨论

本研究成功开发并验证了一个基于大语言模型（LLM）的多模态生理信号分析框架，用于脑卒中后吞咽障碍的非侵入性、自动化筛查。核心结论表明，整合喉部振动、鼻气流及吞咽声音的信号，并通过医学知识引导的提示驱动LLM进行推理，能够实现对吞咽障碍高精度（96.3%准确率）且高效率的分类。这不仅显著优于传统机器学习方法，更在少样本条件下展现出强大的稳健性与泛化潜力。

其重要意义在于，该研究为吞咽障碍的临床筛查提供了一种颠覆性的新思路。它跳出了依赖复杂影像或高度依赖检查者经验的传统范式，利用相对易于采集的生理信号和前沿人工智能的推理能力，有望实现更便捷、客观、可及性更强的床边或社区筛查。医学引导提示的引入，巧妙地将临床知识融入AI模型，增强了决策的可解释性与针对性。尽管未来仍需在更大规模、更多样化的临床队列中进一步验证，并探索模型的具体决策机制，但本研究无疑为将生成式AI的强大能力应用于临床生理信号分析与辅助诊断，开辟了一个极具示范性和前景的新方向，预示着智能技术在康复工程与精准医疗领域的深度融合与广阔应用前景。

联系信箱：

粤ICP备09063491号

热点排行