《Nature Biomedical Engineering》:A visually grounded language model for fetal ultrasound understanding
编辑推荐:
本研究针对自由手胎儿超声检查对操作者临床技能要求高、全球熟练超声医师短缺的难题,开发了一款名为 Sonomate 的 AI 辅助系统。该系统通过联合粗粒度视频-文本对齐与细粒度图像-句子对齐,构建了能够理解胎儿超声视频的视觉 grounding 语言模型,实现了无需手动标注数据的胎儿超声图像解剖结构识别,并在图像和视频层面的视觉问答任务中表现出色。研究还设计了安全防护机制,为超声培训及诊断能力提升提供了可行的 AI 辅助技术路径。
超声成像作为一种无创、无辐射、便携且成本较低的医学诊断技术,在产科筛查与胎儿检查中具有重要应用。然而,自由手超声检查对操作者的技能要求极高,从新手到熟练超声医师通常需要数年时间,这不仅导致全球范围内高水平超声医师的短缺,也限制了超声技术在基层医疗机构的普及。现有基于自然图像训练的视觉-语言模型(如 CLIP)在生物医学领域表现不佳,因医学图像与文本的专业性较强,且同一术语在不同上下文中的视觉表现差异显著(如胎儿超声中的“头部”与自然图像中的“头部”差异明显)。此外,现有医学多模态模型主要针对静态图像或报告,缺乏对超声视频的时序理解能力,且未能充分考虑超声医师语言习惯与扫描场景的复杂性。
为此,来自牛津大学、香港浸会大学、哈利法大学等多机构的研究团队在《Nature Biomedical Engineering》上发表题为“A visually grounded language model for fetal ultrasound understanding”的研究,提出了名为 Sonomate 的超声医师助手。该研究利用 525 对胎儿超声视频与语音转录文本构建大规模多模态数据集,通过联合粗粒度视频-文本对齐和细粒度图像-句子对齐,构建了一种视觉 grounding 语言模型,能够实时理解超声视频内容,并支持解剖结构检测、图像级与视频级视觉问答(VQA)等多种下游任务。
研究关键技术方法主要包括:使用基于 BiomedCLIP 初始化的视觉编码器(ViT-B/16)与文本编码器(BERT),引入残差块增强视觉特征提取;提出解剖感知对齐与上下文标签校正策略,解决语言异质性与视频-音频时序异步问题;构建解剖知识图谱,增强解剖结构的识别与推理能力;设计多模态解码器实现开放式视觉问答;并集成防护机制(如分布外问题检测与问题复述生成)提升系统安全性。
数据集与挑战
研究使用 PULSE 研究中 525 对超声视频-音频数据,涵盖早、中、晚孕期扫描,视频平均时长 17.26 分钟,语音转录为 79,885 句文本。数据呈现两大挑战:语言异质性(约 2/3 语句与视觉内容无关)和时序异步性(医师常先讲解后操作)。
Sonomate 概述
模型通过粗粒度对比学习拉近配对视频-文本特征距离,推远非配对特征;细粒度对齐则优化句子与对应帧的相似性矩阵,结合解剖感知对齐与自适应标签校正提升跨模态对齐效果。
Sonomate 提升文本表征理解超声视频
特征可视化显示,Sonomate 在跨模态特征对齐方面显著优于 BiomedCLIP,不同解剖类别的文本特征分布区分度更高,时序对齐更清晰。
Sonomate 实现无需标注数据的解剖结构检测
在早孕期、中孕期及开源母胎超声数据集上,Sonomate 的解剖识别准确率显著优于 CLIP、PubMedCLIP 和 BiomedCLIP。知识增强的检测流程(如子类别拼接为句子)效果最佳。
Sonomate 支持知识增强的视觉问答
图像级与视频级 VQA 任务中,Sonomate 在生物测量、孕期判断、解剖分类等任务上准确率优于基线,且引入外部知识后性能进一步提升。
Sonomate 的防护机制与计算效率
通过分布外问题检测与问题复述生成防护机制,系统能有效过滤异常输入;计算效率评估显示,即使在 CPU 仅环境下,图像级任务推理时间约 100 毫秒,视频级任务随视频长度增加但仍满足实时性需求。
研究结论表明,Sonomate 是首个针对胎儿超声视频理解的医学视觉-语言基础模型,通过联合粗细粒度对齐策略,显著提升了解剖检测与视觉问答能力。该系统可辅助培训期及新晋超声医师进行实时扫描决策,减少重复扫描与患者召回,提升工作流程效率。未来需进一步优化对视觉相似解剖的区分、图像伪影的鲁棒性及非标准切面的识别能力。