基于视觉 grounding 的胎儿超声视频理解语言模型 Sonomate 的构建与应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Nature Biomedical Engineering》：A visually grounded language model for fetal ultrasound understanding

【字体：大中小】 时间：2026年01月16日 来源：Nature Biomedical Engineering 26.6

编辑推荐：

　　本研究针对自由手胎儿超声检查对操作者临床技能要求高、全球熟练超声医师短缺的难题，开发了一款名为 Sonomate 的 AI 辅助系统。该系统通过联合粗粒度视频-文本对齐与细粒度图像-句子对齐，构建了能够理解胎儿超声视频的视觉 grounding 语言模型，实现了无需手动标注数据的胎儿超声图像解剖结构识别，并在图像和视频层面的视觉问答任务中表现出色。研究还设计了安全防护机制，为超声培训及诊断能力提升提供了可行的 AI 辅助技术路径。

超声成像作为一种无创、无辐射、便携且成本较低的医学诊断技术，在产科筛查与胎儿检查中具有重要应用。然而，自由手超声检查对操作者的技能要求极高，从新手到熟练超声医师通常需要数年时间，这不仅导致全球范围内高水平超声医师的短缺，也限制了超声技术在基层医疗机构的普及。现有基于自然图像训练的视觉-语言模型（如 CLIP）在生物医学领域表现不佳，因医学图像与文本的专业性较强，且同一术语在不同上下文中的视觉表现差异显著（如胎儿超声中的“头部”与自然图像中的“头部”差异明显）。此外，现有医学多模态模型主要针对静态图像或报告，缺乏对超声视频的时序理解能力，且未能充分考虑超声医师语言习惯与扫描场景的复杂性。

为此，来自牛津大学、香港浸会大学、哈利法大学等多机构的研究团队在《Nature Biomedical Engineering》上发表题为“A visually grounded language model for fetal ultrasound understanding”的研究，提出了名为 Sonomate 的超声医师助手。该研究利用 525 对胎儿超声视频与语音转录文本构建大规模多模态数据集，通过联合粗粒度视频-文本对齐和细粒度图像-句子对齐，构建了一种视觉 grounding 语言模型，能够实时理解超声视频内容，并支持解剖结构检测、图像级与视频级视觉问答（VQA）等多种下游任务。

研究关键技术方法主要包括：使用基于 BiomedCLIP 初始化的视觉编码器（ViT-B/16）与文本编码器（BERT），引入残差块增强视觉特征提取；提出解剖感知对齐与上下文标签校正策略，解决语言异质性与视频-音频时序异步问题；构建解剖知识图谱，增强解剖结构的识别与推理能力；设计多模态解码器实现开放式视觉问答；并集成防护机制（如分布外问题检测与问题复述生成）提升系统安全性。

数据集与挑战

研究使用 PULSE 研究中 525 对超声视频-音频数据，涵盖早、中、晚孕期扫描，视频平均时长 17.26 分钟，语音转录为 79,885 句文本。数据呈现两大挑战：语言异质性（约 2/3 语句与视觉内容无关）和时序异步性（医师常先讲解后操作）。

Sonomate 概述

模型通过粗粒度对比学习拉近配对视频-文本特征距离，推远非配对特征；细粒度对齐则优化句子与对应帧的相似性矩阵，结合解剖感知对齐与自适应标签校正提升跨模态对齐效果。

Sonomate 提升文本表征理解超声视频

特征可视化显示，Sonomate 在跨模态特征对齐方面显著优于 BiomedCLIP，不同解剖类别的文本特征分布区分度更高，时序对齐更清晰。

Sonomate 实现无需标注数据的解剖结构检测

在早孕期、中孕期及开源母胎超声数据集上，Sonomate 的解剖识别准确率显著优于 CLIP、PubMedCLIP 和 BiomedCLIP。知识增强的检测流程（如子类别拼接为句子）效果最佳。

Sonomate 支持知识增强的视觉问答

图像级与视频级 VQA 任务中，Sonomate 在生物测量、孕期判断、解剖分类等任务上准确率优于基线，且引入外部知识后性能进一步提升。

Sonomate 的防护机制与计算效率

通过分布外问题检测与问题复述生成防护机制，系统能有效过滤异常输入；计算效率评估显示，即使在 CPU 仅环境下，图像级任务推理时间约 100 毫秒，视频级任务随视频长度增加但仍满足实时性需求。

研究结论表明，Sonomate 是首个针对胎儿超声视频理解的医学视觉-语言基础模型，通过联合粗细粒度对齐策略，显著提升了解剖检测与视觉问答能力。该系统可辅助培训期及新晋超声医师进行实时扫描决策，减少重复扫描与患者召回，提升工作流程效率。未来需进一步优化对视觉相似解剖的区分、图像伪影的鲁棒性及非标准切面的识别能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号