通过整合人体结构先验来增强3D医学多模态大型语言模型在计算机断层扫描（CT）中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Enhancing 3D Medical Multi-Modal Large Language Models with Integrated Human Body Priors for Computed Tomography

【字体：大中小】 时间：2026年03月21日 来源：Pattern Recognition 7.6

编辑推荐：

　　CT影像分析中基于人体结构先验的医学大语言模型研究，提出BoiD指令数据集和IO-Cons解剖学一致性约束，无需额外数据即可显著提升语义分割、指引用户分割及视觉问答任务的性能。

曾丽蕾|刘杰|陈文婷|刘晨阳|李文曦|刘绍南|周先德|沈琳琳

深圳大学计算机科学与软件工程学院，中国深圳

摘要

计算机断层扫描（CT）的指数级增长，加上放射科医生数量的停滞，迫切需要自主的3D医学图像分析来减轻放射科的工作负担。虽然医学多模态大语言模型（Med-MLLMs）已成为一种有前景的解决方案，但现有方法主要集中在扩大数据规模和提高注释质量上。然而，这些方法不可避免地面临着医学数据获取中的根本性挑战，特别是患者隐私问题和伦理考虑。为了解决这些问题，我们提出了Body-Prior，这是一个针对3D CT的新框架，它将重点从数据量转移到结合结构先验知识上，从而在不需要额外数据收集的情况下提高性能。我们的方法包括两个关键组成部分：（1）Body-Prior指令数据集（BoiD），它将复杂的解剖学关联和拓扑特征整合到指令数据集中；（2）器官间一致性约束（IO-Cons），它在特征空间中强制部分-整体关系，以确保解剖学一致性。Body-Prior处理高分辨率CT扫描，并根据给定的指令生成文本和视觉响应。在包括语义分割、参考分割和VQA在内的各种放射学任务中进行的广泛实验表明，Body-Prior显著优于现有方法。我们的框架为提高放射学工作流程的效率和准确性提供了有希望的解决方案。为了促进Med-MLLMs的研究，我们将发布我们的数据、代码和模型。

引言

计算机断层扫描（CT）已成为现代医疗保健中不可或缺的工具，据估计全球每年进行3.75亿次扫描[1]，并且每年以3%到4%的速度稳步增长[2]。然而，放射学领域面临一个重大挑战：过去几十年来，放射科住院医师的位置数量相对保持不变。例如，在2010年到2020年间，进入放射科工作的放射科培训生数量仅增加了2.5%[3]。这种快速增长的需求与不足的放射科职位之间的严重不匹配，导致现有放射科医生的负担大幅增加。因此，找到有效的方法来减轻放射科医生的工作负担已成为一个紧迫的问题。

最近在多模态大语言模型（MLLMs）方面的进展展示了它们处理多种类型数据的强大能力，在自动驾驶和机器人技术等各个领域显示出有前景的能力[4]、[5]。受这些发展的启发，提出了许多用于2D医学成像的医学多模态大语言模型（Med-MLLMs）[6]、[7]、[8]、[9]、[10]、[11]，以减轻放射科医生面临的日益增加的负担。随着近年来3D成像的普及[12]，一些研究开始探索使用MLLMs进行3D医学成像分析[13]、[14]、[15]。

尽管取得了显著进展，但在医学多模态学习领域仍存在一个主要障碍：现有研究主要集中在数据规模和注释准确性上，这些研究遵循传统的深度学习协议。虽然这种方法提高了性能，但未能解决医学数据获取中的根本性挑战，特别是隐私和伦理问题。在医学领域，严格的隐私规则限制了数据共享，阻碍了大型数据集的创建，从而影响了模型的训练效果和泛化能力。另一方面，如腹部CT扫描等医学成像包含了丰富的器官结构信息，这些信息编码了解剖关系、空间配置和生理约束，可以显著增强MLLMs的理解能力。

受此启发，我们提出了一个专门为3D Med-MLLMs设计的新框架，称为Body-Prior。该框架可以将CT扫描作为输入，并根据给定的指令生成文本和视觉响应，如图1所示。Body-Prior采用双编码器架构：一个粗略的图像编码器用于文本响应，一个精细的图像编码器用于视觉输出。粗略编码器对高分辨率CT进行下采样以捕获图像级表示，而精细编码器在像素级别处理CT，从而实现文本和视觉输出的同步生成。在此基础上，我们引入了两个关键模块来结合结构先验知识。1）Body-Prior指令数据集（BoiD）：受到医生理解人体解剖学方式的启发[16]、[17]、[18]，BoiD将复杂的解剖特征之间的关联（包括器官位置、形状和拓扑特征）封装起来。我们通过知识树和基于知识树的提示系统实现这一点，自动生成经过验证的指令。这可以显著提高模型在解释CT扫描数据时的文本响应能力，使其符合已建立的解剖学原理。2）器官间一致性约束（IO-Cons）：IO-Cons强制解剖结构及其组成部分之间的部分-整体关系。它利用关于解剖结构的详细文本信息来整合视觉特征，确保部分表示与整体解剖结构之间的一致性。这一组件增强了模型在特征空间中对解剖关系的理解能力，从而实现视觉生成。

为了验证我们提出的框架在放射科医生日常工作中的有效性，我们进行了全面的实验，评估了Body-Prior在多种任务中的表现，包括语义分割、参考分割和VQA，这些任务涵盖了封闭和开放格式。此外，我们还进行了消融研究，证明将人体先验知识整合到现有数据集中可以在不需要额外数据收集的情况下显著提高性能，突显了利用领域特定知识来提升Med-MLLMs性能的潜力。总之，我们的贡献如下：

•
我们提出了Body-Prior框架，这是一个具有40亿参数的新型指令调优的Med-MLLM。该框架能够处理高分辨率CT扫描，并根据给定的指令生成文本和视觉响应。
•
我们首次尝试将人体先验整合到Med-MLLMs中。我们引入了Body-Prior指令数据集（BoiD）和器官间一致性约束（IO-Cons），以指导Med-MLLMs发展出更全面和连贯的人体解剖学理解。
•
我们在放射科医生的日常工作中验证了Body-Prior的有效性，证明了其在多任务场景中的优越性能。

章节片段

医学MLLMs

MLLMs的最新进展为医学图像分析带来了重大进展。医学MLLMs通常利用开源MLLMs（如LLaVA [19]、PaLM-E [20]和Flamingo [21]）的力量，并在专门的医学指令调优数据集上进行微调。这些模型（如MedCLIP [6]、BiomedCLIP [7]、XrayGPT [8]、LLaVA-Med [9]、Med-Flamingo [10]、CheXagent [22]和MAIRA-1 [23]）在各种临床相关的成像任务中展示了出色的能力

架构

Body-Prior的目标是构建一个能够处理图像x_I和文本x_T输入，并生成文本响应y_T和相应的图像掩码y_I的框架。为此，我们引入了框架的四个组成部分：一个粗略的图像编码器

E_{c}

，一个精细的图像编码器

E_{f}

，一个LLM

M

，以及一个文本驱动的解码器

D

，如图2所示。粗略的图像编码器

E_{c}

对高分辨率CT图像x_I进行下采样，并将其投影到语言空间以捕获全局信息。然后LLM

M

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

医学MLLMs

架构

热点排行