一种基于知识提示的、轻量级的多模态语言辅助系统，专为生物医学领域设计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：A knowledge prompt augmented lightweight multimodal language assistant for biomedicine

【字体：大中小】 时间：2026年03月20日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　提出BioMiLA-K轻量级多模态生物医学助手，通过知识匹配机制和实体注意力优化，利用ROCOv2数据构建多模态知识库，实现低资源环境下的精准医疗推理，在VQA基准上表现优异。

刘磊|苏向东|周星翔|高光来

内蒙古大学计算机科学学院，中国呼和浩特

摘要

在多模态大型语言模型中，由于推理的不确定性导致的幻觉是一个关键问题，因为在临床应用中事实的准确性至关重要。这一挑战在资源受限的轻型模型中更加突出，因为它们具有有限的能力和缺乏领域特定的知识。为了解决这个问题，我们提出了一个基于知识提示的轻型多模态语言助手，用于生物医学（BioMiLA-K）。BioMiLA-K将来自预构建知识库的相关实体作为提示，从而减少幻觉并提高推理能力。我们引入了一个知识匹配机制模块来进行多模态实体选择：一个生物医学视觉-语言预训练模型对医学图像进行编码，从知识库中检索相似的嵌入，并将它们与相应的文本实体关联起来。一个多层感知器模型通过交叉熵和排名损失进行训练，选择与提示最相关的实体。接下来，我们提出了一个实体注意力优化模块，该模块使语言模型能够通过计算实体、图像和问题之间的交叉注意力来动态评估实体的重要性。使用80,080对医学图像-文本对，我们构建了一个多模态知识库并生成了90,000个视觉指令样本。BioMiLA-K采用了两阶段指令调整：图像-标题对齐调整，然后在生成的数据上进行低秩适应微调。仅使用0.79亿个参数，它在多个医学视觉问答基准测试中取得了有竞争力的性能。它的数十亿规模使得它能够在配备24 GB内存的单一图形处理单元上进行训练和部署，这表明在基于生物医学人工智能的多模态语言系统中，显式的知识基础可以有效替代大型模型的规模。

引言

近年来，生成式预训练在自监督视觉-语言模型方面取得了显著进展。多模态大型语言模型（MLLMs），如multimodal LLaMA（Touvron等人，2023年）和LLaVA（Liu等人，2024年），通过指令调整在各种通用领域的视觉-语言任务中表现出了强大的性能。然而，将这些模型扩展到生物医学领域仍然具有挑战性。医学图像-文本数据具有领域特定的术语和细粒度的视觉语义，这需要专家级别的理解。现有的适应方法，如LLaVA-Med（Li等人，2024年），面临两个主要限制。首先，它们依赖于有限的标注医学数据，通常需要极大的模型规模，往往超过70亿个参数。这导致了高昂的计算成本，并限制了它们在资源受限的临床环境中的部署。其次，它们的推理仍然严重依赖于图像和问题之间的特征级融合。在缺乏显式、基于知识的基础上，这种浅层交互往往导致幻觉或无关的输出，特别是在处理复杂输入时。在第9.2节中证明，这种脆弱性在容量较小的模型中更为严重，这突显了对轻型但基于知识的MLLMs的迫切需求。

为了解决这些挑战，我们提出了BioMiLA-K，这是一个具有0.79亿个参数的基于知识提示的轻型医学图像-语言模型。BioMiLA-K将Qwen2.5-0.5B-Instruct（Team，2024年）语言模型与BiomedCLIP（Zhang等人，2023年）视觉编码器PubMedBERT_256-ViT集成在一起。与依赖大规模预训练的先前方法不同，BioMiLA-K利用RCOv2（Rückert等人，2024年）数据集（80,080对图像-标题对）来构建多模态医学知识库和指令微调数据集，并应用手动采样和专家策划来确保医学数据的准确性。图1提供了知识库构建和BioMiLA-K整体过程的概述。在Neo4j（Miller，2013年）知识库构建中，BiomedCLIP提取图像嵌入，并将它们存储在知识数据库中。同时，GPT-4（Achiam等人，2023年）将RCOv2标题和概念转换为实体-关系-实体三元组，并将它们与相应的图像嵌入关联起来。这使得BioMiLA-K能够通过向量化搜索高效地检索相关实体，从而提升其推理能力。在指令微调中，BioMiLA-K采用了两阶段策略。第一阶段冻结语言模型，同时仅微调视觉编码器和MLP投影器以进行图像-标题对齐。第二阶段将LoRA集成到语言模型中，将可训练参数从0.5B减少到0.5M，从而能够在90,000个GPT-4生成的样本上进行指令微调，以增强医学对话、推理和描述。

为了提高知识推理能力和减少幻觉，BioMiLA-K结合了两个关键组件：知识匹配机制（KMM）和实体注意力优化（EAO）。给定一张图像和一个问题，KMM通过将BiomedCLIP提取的图像嵌入与知识库中存储的图像嵌入进行匹配来检索相关文本实体。一个轻量级的MLP通过交叉熵和排名损失进行训练，将图像和实体嵌入投影到一个统一的语义空间中，以优化前k个实体的选择。这些实体与图像和问题一起作为BioMiLA-K的输入。为了进一步优先考虑显著的实体信息，EAO引入了一个自监督注意力损失，使语言模型能够动态调整实体之间的注意力权重。KMM和EAO共同确保BioMiLA-K生成基于准确医学知识的响应，从而提高事实一致性。

尽管BioMiLA-K是知识增强的，但它与检索增强生成（RAG）范式（Lewis等人，2020年）有根本的不同。首先，传统的RAG方法通常仅执行文本检索，并将检索到的文档或段落直接连接到语言模型提示中。相比之下，KMM进行多模态实体级检索，其中医学图像与问题一起编码以检索视觉上基于医学的实体，而不是非结构化的文本片段。其次，EAO不是简单地连接提示，而是在语言模型内部执行基于注意力的实体融合，根据与图像和问题的交叉注意力动态重新加权检索到的实体。最后，BioMiLA-K通过监督交叉熵和自监督注意力损失显式优化实体相关性，而RAG通常将检索视为一个外部的、不可训练的模块。这些设计选择使BioMiLA-K能够在标准RAG流程之外实现结构化、可控的知识基础。

我们在多个生物医学视觉-语言任务上评估了BioMiLA-K，并展示了其强大的性能。BioMiLA-K仅需要0.79亿个参数和高效的架构，推理只需要16 GB的GPU内存，训练需要24 GB的内存，使其适合在资源受限的实际临床环境中部署。虽然这项工作主要关注轻型MLLMs，但提出的KMM和EAO是模型无关的，可以轻松集成到不同的架构中。

部分片段

聊天机器人应用中的大型语言模型

LLMs（J. Wu等人，2023年；Chang等人，2024年）显著推动了聊天机器人技术的发展，使得对话更加自然和具有上下文意识。例如，BERT（Devlin，2018年）因其能够在各种领域产生类似人类的响应而被广泛用于对话生成和问答任务。同样，GPT-4（Achiam等人，2023年）通过出色的上下文理解和复杂对话场景管理能力增强了聊天机器人的理解能力。

多模态医学知识库

为了增强模型的多模态推理能力，我们构建了一个整合了图像嵌入和文本实体的生物医学多模态知识库。这个知识库利用了视觉和文本模式之间的关系，为大型语言模型提供了更丰富的上下文信息，改善了模型的推理过程。图2展示了我们多模态知识库的构建过程。尽管RCOv2作为初始知识

视觉指令数据集

在这项研究中，我们使用RCOv2（Rückert等人，2024年）医学图像数据集构建了问答（QA）对、详细描述和复杂推理数据。RCOv2包含80,080对图像-标题对，每对都配有关联的医学概念。为了生成高质量的多模态指令遵循数据，我们使用了GPT-4（Achiam等人，2023年）模型，并通过提示生成数据。遵循类似于LLaVA（Liu等人，2024年）和LLaVA-Med（Li等人，2024年）的方法

指令微调

作为基础，我们描述了BioMiLA-K模型的架构。我们采用BioMedCLIP（Zhang等人，2023年）的PubMedBERT_256-ViT视觉编码器作为图像特征提取器，然后是一个MLP投影器，将提取的图像特征映射到与文本嵌入相同的维度。对于语言模型，我们选择了Qwen2.5-0.5B-Instruct（Yang等人，2024年；Team，2024年），这是一个高度竞争性和轻量级的LLM，用于理解多模态输入并生成响应。

知识匹配机制

图8展示了BioMiLA-K的完整过程，包括知识实体的应用和多模态LLM模型的构建。与传统的检索增强流程不同，后者将知识检索视为一个静态的预处理步骤，BioMiLA-K引入了可学习的KMM，用于进行适应性和弱监督的实体选择，以支持下游推理。对于给定的图像和问题，我们首先使用BiomedCLIP获取图像的嵌入。

实体注意力优化

为了减少特征不匹配的影响，KMM过滤掉低相关性的实体，并选择前k个实体用于提示。即使检索到的实体不完美，我们也设计了实体注意力优化（EAO），以确保语言模型能够专注于语义上对齐的实体，从而减轻特征漂移的负面影响，如图8所示。模型的输入包括图像、问题和一组选定的实体。图像使用PubMedBERT（BiomedCLIP

实验

我们进行了一系列实验来评估BioMiLA-K模型在生物医学多模态对话任务中的性能。实验的主要目标是评估：（1）BioMiLA-K作为开放式生物医学视觉聊天机器人的有效性；（2）BioMiLA-K与现有方法（如LLaVA-Med（Li等人，2024年）在标准MedVQA基准测试上的比较。

中文问题的零样本性能

我们在英文和中文数据集上测试了BioMiLA-K的零样本能力，以评估其跨语言性能。如图11所示，左侧展示了BioMiLA-K在英文VQA-RAD数据集上的零样本结果，该模型在解释和回答医学问题方面表现出强大的理解和准确性。右侧展示了BioMiLA-K在中文SLAKE数据集上的表现，显示出其准确理解和回答中文问题的能力

结论

在本文中，我们介绍了BioMiLA-K，这是一个增强了实体知识的轻型多模态生物医学聊天机器人。利用GPT-4和RCOv2数据集，我们引入了一个多模态知识库、指令微调数据，并提出了知识匹配机制和实体注意力优化，以增强语言模型中的实体检索和知识整合。这些策略使BioMiLA-K能够将结构化的生物医学知识作为提示，显著

CRediT作者贡献声明

刘磊：写作——审阅与编辑，撰写原始草稿，可视化，验证，方法论，数据策划，概念化。苏向东：写作——审阅与编辑，验证，监督，资源管理，项目管理，资金获取。周星翔：撰写原始草稿，可视化，验证，方法论，数据策划，概念化。高光来：写作——审阅与编辑，验证，监督，资源管理，项目管理

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

这项工作得到了国家自然科学基金（资助编号：62366036）、国家教育科学规划项目（资助编号：BIX230343）、内蒙古自治区杰出青年基金项目（资助编号：2025JQ010）、内蒙古自治区高等学校青年科技人才计划（资助编号：NJYT24033）、中国政府促进地方科学技术发展基金（资助

联系信箱：

粤ICP备09063491号

摘要

引言