LLM2image：一种利用病理图像和语义信息准确诊断腹泻病毒的新框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computerized Medical Imaging and Graphics》：LLM2image: A novel framework for accurate diagnosis of diarrhea viruses using pathological images and semantic information

【字体：大中小】 时间：2026年02月22日 来源：Computerized Medical Imaging and Graphics 4.9

编辑推荐：

　　病理图像分类准确率提升至89.51%，通过大语言模型生成病理描述与图像特征融合的跨模态Transformer框架实现，在猪腹泻病毒和人类结直肠癌数据集上验证有效性，并部署为轻量级诊断应用。

刘良亮|牛子照|赵凤杰|张龙贤

河南农业大学，郑州，460045，河南省，中华人民共和国

摘要

从组织病理图像中准确诊断腹泻病毒对兽医医学和动物疾病控制至关重要。然而，现有的深度学习方法通常仅依赖视觉特征，缺乏临床语义的整合，并且难以应对有限的标注数据。为了克服这些限制，我们提出了LLM2image，这是一个多模态框架，通过将视觉特征与大型语言模型（LLMs）生成的语义丰富的文本描述相结合来提高病理图像分类的准确性。该框架包括：（1）用于图像表示的像素级MLP编码器；（2）用于生成特定类别病理描述的GPT-4.0；（3）通过多头注意力机制对齐视觉和文本特征的多模态融合变换器。在包含516张猪肠道图像的内部数据集上进行评估，这些图像涵盖了健康、ETEC、PDCoV和PoRV四种类别，该方法实现了89.51%的准确率，超过了最先进的模型，并与具有10年经验的兽医的诊断性能相当。在公共PAIP2020结直肠癌数据集上的外部验证进一步证实了其泛化能力，准确率为87.42%。消融研究和视觉注意力分析表明，包含LLM生成的文本显著提高了分类准确性和可解释性。该模型已被部署为轻量级Android应用程序，支持离线快速诊断，凸显了其在实际兽医和医疗应用中的潜力。

引言

像ETEC、PDCoV和PoRV这样的腹泻病毒对动物健康构成重大威胁，尤其是在仔猪中，表现为厌食（Xu等人，2025年）、腹泻、呕吐和脱水。组织病理检查通常会显示肠壁变薄、黏膜出血和肠系膜淋巴结肿大。因此，准确诊断对于有效控制疾病至关重要（Yamamura等人，2023年；Oberholster等人，2024年）。在动物病理学研究中，解剖后的病理图像对于诊断病毒性疾病是不可或缺的（Jelicks等人，2013年）。病理图像作为诊断窗口，揭示了详细的组织和器官病变，并为病毒性疾病诊断提供了关键的视觉证据（Ohshima，2010年）。

尽管具有诊断价值，但组织病理图像分析仍然具有挑战性（Gu等人，2025年）。这需要专门的知识，然而训练有素的兽医病理学家却很少，而且观察者之间的差异很常见（Liu等人，2025a）。此外，图像采集和预处理工作量大，且对程序变化（如组织处理和染色方案）非常敏感。这些因素共同阻碍了诊断效率和可扩展性。大量的病理图像数据使得手动分析效率低下，限制了大规模快速诊断的能力。因此，整合人工智能可以提高诊断准确性和效率，减轻病理学家的工作负担，并加强动物疾病控制措施。另一个挑战是多模态数据源之间的脱节。病理图像和临床数据（例如症状、流行病学史）通常被孤立分析，阻碍了对疾病机制的深入研究（Wu等人，2025年）。例如，在研究环状病毒引起的免疫抑制和继发感染时，缺乏病理数据和临床数据之间的整合阻碍了对潜在机制的探索，限制了对疾病发病机制的全面理解。

人工智能（AI）在医学成像领域展示了变革潜力。深度学习模型在疾病分类、预后预测和计算机辅助诊断方面取得了显著成功（Liu等人，2020年；Xu，2025年；Yu等人，2025年）。最近，结合成像和文本数据的多模态方法（如用于组织病理学的CLIP或基于变换器的放射学报告生成）进一步提高了模型的泛化能力和可解释性。例如，病理报告文本描述可以增强组织学图像的特征表示（例如CLIP模型在乳腺癌分类中的应用）（Alyakin等人，2024年），而图像到文本的生成（例如基于变换器的放射学报告合成）可以提高模型的可解释性（Nowak等人，2024年）。这些研究表明，将视觉特征与临床语义知识相结合显著提高了模型的泛化能力和决策可靠性。

这种协同作用符合医学诊断的多模态本质：临床医生将成像特征（例如细胞形态、组织结构）与文本临床数据（例如症状描述、病史）相关联。预训练的大型语言模型（LLMs）（Thirunavukarasu等人，2023年）通过将疾病-病理关联和标准化术语等医学先验知识嵌入到可转移的语义推理框架中，进一步促进了这一过程。

为了解决这一瓶颈，本研究提出了一种创新方法：从病理图像生成描述性文本，并利用大型语言模型（LLMs）中嵌入的语义知识来增强病毒病理图像模型中的特征表示。这反过来提高了动物病理图像中病毒分类的准确性。通过利用LLMs从大规模生物医学语料库中学习到的广泛语义知识，该方法能够为动物病理图像生成与上下文相关的文本描述，有效弥补了标注诊断文本的缺失。这些生成的描述提供了补充的语义线索，使基于图像的模型能够更有效地解释病理特征并进行更准确的病毒分类。

本文的主要贡献总结如下：

（1）我们提出了LLM2image，这是第一个将LLM生成的语义文本与组织病理图像相结合的多模态框架，有效解决了兽医病理学中标注文本数据稀缺的问题。

（2）该模型结合了一个基于变换器架构的新型多模态融合模块，该模块动态地对齐视觉特征和语言嵌入，从而实现了更强大和更可解释的特征表示。

（3）广泛的实验表明，LLM2image在内部猪病毒数据集和公共人类癌症数据集（PAIP2020）上都取得了最先进的性能，验证了其在不同物种和疾病领域的泛化能力。

（4）我们提供了全面的消融研究和视觉可解释性分析，表明文本引导的注意力机制有助于模型关注临床相关的病理区域。

部分摘录

病理图像采集

所有组织病理图像均来自河南农业大学的兽医病理实验室。2012年至2024年间，从中国河南省的大规模农场收集了516只腹泻仔猪的肠道组织样本。遵循标准化的协议进行组织固定、石蜡包埋、切片和H&E染色，以确保诊断的一致性。这些样本的详细信息见表1。这些仔猪表现出临床症状，如

方法

所提出的LLM2image框架旨在通过将视觉特征与语言生成的文本描述相结合来进行病理图像分类。如图2所示，该模型由三个主要部分组成：（a）基于像素级的MLP图像编码器；（b）由LLM驱动的图文生成模块；（c）多模态融合模块（见图1）。

实验设置

为了在有限的数据上获得可靠的估计结果，我们进行了分层5折交叉验证。为了应对训练样本有限的挑战，我们采用了迁移学习，利用预训练的特征来提高泛化能力。该模型用Python实现，并在NVIDIA 3090 GPU上使用Adam优化器进行训练，超参数设置为：200个周期、批量大小为3、学习率为0.001（通过初步实验调整）。提前停止（耐心值 =

讨论

本研究提出了LLM2image，这是一种新颖的方法，它从图像生成描述性文本，并利用LLMs的语义能力来增强病毒相关病理图像分析中的特征表示。这种方法显著提高了动物病理图像中病毒分类的准确性。通过利用大型预训练模型中嵌入的广泛语义知识，LLM2image为动物病理图像生成相应的描述性文本，从而

结论

在这项研究中，我们提出了LLM2image，这是一种新颖的多模态学习框架，它将组织病理图像中的视觉信息与大型语言模型生成的语义知识相结合。通过精心设计的跨模态融合机制，该模型在动物病毒性腹泻和人类结直肠癌数据集上都实现了卓越的分类准确性，展示了强大的泛化能力。LLM生成的文本的整合不仅弥补了

CRediT作者贡献声明

刘良亮：撰写——原始草稿，项目管理，数据管理，概念构思。牛子照：软件，资源，方法论。赵凤杰：软件，资源，数据管理。张龙贤：撰写——审阅与编辑，资金获取，正式分析。

出版同意声明

不适用

伦理和参与同意声明

不适用

资金声明

本项工作得到了国家“十四五”计划的重点研发项目（授权号2023YFD1801200）和河南省重点研发项目（授权号231111111500）的资助。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号