基于领域知识的双流图表示方法在多标签舌部图像识别中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月03日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　舌像图像多标签识别中，现有方法忽视领域知识。本文提出DKG-TSGR框架，通过语义流融合LLM生成的类别描述与层级结构优化语义表示，空间流利用语义引导的注意力机制学习区域特征，并构建双流图神经网络捕捉标签共现关系。实验表明该方法在mAP、F1分数和EMR指标上优于8种基准方法。

彭李|宋一飞|王小正|郭双|李龙飞

河南工业大学复杂性科学研究所，郑州，450001，中国

摘要

舌部图像已被证明与多种疾病有明显关联，准确的多标签识别是舌部图像分析的关键。当前的多标签识别方法仅考虑图像中的信息，忽略了舌部图像领域知识在多标签识别中的价值。为了克服这些挑战，我们提出了一种基于领域知识的双流图表示（DKG-TSGR）框架，该框架利用领域知识来指导跨类别的自适应信息传播。该框架包括两个关键模块：语义流和空间流。在语义流中，通过上下文学习整合来自大型语言模型的固有知识，然后在类标签层次结构内学习更具区分性的类别语义，并使用图传播网络来捕捉上下文化化的类别语义。在空间流中，将语义流中的类别语义引入以指导图初始化的特征学习，并使用第二个图来传播节点信息。通过联合探索特征空间和语义空间，特别是对于具有视觉相似类别的舌部图像数据，多标签识别得到了优化。在两个公开的多标签舌部图像数据集上的广泛实验表明，所提出的DKG-TSGR框架在mAP、F1分数和EMR等关键指标上优于八种现有的多标签识别方法。

引言

舌部图像与胃癌和糖尿病等疾病有关，它们所包含的经典多标签信息对于辅助疾病诊断具有潜在价值[1]、[2]。然而，在临床实践中，舌部图像的多标签识别依赖于临床医生的经验和观察技能[3]、[4]。这种多标签识别方法不仅效率低下，而且容易受到主观解释导致的注释错误的影响。随着人工智能技术的快速发展，图像数据的多标签识别方法已经成熟，有望实现快速且客观的舌部图像多标签识别。

近年来，人工智能领域的一些研究尝试使用深度学习进行舌部图像的多标签识别；然而这些方法仍存在局限性。参考文献[5]依赖于对象定位技术，这需要搜索大量与类别无关且冗余的区域。参考文献[6]将单标签分类模型应用于多标签任务，可能导致严重的逻辑错误（例如，“白色”和“黄色”等互斥标签同时被预测）。参考文献[7]采用多分支结构将舌部图像划分为不同的区域，忽略了区域间的信息交互和特征融合。此外，这些方法没有考虑自然图像与舌部图像之间的差异，可能影响舌部图像多标签识别的性能和可解释性。

在基于自然图像的多标签识别任务中，不同标签对应的区域通常表现出明显的颜色对比差异和清晰的视觉边界，为标签区分提供了直观的视觉线索，如图1-a所示。然而，在涉及舌部图像的多标签识别任务中，不同标签对应的区域之间的颜色分布差异较小，边界更加模糊，使得多标签识别更具挑战性，如图1-b的左侧面板所示。为了使模型能够从舌部图像中提取有效的视觉区分特征，我们提出引入特定于舌部图像的领域知识来指导识别过程，如图1-b的右侧面板所示。具体来说，这是通过以下三种策略实现的：（1）语义知识：先前的研究表明，结合与图像标签相关的语义信息可以提高图像多标签识别任务的性能[8]、[9]、[10]。尽管每个舌部图像类别都具有相关的语义知识，但当前方法尚未利用这一宝贵资源。（2）层次结构：最近的方法开始考虑语义之间的层次结构，并将其作为结构先验知识来促进类别之间的特征区分[11]、[12]、[13]。在舌部图像中，不同类别基于语义关系表现出显著的层次结构，如图2所示。在语义空间中，属于同一超类的特征具有更高的相似性，而来自不同超类的特征则表现出更大的差异。总结这些差异有助于捕获每个类别的更具区分性的语义表示。（3）共现关系：舌部图像标签表现出强烈的共现模式（例如，“肥胖”和“有齿痕”经常同时出现，而“白色”和“黄色”是互斥的）。联合建模这些共现模式可以通过提供必要的间接指导来促进所有标签的准确识别。然而，迄今为止，还没有研究利用舌部图像标签的共现来提高多标签识别性能。

基于上述分析，提出了一种基于领域知识的双流图表示框架（DKG-TSGR），用于多标签舌部图像识别，综合考虑了语义信息、层次结构和标签共现。首先通过上下文学习查询大型语言模型（LLM）生成每个类别的文本描述[14]，以提取其固有知识。在语义流中，这些描述被编码为初始语义特征。考虑到通用LLM的知识系统与舌部图像知识之间的差异，使用舌部图像中的类标签树状层次结构（THi-Tree）对语义特征进行进一步聚类和解耦，从而获得更具区分性的语义表示。在空间流中，使用图像编码器提取全局舌部图像特征。然后，层次知识引导对齐（HKGA）模块利用增强的类别语义来指导类别特定视觉表示的学习，鼓励特征关注相应的语义区域。在语义流和空间流中基于标签共现关系构建图神经网络，以促进类别间的特征交互。最后，通过融合语义和空间特征来实现多标签预测。主要贡献如下：

（1）据我们所知，这是首次利用LLM的固有知识通过上下文学习来改进舌部图像的多标签识别。所提出的LLM提示方法有效地利用了LLM的语言理解能力来生成信息丰富的类别文本描述。

（2）提出了一种针对舌部图像的新型THi-Tree结构，在该结构中，类别语义被单独建模，然后在THi-Tree内仔细聚类和解耦，从而明确强化每个类别的语义信息。

（3）我们提出了一种HKGA模块，该模块采用简单而有效的语义引导注意力机制来学习具有语义意识的视觉表示，使与相关语义对应的空间区域得到激活。

（4）在内部验证数据集Tongue-tod5c [15]和外部验证数据集Tongue-89上的广泛实验表明，所提出的方法在多标签舌部图像识别方面明显优于现有的最先进模型。

舌部图像分类

深度学习技术的进步推动了舌部图像识别的最新发展。Li等人[16]将有齿痕舌部图像的识别概念化为一个多实例学习问题。他们的方法首先通过凹特征识别潜在的有齿痕区域，然后使用预训练的VGG-16卷积神经网络（CNN）从这些区域提取特征，最后进行分类。

方法

本节详细介绍了所提出的DKG-TSGR框架，如图3所示。首先通过查询LLM的固有知识生成每个类别的文本描述，为区分不同类别提供区分性信息。在语义流中，语义特征在THi-Tree内进行聚类和解耦，以获得更具区分性的表示，并通过图自适应地传播节点信息

实验

首先介绍数据集、实现细节和评估指标。然后在内部验证数据集Tongue-tod5c和外部验证数据集Tongue-89上进行广泛实验，并与最先进的多标签识别方法进行比较。此外，还进行了消融研究，并提供了可视化分析。

结论

本研究探讨了将舌部图像领域知识整合到深度神经网络中，以指导特征和语义表示的学习。为此，提出了一种新的基于领域知识的舌部图像框架，包括语义流和空间流。语义流旨在从LLM中学习丰富的类别描述，使用类别间层次结构和标签来捕获更复杂的语义关系

彭李：写作 – 审稿与编辑、监督、资源提供。宋一飞：写作 – 审稿与编辑、初稿撰写、可视化、软件开发、方法论。王小正：写作 – 审稿与编辑、调查、数据整理。郭双：写作 – 审稿与编辑、形式分析。李龙飞：监督、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了中国中医科学院科技创新项目 [编号：ZN2024A02]和河南工业大学高级人才研究基金 [编号：2024BS012]的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

热点排行