JCLDE:通过文本-标签联合对比学习和标签区分增强实现的分层多标签文本分类

《Knowledge-Based Systems》:JCLDE: Hierarchical multi-label text classification via text-label joint contrastive learning and label-differentiation enhancement

【字体: 时间:2026年05月10日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  李光志|马坤|郝英红|纪凯|陈振翔|杨波|阿吉思·亚伯拉罕济南大学信息科学与工程学院,中国济南250022摘要分层多标签文本分类(HMTC)是多标签文本分类的一个子任务,其中标签被组织成层次结构。最近的方法通过对比学习利用文本特征和标签层次结构,使文本和标签嵌入更加接近。然而,由

  
李光志|马坤|郝英红|纪凯|陈振翔|杨波|阿吉思·亚伯拉罕
济南大学信息科学与工程学院,中国济南250022

摘要

分层多标签文本分类(HMTC)是多标签文本分类的一个子任务,其中标签被组织成层次结构。最近的方法通过对比学习利用文本特征和标签层次结构,使文本和标签嵌入更加接近。然而,由于层次结构的复杂性,生成同时符合文本语义和层次标签结构的正样本仍然是一个重大挑战。此外,HMTC通常还存在标签分布不平衡的问题。为了解决这些挑战,我们提出了一个文本-标签联合对比学习和标签区分增强模型(JCLDE)。具体来说,JCLDE通过实施基于语义的文本对比学习和层次关系标签对比学习来同时利用文本语义和标签层次结构。为了缓解标签不平衡问题,我们使用高频共现标签信息和历史标签信息来增强标签嵌入。JCLDE在三个公共的HMTC数据集上进行了评估,证明了其有效性。我们的源代码可在以下链接获取:https://github.com/makunjida/JCLDE.

引言

分层多标签文本分类(HMTC)是多标签文本分类的一个子任务,其中标签被组织成层次结构,通常表示为树或有向无环图[1]。例如,BGC数据集中与书籍简介相关的类别层次结构如图1所示[2]。HMTC在多个领域有广泛的应用,包括话语关系识别[3]、科学文档分类[4]、社交媒体分析[5]和网页分类[6]。
大多数现有模型专注于对文本和标签层次结构进行编码,并在分类前合并它们的表示以获得混合特征[7],[8]。HMTC面临的主要挑战不仅在于提取特征,还在于区分这些特征之间的差异[9]。最近的方法通过使用对比学习来集中正样本并区分负样本,从而获得有意义的特征表示[10]。然而,到目前为止,对比学习在HMTC任务中的应用仍然不多[11]。在单标签分类的对比学习中,具有相同标签的样本被视为正样本对。然而,在HMTC任务中,每个样本都与多个标签相关联,这使得将具有相同标签的样本识别为正样本对变得具有挑战性。因此,在HMTC任务中应用对比学习的一个关键挑战是构建有意义的正样本对和负样本对[12],[13]。TACLR[9]模型通过结合简单的数据增强技术和textMixup方法来生成正样本。然而,样本生成过程仍然是随机的且无监督的。像HJCL[14]和HALB[15]这样的模型利用批量内的样本根据它们对应标签的相似性来构建正样本对。然而,仅从文本或标签的角度构建正样本对和负样本对无法同时利用文本语义和标签层次结构[11]。
HMTC的另一个挑战是标签分布不平衡,高频标签有很多样本,而低频标签只有少数样本[16]。这种不平衡导致模型在高频标签上过拟合,同时阻碍了低频标签的准确分类。为了解决这个问题,最新的方法利用了标签-文本关联或设计了平衡的损失函数[15]。LELC[17]使用Bi-GRU、多层注意力和线性层从文本中提取与标签相关的特征。此外,它采用深度典型相关性分析将这些特征与潜在空间端到端地耦合起来,促进相互影响。HALB模型[15]应用非对称损失来计算分类损失,确保正样本和负样本的贡献更加平衡。然而,这些方法未能考虑到HMTC中标签的独特特征,即在数据集中某些标签经常共现。实际上,这种共现模式有助于提高低频标签的特征表示。
为了解决这些挑战,我们提出了一个文本-标签联合对比学习和标签区分增强模型(JCLDE)。首先,我们应用了三种语义增强技术——上下文感知的单词替换、上下文相关的单词插入和语义等价的结构转换——来生成具有相同标签集的正样本,用于文本对比学习。同时,为了防止在对比学习过程中语义相似但标签部分重叠的样本被分离,我们对负样本应用了基于标签相似性的加权方案。然后,标签对比学习将层次结构中直接连接的标签视为正样本对。为了更好地保留层次语义,模型鼓励这些标签在嵌入空间中更接近,权重根据它们的层次深度进行调整。最后,标签区分增强方法通过使用高频共现标签信息来增强低频标签,并利用之前训练时期的历史标签信息来改善高频标签。
本文的主要贡献如下:
  • 我们改进了对比学习中的样本对构建方法,有效地利用了文本语义和标签层次结构。文本对比学习(TCL)整合了三种类型的语义增强——关键词、主题和句法结构——来生成具有相同标签集的正样本对。在此基础上,我们对负样本对应用基于标签Jaccard相似性的加权,以防止具有部分重叠标签的样本被分离。标签对比学习通过利用层次关系来支持TCL。在层次结构中直接连接的标签被视为正样本对,并根据层次深度促进它们在嵌入空间中的接近性。
  • 为了解决标签不平衡问题,我们提出了基于标签频率的标签区分增强方法。低频标签使用高频共现标签的信息进行语义增强。中频标签保持不变,而高频标签则受益于多个训练时期积累的历史标签信息。我们方法的不同之处在于它能够同时利用共现和历史信息来增强不同频率的标签表示。
本文的其余部分组织如下:第2节介绍了HMTC、对比学习和标签增强的最新研究。第3节介绍了我们提出模型的框架和技术细节。第4节描述了数据集并详细介绍了实验结果分析。第5节概述了简要结论。

部分摘录

分层多标签文本分类

分层多标签文本分类(HMTC)方法根据它们处理标签层次结构的方式分为局部方法和全局方法[7]。
局部方法将分类器分配给层次结构中的各个节点或层。早期的研究主要关注局部方法[18],[19]。HFTCNN[20]模型使用CNN从层次结构的较高层次提取特征,并利用它们来提高较低层次的分类效果。HTrans[21]是一种基于迁移学习的方法

方法论

文本-标签联合对比学习和标签区分增强(JCLDE)的总体架构如图2所示。首先,使用BERT和GAT提取文本和标签特征。然后,标签增强模块使用高频共现信息增强低频标签,并用历史信息加强高频标签。接下来,文本-标签联合对比学习模块整合文本对比学习和标签对比

数据集描述

我们在三个广泛使用的HMTC数据集上进行了实验:Arxiv学术论文数据集(AAPD)[48]、书籍简介类型集(BGC)[2]和Web of Science(WOS)[19]。每个数据集的信息见表1。
此外,图5展示了AAPD、BGC和WOS数据集中文本文档在标签层次结构中的分布情况。可以看出,大量文档被分配到较高层次的标签,这些标签代表一般概念。相比之下,较低层次的

结论

本文提出了一种文本-标签联合对比学习和标签区分增强模型。首先,我们引入了一种语义感知的数据增强方法,为文本对比学习生成高质量的正样本,有助于模型理解标签共现关系和文本语义信息。其次,我们将层次结构信息纳入标签对比学习,以充分利用标签层次结构。最后,我们进行了增强

CRediT作者贡献声明

李光志:撰写——审阅与编辑,撰写——原始草稿,方法论。马坤:撰写——审阅与编辑,撰写——原始草稿,监督,方法论,资金获取。郝英红:撰写——审阅与编辑,验证,调查。纪凯:项目管理,概念构思。陈振翔:概念构思。杨波:资金获取,概念构思。阿吉思·亚伯拉罕:资源,概念构思。

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时,我们没有使用任何生成式AI和AI辅助技术。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本项工作得到了国家自然科学基金会72471103)、山东省自然科学基金会ZR2022LZH016)和山东省重点研发计划 (2021CXGC010103)的支持。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号