简短文本神经主题模型中的全局与局部上下文
《Artificial Intelligence》:Global and Local context in Short text Neural Topic Model
【字体:
大
中
小
】
时间:2026年02月22日
来源:Artificial Intelligence 4.6
编辑推荐:
短文本主题建模中数据与标签稀疏问题,提出融合全局与局部上下文的GLSTM模型。通过构建全局文档(基于KNN或聚类)与双解码器设计(全局重构与局部量化),有效提升主题质量与文档主题分布。实验验证在多个短文本数据集上优于现有方法。
阮通|阮琳·范|阮德安|阮胜·迪
越南河内科技大学,大科维特路1号,河内,越南
摘要
由于数据碎片化,主题模型在处理短文本语料库时面临挑战。主要问题包括由于词共现模式有限导致的数据稀疏性,以及由于重建目标不完整导致的标签稀疏性。缓解这些问题的方法通常分为两类:利用全局上下文或关注短文档的局部特征。第一种方法将额外的上下文信息纳入模型,但存在计算复杂度高、聚合质量差以及难以推断单个文本的主题分布等缺点。相比之下,强调局部上下文可以产生更清晰的主题比例和更明确的主题,但并未完全克服短文本主题建模中局部特征稀疏的问题。在本文中,我们提出了GLSTM(短文本神经主题模型中的全局和局部上下文),这是一种通过同时利用短文本信息及其更广泛的全局上下文来应对这些挑战的新方法。GLSTM利用每个短文本的周围上下文构建全局文档,然后推断全局和局部(短)文档的主题分布。此外,它通过应用基于量化的技术来增强局部文档-主题分布,使其更加清晰和信息丰富。进一步地,GLSTM结合全局上下文来增强重建损失,有效缓解了标签稀疏性问题。在短文本数据集上的广泛实验表明,我们的方法在主题质量和文档表示方面均优于现有模型。
引言
主题建模[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]是自然语言处理中的一种无监督学习技术,旨在揭示文档语料库中的隐藏主题。这些主题是根据具有相似语义意义的关键术语的共现来识别的。此外,每个文档都由一个文档-主题分布来表征,该分布反映了不同主题在该文档中的存在程度。传统上,主题模型是使用概率图模型[2]、[9]、[10]或非负矩阵分解[3]、[11]构建的。最近,神经主题模型(NTMs)[5]、[6]、[7]、[12]、[13]作为一种更灵活和可扩展的替代方案出现。这些模型利用了神经网络的强大功能,采用变分自编码器(VAE)[14]或基于预训练语言模型嵌入的聚类技术[15]等架构,从而提高了主题发现的效果。
尽管在标准数据集上取得了成功,但主题模型在处理短文本[16]、[17]、[18]、[19]、[20]、[21]、[22]时往往遇到困难。短文档数据集(如推文、标题、评论和搜索片段)由于上下文信息有限和词共现不足[16]而带来重大挑战,这两者对于学习潜在主题至关重要。这个问题被称为数据稀疏性,使得现有模型难以生成高质量的主题-词分布。此外,标签稀疏性也为基于VAE的神经主题模型在处理短文本时带来了另一个挑战[23]。正如杨等人[23]所介绍的,这个问题是由于在证据下界中忽略了未观察到但相关的词,从而导致基于变分自编码器(VAE)的模型中重建损失出现偏差。
为了解决短文本中特征稀疏的问题,人们提出了各种技术。在短文本主题建模中最流行的方法之一是利用全局文档上下文。一些传统方法试图通过使用元数据中的语义信息(如作者详情[26]和事件注释[27])来缓解词共现稀疏的问题。然而,元数据在短文本数据集中往往不可用,这限制了这些方法的适用性。另一条研究路线是通过在生成过程中引入词对或变长词集来结合全局词共现[17]、[28]。此外,一些框架提出了自聚合技术来构建隐式长文本以改进主题建模[29]、[30]。然而,这些方法面临计算复杂度高、随着数据量增加而出现过拟合的风险,以及由于缺乏有效的机制来确保有意义的分组而难以聚合语义无关的词等问题。最近,KNNTM[23]成为第一个利用KNN(K最近邻)文档聚合来解决标签稀疏问题的短文本神经主题模型。通过结合语义相关的文档,它增强了词共现模式和文档之间的关系。虽然有效,但KNNTM由于需要计算所有文档对之间的最优传输而产生了较高的时间成本。另一种自然且成本效益高的聚合方法是通过聚类,但基于传统文本表示(使用词频[29]、[31])的聚类算法也难以避免数据稀疏性问题。此外,基于全局上下文的方法往往无法从短文本中生成多样化的主题,一些方法也无法为单个文档推断主题分布[32]、[33]。
相比之下,一些短文本主题建模方法较少关注全局信息,而是强调单个文档的局部特征。这些方法通常基于短文档只包含少数几个主题的假设来限制分配给短文本的主题数量。这一想法最初由尹等人[34]提出,他们使用吉布斯采样提出了狄利克雷多项式混合(DMM)模型。在此基础上,后续方法将辅助词嵌入与DMM[35]、[36]结合使用,以应对短文本主题建模的挑战。最近,这种以局部为中心的方法受到了关注,几种领先方法采用了它进行短文本分析。然而,一些模型(如NQTM[24]、TSCTM[37]和KNNTM[23])实施了文档-主题分布量化技术。这些方法产生了更清晰的主题比例,从而得到了更明确的主题分配。尽管限制短文本中的主题数量有助于缓解稀疏性问题,但这种策略本身无法完全解决短文本主题建模中局部特征稀疏的问题。
鉴于全局和局部上下文在短文本主题建模中的优势和局限性,神经主题模型利用两者来构建有意义的主题是合理的。然而,大多数最新方法未能同时利用这些内容。例如,NQTM[24]仅关注局部短文本,而PVTM[25]仅依赖于大型语言模型(LLMs)生成的全局扩展文档。为了解决这一差距,我们提出了GLSTM,这是一个有效地整合全局和局部信息的神经主题建模框架,用于短文本主题发现。与以往的工作不同,我们的模型在VAE编码器和解码器中都结合了这两种上下文类型。如图1所示,仅使用短文本会产生低连贯性、噪声较大的主题,而仅使用全局上下文虽然可以提高连贯性,但由于内容过度扩展而经常误导模型。我们的方法融合了这两种来源,生成了更连贯的主题和更准确的文档-主题分配。此外,GLSTM不限制全局文档的类型。这些文档可以来自文档邻域(KNN)或文本聚类(K-Means、HDBSCAN)。利用预训练语言模型(PLM)嵌入[15]、[39]的最新进展,我们构建的全局上下文克服了基于词频的聚合[29]、[31]的缺点。如表1所示,基于PLM的全局上下文的有效性可以提高主题的语义质量。
为了在短文本中整合全局和局部信息,我们引入了一种新的主题建模架构以及一种专门设计用于捕捉多粒度语义的新推理机制。在编码器网络中,对于每个短(局部)文档,我们将其全局上下文组内的文本合并成一个全局文档。然后分别用不同的推理网络处理每种类型的文档:一个生成全局主题分布,另一个学习表示文档对其全局贡献的自适应参数。随后从全局分布和该参数中得出局部主题分布。对于解码器网络,一种直接而有效的方法是通过将原始短文本与其全局聚合对应物结合来增强模型的重建目标[23]。然而,在本文中,我们引入了一种新颖且更高效的双解码器设计:一个解码器重建全局文档,另一个解码器在重建局部文档之前对局部主题分布进行量化。两个解码器共享相同的主题嵌入参数,确保了一致性,同时解决了标签稀疏性问题——防止了未观察到但相关词的抑制。本文探讨了这两种解码器策略,并总结了我们的贡献如下:
•我们提出了一种名为GLSTM的新神经主题模型,它利用短文本的全局和局部信息来提高主题质量并产生更好的文档-主题分布。我们的方法支持多种形式的全局上下文;在本文中,我们研究了两种简单而有效的方法:应用聚类和KNN算法的有效性。
•我们引入了一种创新的推理方法,可以捕捉全局和局部主题分布,有效解决数据稀疏性问题,并为单个短文本细化主题表示。
•我们通过设计两个相互连接的解码器网络来改进解码过程,以解决标签稀疏问题——一个重建全局文档,另一个专注于局部短文本。
•我们在基准短文本数据集上进行了广泛实验,证明了我们的方法在提高主题质量和文档-主题分布方面优于其他现有模型。
路线图:本文的其余部分结构如下:第2节回顾了相关工作,涵盖了标准和短文本主题模型。第3节提供了关于GLSTM的基本背景,包括主题模型架构和主题构建方法。第4节详细介绍了GLSTM框架及其学习过程。第5节展示了将GLSTM的性能与其他方法进行比较的广泛实验。最后,第6节总结了研究结果并概述了未来的研究方向。
节选
主题模型和神经主题模型
传统上,大多数主题模型是使用两种主要方法开发的:概率图模型[40]和非负矩阵分解(NMF)[41]。在概率图模型方法中,大多数方法依赖于潜在狄利克雷分配(LDA)[2],它使用潜在变量表示文档-主题分布,并通过吉布斯采样[42]或变分推断[43]等推断技术进行估计。同时,基于NMF的方法[41]、[44]
初步介绍
在本节中,我们介绍了主题模型问题以及基于VAE的方法如何对主题进行建模并推断每个文档的主题分布
方法论
在本节中,我们提出了我们的创新方法GSLTM,它在基于VAE的神经主题模型的编码器和解码器中结合了全局和局部上下文。GLSTM的总体架构如图3所示
实验设置
数据集我们使用了四个真实的短文本数据集:两个开放领域的GoogleNews(来自11,000多篇文章的152个新闻主题)和SearchSnippets(12,000多个网页搜索片段);以及两个特定领域的StackOverflow(20,000个与技术相关的问题标题)和Biomedical(20个类别的20,000篇医学文章)。
我们遵循[23]的实验设置,使用来自STTM1 [16]的预处理数据集。我们移除了出现次数少于三次的词
结论
在本文中,我们介绍了GLSTM,这是一种新的短文本主题建模神经模型,它结合了全局和局部上下文信息。我们的模型提供了一个比以往方法更通用和灵活的框架,用于处理短文本,因为它在编码器和解码器组件中都结合了全局和详细知识。我们进一步提出了针对两种最常用的全局上下文的推理和训练策略:(i)对文本进行分组
局限性和未来工作
尽管我们的方法在解决短文本主题建模的挑战方面显示出强大的潜力,但仍存在一些局限性。一个值得注意的问题是在构建全局文档时需要手动选择最近邻居或簇的数量。未来的研究可以探讨优化全局上下文选择的自动化策略。此外,在将方法应用于动态或实时应用时,结合全局上下文也会带来挑战。
CRediT作者贡献声明
阮通:撰写——原始草稿、可视化、软件、方法论、调查、形式分析、概念化。阮琳·范:撰写——原始草稿、监督、项目管理、方法论、调查、概念化。阮德安:撰写——审阅与编辑、可视化、验证、方法论、调查、形式分析。阮胜·迪:撰写——审阅与编辑、可视化、监督、方法论、调查、形式分析。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号