UniS2A:利用大型语言模型对带有文本属性的图进行统一的语义和结构增强
《Neurocomputing》:UniS2A: Unified semantic and structural augmentation for text-attributed graphs with large language models
【字体:
大
中
小
】
时间:2026年05月04日
来源:Neurocomputing 6.5
编辑推荐:
潘志宏|钟志杰|李伟生|周俊明|李书鹏|林荣华|唐勇
华南师范大学人工智能学院,佛山,528225,中国
**摘要**
文本属性图(TAGs)作为一种重要的数据结构,用于表示将结构关系与丰富的文本语义相结合的复杂现实世界网络。图对比学习(GCL)已被广泛应用于TAG
潘志宏|钟志杰|李伟生|周俊明|李书鹏|林荣华|唐勇
华南师范大学人工智能学院,佛山,528225,中国
**摘要**
文本属性图(TAGs)作为一种重要的数据结构,用于表示将结构关系与丰富的文本语义相结合的复杂现实世界网络。图对比学习(GCL)已被广泛应用于TAGs中,以同时从结构和文本两种模态中学习表示。然而,许多现有方法依赖于浅层文本特征或纯结构增强,导致节点文本与图拓扑之间的语义对齐较弱。尽管大型语言模型(LLMs)改进了文本表示,但它们的语义推理能力很少被用来指导图结构学习。为了解决这些挑战,我们提出了一种统一的语义和结构增强方法(UniS2A),该方法将基于LLM的语义推理集成到多层次图增强框架中。具体而言,UniS2A在三个互补的层面上进行语义感知的扰动:在属性层面,它通过使用预测性、解释性和总结性提示生成语义一致的节点描述;在节点和边层面,UniS2A利用LLMs作为语义判断器来评估节点相关性,指导节点修剪和边修改,以移除语义不一致的连接并优化图结构。然后将这些多层次图整合到一个统一的对比学习框架中,共同优化语义和结构的一致性。在四个基准TAG数据集上的广泛实验表明,UniS2A的性能始终优于现有的GCL方法。
**引言**
社交媒体平台、学术协作网络和在线问答系统的广泛采用产生了大量可以有效地表示为文本属性图(TAGs)的现实世界数据[1]、[2]、[3]。在这些图中,节点既包含结构关系,也包含丰富的文本信息。从TAGs中学习节点表示是一个重要的研究方向,支持文本分类、社区发现和推荐等任务[4]。图神经网络(GNNs)[5]的最新进展显著改善了图结构数据的建模。在此基础上,图对比学习(GCL)[6]作为一种有前景的图自监督表示学习范式应运而生。它通过自监督目标展示了在增强表示泛化方面的强大潜力,提供了一种有效的方法来缓解标记样本的稀缺性问题。与仅限于结构或数值信息的传统图不同,TAGs融合了复杂的语义信号。与每个节点相关联的文本内容捕捉了复杂的上下文关系和语义依赖性。语义和结构模态的整合为有效的文本属性图(TAG)表示学习带来了额外的挑战[7]、[8]。
早期对TAGs的研究通常使用浅层或启发式特征来表示节点文本,然后再将其输入GNN或GCL框架进行表示学习[9]。尽管这些特征提取方法易于实现,但它们难以捕捉复杂的语义结构和隐含的关系知识,这最终限制了TAG任务的性能。GCL方法通常构建多个图视图,并应用对比目标来学习具有区分性和鲁棒性的表示[10]。尽管在一般图数据上取得了成功,但这些方法在增强过程中大多缺乏对文本属性的显式建模。在这些方法中,增强通常依赖于结构扰动,如随机掩码、边删除或边插入[11]。因此,TAGs中文本和结构信息之间的互补关系往往没有得到充分利用,导致表示学习中的语义一致性不佳。近年来,预训练语言模型(PLMs)[12]、[13]和大型语言模型(LLMs)[14]、[15]、[16]的整合越来越受到关注,用于增强TAGs中的语义表示。一些方法利用DeBERTa等模型来派生更丰富的节点-文本表示,而其他方法则以自监督方式微调PLMs以生成特定任务或图适应的节点特征。尽管这些策略提高了文本特征的质量,但它们也可能引入负面迁移,导致性能下降,甚至与浅层文本编码相比也是如此[17]。后续研究进一步探索了将LLMs的零样本和少样本推理能力整合到TAG表示学习中[18]。解释作为特征的范式利用基于提示的生成可解释文本的方法,这些文本随后被转换为图神经网络的输入特征,从而证明LLM生成的内容可以作为图表示学习的辅助语义信号。最近的研究进一步扩展了LLMs的作用,不仅将其用作文本编码器,还用作图增强器或语义推理器。通过精心设计的提示,LLMs被引导来重写节点描述、评估节点之间的语义相关性以调整图连接性,或对节点文本进行分类和总结。这些程序有助于构建语义连贯的图视图,从而增强对比学习。
**GAugLLM** [19]引入了使用LLMs进行文本级增强的方法,该方法利用专家设计的提示集合。结合协作式边修改器,该方法实现了语义引导的结构调整,从而将语言知识直接嵌入到视图生成中,显著提高了对比学习的效果。**LATEX-GCL** [20]通过使用LLM生成原始文本的重写、缩写和扩展版本来进行文本级增强,以进行后续的对比学习。为了解决TAGs的时间演化问题,**CROSS** [21]提出了一个统一框架,该框架使用基于LLM的时间语义提取器来捕捉文本语义的动态变化。还开发了一个联合语义-结构编码器,以同步时间维度上的语义演化和结构转换,从而增强序列节点表示的建模。**HEAL** [22]利用与LLMs的多轮交互来生成信息丰富的节点和超边,随后将其整合到自监督表示学习框架中。**MARK** [23]利用多智能体协作生成合成文本,并使用推理智能体为不确定的节点提供排名指导,通过基于排名的监督目标微调图聚类模型,从而提高聚类性能。这些方法展示了LLMs的有效性,但它们本质上与特定领域(如超图拓扑或无监督聚类任务)紧密相关,并依赖于复杂的、特定于任务的多智能体流程。
然而,尽管在TAGs的表示学习方面取得了进展,现有方法在开发统一的增强机制方面仍面临根本性挑战。大多数当前方法仅专注于结构扰动或文本增强,缺乏两种模态之间的连贯整合和语义对齐。为了克服这些限制,本文介绍了一种统一的语义和结构增强框架(UniS2A)。所提出的方法利用LLMs的语义理解和推理能力,在属性、节点和边三个层面上进行语义感知的扰动和增强。在属性层面,UniS2A使用LLMs生成多种语义一致的文本变体,包括预测性、解释性和总结性形式,从而构建多样且语义对齐的文本视图。在节点和边层面,UniS2A利用LLMs的强大语义推理能力作为语义判断器来评估节点及其相邻文本之间的相关性,从而指导语义感知的节点修剪和边重构。通过识别和移除语义不一致的拓扑连接,该方法有效地进行了结构去噪。这一过程将语义理解与结构优化紧密结合,确保增强后的图在结构上保持可靠。最后,UniS2A将增强后的多层次图整合到一个统一的图对比学习框架中,最大化特征和结构表示之间的互信息,以获得更具区分性的节点嵌入。在四个基准TAG数据集上的实验结果表明,UniS2A的性能优于现有的GCL基线方法,证明了基于LLM的语义驱动图增强在提高表示质量方面的有效性。我们的贡献可以总结如下:
- 我们提出了一种针对TAGs的新型图增强框架。所提出的方法充分利用了节点的丰富文本属性,并将LLMs集成到属性、边和节点层面进行扰动。
- 我们引入了一种属性级扰动策略,利用LLMs的语义推理能力从大量文本信息中生成丰富的节点属性。该方法利用LLMs的预测、解释和总结能力从原始文本构建语义全面和多视角的表示。
- 我们设计了由LLMs引导的节点和边级增强机制,将语义推理与结构优化紧密结合,以优化图拓扑。在节点层面,LLM评估每个节点的重要性,以实现有根据的节点移除。在边层面,LLM根据文本内容评估节点之间的语义相似性,以指导语义感知的边细化。
- 在四个广泛使用的TAG数据集上的广泛实验表明,我们基于LLM的多层次增强框架实现了最先进的性能,显著优于现有的GCL基线模型。
**本文的结构如下:**
第2节回顾了与TAGs相关的工作。第3节介绍了所提出的方法。第4节展示了UniS2A方法及实验结果。最后,第5节总结了本文。
**图对比学习**
图对比学习旨在通过生成多个在结构上不同但在语义上保持一致的图视图来学习图的鲁棒和泛化表示。其目标是最大化相应图视图表示之间的相似性。早期方法主要遵循最大化互信息的原则,为后续的GCL框架奠定了基础。
**Deep Graph Infomax(DGI)** [24]是最早的此类方法之一……
**问题定义**
文本属性图通常定义为……,其中……表示节点集,……表示编码节点之间结构关系的边集,……表示与节点相关联的文本属性集合,……表示对应于图拓扑的邻接矩阵。在这种设置中,每个节点都伴随着一段自然语言文本,该文本通常使用预训练的文本编码器(如BERT)转换为连续特征向量。
**所提出的UniS2A方法概述**
我们在两个领域(书籍和电子产品)的四个真实世界TAG数据集上评估了我们的方法UniS2A。这些数据的统计信息总结在表1中。具体来说,Books-Children和Books-History是从Amazon-Books数据集构建的,其中每个节点代表一本书,边表示两本书经常一起购买或查看。每个书籍节点都包含了标题和描述等文本信息。相比之下,Ele-Computers和Ele-Photo……
**结论**
在本文中,我们提出了UniS2A,一种用于文本属性图的统一语义和结构增强方法。UniS2A将LLMs的推理能力整合到分层增强方案中。通过在属性、节点和边层面引入语义引导的扰动,该方法促进了上下文一致的图视图,从而促进了文本语义和结构信息之间更紧密的对齐。在四个数据集上的全面实验表明……
**CRediT作者贡献声明**
潘志宏:撰写——原始草稿、方法论、资金获取、形式分析、概念化。
钟志杰:撰写——原始草稿、可视化、方法论、数据 curation、概念化。
李伟生:撰写——审阅与编辑、验证。
周俊明:撰写——审阅与编辑、验证。
李书鹏:撰写——审阅与编辑、验证。
林荣华:撰写——审阅与编辑、项目管理、资金获取。
唐勇:撰写——审阅与编辑。
**利益冲突声明**
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
**致谢**
本工作部分得到了中国国家重点研发计划(基于教育大数据的个性化学习关键技术的研究与示范应用,项目编号2023YFC3341200)、中国国家自然科学基金(项目编号62407016)以及广东省普通高校特色创新项目(项目编号2023KTSCX206)的支持。
潘志宏出生于中国揭阳。他于2008年在东莞工业大学获得电子信息工程学士学位,2011年在广州暨南大学获得通信与信息系统硕士学位。他目前正在华南师范大学人工智能学院攻读软件工程博士学位。目前,他是该校的教授。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号