SA-Diff:通过扩散模型生成具有语义感知的图异常值,用于检测图数据分布异常情况
《Knowledge-Based Systems》:SA-Diff: Semantic-Aware Graph Outlier Generation via Diffusion Models for Graph Out-of-Distribution Detection
【字体:
大
中
小
】
时间:2026年02月09日
来源:Knowledge-Based Systems 7.6
编辑推荐:
SA-Diff通过语义偏移引导的图扩散模型生成具有明确语义偏移的OOD样本,结合特征微调和双驱动评分策略提升图OOD检测性能。
董一聪|何润东|韩忠义|史洁明|尹一龙
山东大学软件学院,
摘要
图学习在建模关系数据方面取得了显著的成功,但在遇到分布外(OOD)样本时,其性能往往会下降——这是药物发现和疾病诊断等实际应用中的一个关键挑战。现有的针对图结构数据的OOD检测方法缺乏来自具有语义变化的OOD信号的明确指导,导致决策边界不够理想,并限制了在动态环境中的适应性。为了解决上述问题,我们提出了SA-Diff框架。通过指导图扩散模型的生成过程并引入语义变化,SA-Diff合成了具有多样结构和语义偏差的OOD样本。然后利用这些合成异常值进行边界感知的微调,从而在分布内(ID)和OOD类别之间实现更紧密、更具区分性的分离。此外,我们引入了一个双驱动评分函数,该函数同时考虑了ID数据和生成的OOD样本的特征,从而提高了检测性能。在分子和生物图数据集上的广泛实验表明,SA-Diff在OOD检测性能上显著优于现有方法。
引言
图学习已成为解决复杂数据分析问题的关键方法,特别是在理解实体之间的关系至关重要时[1]。在各种实际应用中,基于图的模型在捕捉这些相互依赖性方面表现出色[2]。例如,在分子领域,分子自然地被表示为图,其中原子是节点,化学键形成边。图学习技术,特别是图神经网络(GNNs),在药物发现方面展示了巨大的潜力,能够准确预测分子的属性,如毒性和生物活性[3]、[4]。与传统方法相比,GNNs通过明确利用图结构,能够更有效地建模原子之间的复杂关系,从而提高药物开发中的预测准确性[5]、[6]。此外,GNNs还成功应用于建模蛋白质-蛋白质相互作用网络,为生物系统提供了更深入的见解[7]。
图学习在各种应用中取得了显著的成功[2]。然而,大多数现有模型假设训练数据和测试数据来自相同的分布。然而,在实际环境中,这个假设往往不成立,因为独立同分布(i.i.d.)条件并不成立[8]。例如,在分子属性预测中,新合成的化合物可能表现出训练集中不存在的结构模式[9]。同样,在社交网络分析中,用户行为的演变或新社区的出现可能会引入以前未见过的图结构[10]。因此,检测和处理分布外(OOD)图数据对于提高图学习模型在动态环境中的鲁棒性和适应性至关重要[11]。例如,在临床药物再利用中,未能识别OOD分子图可能导致对新药物候选物的疗效预测错误,从而可能危及患者安全[12]。在网络安全应用中,网络流量图中未检测到的OOD模式可能代表新的攻击向量,这些向量可以逃避训练有素的异常检测系统[13]。
图OOD检测的最新进展引入了几种有前景的方法,通过不同的策略来识别OOD图样本。OODGAT[14]提出了一个端到端的框架,通过将任务表述为图神经网络中的开放集半监督节点分类问题来检测OOD样本。尽管有效,但这些方法需要从头开始训练额外的GNN,导致计算成本较高。相比之下,以数据为中心的方法通过预训练的GNN修改输入数据来检测OOD图,提供了一种更节省资源的替代方案。AAGOD[15]通过直接在训练图的邻接矩阵上应用基于MLP的参数放大矩阵来区分OOD图和分布内(ID)图,从而实现OOD检测而无需重新训练GNN,并提高了可扩展性。其他方法如GOODAT[16]和SGOD[17]通过增强子图结构和利用无监督图增强技术来提高图级OOD检测性能。与之不同,PGR-MOOD[18]通过原型图重建生成虚拟OOD图来检测OOD样本,结合图生成和有效的匹配度量来增强分子OOD检测。
尽管在图OOD检测方面取得了进展,但仍存在几个挑战。一个关键问题是缺乏OOD监督信号,以及由于缺乏明确的语义变化,生成的OOD样本效果不佳,这两者都会在处理新类别或结构时导致性能不佳。此外,现有方法通常在特征级别生成样本,而不是图结构级别[19],这限制了它们捕捉真实世界数据复杂关系的能力,并降低了生成样本的直观性。另外,大多数现有方法未能利用合成的OOD数据来明确重塑决策边界,这限制了它们在复杂场景中区分ID和OOD样本的能力。此外,仅依赖ID数据来估计不确定性的方法本质上缺乏对OOD样本分布特征的认知,使得它们对语义变化的敏感性较低,从而导致检测不准确。
在本文中,我们提出了一个名为SA-Diff的新框架来解决上述挑战。具体来说,为了获得与ID数据具有明确语义偏差的OOD样本,我们利用了类条件图扩散模型,并通过插值和扰动类条件向量来实现语义变化。基于生成的OOD样本和原始ID样本,我们微调分类器以收紧和调整决策边界。此外,我们设计了一种基于双距离的不确定性评分策略,该策略同时考虑了ID和OOD样本集的KNN距离,提供了更平衡和稳健的OOD可能性估计。
我们的贡献可以总结如下:
•我们提出了SA-Diff,这是一个开创性的框架,它利用图扩散模型生成的图级异常值进行图结构数据中的OOD检测。该框架通过生成语义上有意义的OOD样本并通过轻量级微调来细化类边界,从而提高检测性能。
•我们的方法通过指导扩散模型并引入明确的分类级语义变化来合成OOD样本,仅使用ID图和标签来创建具有清晰语义偏差的异常值。然后利用这些生成的OOD样本来通过细化类边界和提高对分布变化的敏感性来增强检测性能。
•此外,我们引入了一个基于k-NN的评分函数,该函数测量与ID和异常值集的距离,从而增强了模型在测试时检测OOD图的能力。
•广泛的实验结果证明了SA-Diff在提高OOD检测性能方面的有效性。通过全面的定量和定性分析,我们进一步揭示了图扩散模型如何生成有意义的异常值,从而加强决策边界并提高模型鲁棒性。
部分摘录
图扩散模型
图扩散模型已成为图生成的强大范式,主要分为三种方法[20]:得分匹配朗之万动力学(SMLD)、去噪扩散概率模型(DDPM)和基于随机微分方程的生成模型(SGM)。基于SMLD的方法,如EDP-GNN[20],利用得分匹配来建模图分布的梯度场,从而通过噪声条件架构实现排列不变的生成。
方法论
我们提出了SA-Diff,这是一个统一的框架,通过三个关键组成部分来增强图分布外(OOD)检测:(1)语义引导的OOD生成,使用图扩散来合成有效但语义上有偏差的异常值;(2)特征微调,利用合成异常值优化分布内(ID)/OOD的可分离性;以及(3)双驱动OOD评分,采用双距离KNN度量。该框架保持了
数据集和分割
遵循OOD检测研究的既定实践,我们通过结合两个主流图基准的数据集来构建我们的分布内(ID)和OOD数据集,即TUDataset集合[39]和Open Graph Benchmark(OGB)[9],基于GOODAT[16]中介绍的评估协议。我们的实验设置包括7个精心策划的数据集对,它们在领域上一致但在结构上有所不同:(1)BBBP(ID)和BACE(OOD),(2)ENZYMES(ID)和
结论和未来工作
在这项工作中,我们提出了SA-Diff,这是一种新颖的、具有语义感知能力的异常值生成框架,用于图分布外(OOD)检测。通过利用类条件图扩散模型,SA-Diff能够生成结构上有效但语义上有偏差的OOD样本。这些合成异常值用于明确指导特征微调,从而实现更稳健和可解释的检测。此外,我们引入了一种双驱动评分策略,有效地捕获了
CRediT作者贡献声明
董一聪:撰写——审阅与编辑,撰写——原始草稿,项目管理,方法论,概念化。何润东:撰写——审阅与编辑,项目管理,方法论,概念化。韩忠义:撰写——审阅与编辑,概念化。史洁明:形式分析,概念化。尹一龙:项目管理,资金获取。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系,这些关系可能会影响本文报告的工作。
致谢
本工作得到了中国国家自然科学基金(U23A20389, 62176139)和山东省自然科学基金重大基础研究项目(ZR2021ZD15)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号