编辑推荐:
本文针对图欺诈检测中的异质性连接与极端标签不平衡两大挑战,提出了一种频率感知图神经网络(F-GNN)。该研究从频域视角出发,通过图傅里叶变换解耦节点表征,并利用节点自适应的频谱门控选择性增强与欺诈相关的高频信号,同时引入欺诈感知表征融合机制以对抗标签不平衡。在Yelp、Amazon、T-Finance和T-Social等多个基准数据集上的实验表明,F-GNN在监督和半监督设置下均显著优于现有最先进的基于GNN的欺诈检测方法,AUC最高可达99.81%,为解决复杂图结构数据中的欺诈检测问题提供了新的有效工具。
在当今的在线信息系统中,从金融网络、社交媒体到电商平台,欺诈行为无处不在且危害巨大。这些系统本质上是图结构化的,实体间复杂的关系依赖为欺诈检测提供了关键线索。因此,图神经网络(GNN)因其强大的关系建模能力,在图欺诈检测(GFD)任务中展现出巨大潜力。然而,将GNN应用于GFD面临两个持久且严峻的挑战:极端的标签不平衡(欺诈节点极为稀少)以及同质性(Homophily)和异质性(Heterophily)连接的共存。在实践中,攻击者通常会将少量欺诈节点注入图的良性区域以逃避检测,导致训练数据中良性节点占绝对主导,这种不平衡会使GNN模型的学习过程偏向于良性模式,削弱其检测欺诈的能力。更棘手的是,欺诈节点为了伪装自己,往往会策略性地嵌入在良性社区中,从而与良性节点产生连接,形成异质性连接(即相连节点类别不同);而良性节点之间则通常表现出同质性(即相连节点类别相似)。这种矛盾背离了许多GNN架构所依赖的“同质性假设”,直接导致检测性能下降。
现有的方法大多从空间视角出发,试图通过在信息聚合过程中减少异质性邻居的影响来缓解问题,例如对邻居进行重采样或对边进行重新加权。然而,这类基于图结构增强的方法存在固有局限:在半监督的GFD场景下,对未标记邻居进行剪枝或重加权通常依赖于预测的logits,而这些预测本身并不可靠,可能放大误差;此外,这类方法在大规模图上还常面临可扩展性挑战。另一些基于谱域的方法通过扩展低通滤波器之外的范围,在一定程度上缓解了上述问题,但它们通常在所有节点间共享参数,难以应对标签不平衡,且往往需要全图计算,限制了其在mini-batch训练中的应用。
为了从根本上应对这些挑战,本文作者独辟蹊径,从频域分析的视角重新审视图欺诈检测问题。其核心直觉在于:异质性邻居虽然数量较少,但其携带的尖锐且信息丰富的信号变化(通常表现为高频信号)对于欺诈检测至关重要;而同质性邻居在聚合过程中占据主导地位,可能会稀释这些关键信号。频率分析工具,如快速傅里叶变换(FFT),能够自然地在频域区分快速变化模式与平滑模式,从而为分离同质性和异质性信息提供了一条原理性途径。将这两种成分解耦,可以使欺诈相关信号在表征学习过程中得到更有效的凸显。
基于这一洞察,研究人员提出了一种新颖的用于图欺诈检测的消息传递框架——频率感知图神经网络(F-GNN)。该框架包含三个核心组件:图频率解耦、异质性邻居增强和欺诈感知表征融合。频率解耦模块利用FFT将节点表征分解为与同质性邻居和异质性邻居相关的部分。增强模块独立处理这些分量,并在聚合过程中强调异质性信息。融合模块则将处理后的分量整合成统一的节点表征。F-GNN的关键创新在于其节点自适应的频率门控机制。与学习单一全局滤波器或在所有节点间共享固定频率模板的现有谱图神经网络不同,F-GNN学习的是以每个节点频谱幅度为条件的、节点自适应的频率门控。这使得不同的节点能够根据其局部结构和标签上下文,选择性地强调低频或高频分量,这对于具有异构同质性和类别不平衡的图至关重要。从谱视角看,异质性相互作用通常表现为被传统消息传递中占主导的低频同质性模式所稀释的高频信号。F-GNN通过在谱域显式解耦节点表征,并采用节点自适应频谱门控来选择性地强调信息丰富的高频分量,从而有效放大欺诈信号。
在技术实现上,F-GNN避免了显式的特征分解(计算复杂度为O(N3)),而是利用切比雪夫多项式来近似图拉普拉斯矩阵的谱滤波器,使其计算复杂度与边数线性相关,并能够进行小批量训练,保证了模型在大规模图上的可行性和效率。该方法与基于结构信息原理进行检测和评估的最新研究(如利用异构结构熵进行无监督、可解释的社交网络机器人检测的UniDBot,以及通过社区感知多智能体攻击来评估和改进图基新闻检测鲁棒性的SI2AF框架)形成了互补,共同推动了图学习模型在复杂场景下的发展。
本研究的主要技术方法可概括为以下几个关键点:首先,利用图傅里叶变换将节点特征从顶点域转换到谱域,实现频率分量的解耦。其次,设计了一种节点自适应的频谱门控机制,该机制通过一个多层感知机(MLP)根据每个节点的频谱幅度动态生成门控值,从而自适应地融合低频和高频成分。最后,引入欺诈感知的表征融合模块,该模块在聚合邻居信息时,对于已知标签的邻居,根据其类别(欺诈或良性)分配不同的注意力权重,以缓解类别不平衡问题;对于未知标签的邻居,则使用另一个MLP来学习其注意力权重。这些技术共同作用,使得模型能够灵活应对图中复杂的同质/异质混合模式以及严重的类别不平衡。
实验结果表明,F-GNN在Yelp、Amazon、T-Finance和T-Social四个基准数据集上,在监督和半监督两种设置下,均一致且显著地优于包括GCN、GAT、GraphSAGE、CARE-GNN、PC-GNN、BWGNN等在内的多种先进的GNN基线模型。特别是在Yelp和Amazon这类异质性较强的数据集上,F-GNN带来了最大幅度的性能提升,其AUC指标分别达到95.24%和98.27%,F1-Macro指标分别达到85.11%和94.33%,G-Mean指标分别达到86.38%和93.51%。即使在T-Finance和T-Social等大规模数据集上,F-GNN也达到了领先水平(AUC分别为98.19%和99.81%),证明了其有效性和可扩展性。消融实验进一步验证了频率解耦、自适应组合和根节点特定谱滤波器各个组件的贡献,表明这种频率感知的建模方式作为一种原理性的方法,可以替代基于结构的启发式方法用于图欺诈检测。
研究结果
1. 频率解耦的有效性
通过将节点表征在谱域进行解耦,F-GNN能够清晰地分离出与同质性(低频)和异质性(高频)模式相关的信号。实验分析表明,在欺诈检测场景下,与欺诈节点相关的关键信息往往蕴含在高频分量中。F-GNN通过显式地处理这些分量,避免了传统GNN在聚合过程中对高频信号的平滑效应,从而更有效地捕获了欺诈的细微特征。
2. 节点自适应门控的作用
研究结果显示,引入节点自适应的频率门控机制是提升模型性能的关键。该机制允许每个节点根据其局部邻域结构动态调整低频和高频信号的混合比例。在异质性连接占主导的区域,模型会赋予高频信号更高的权重,从而增强了对欺诈模式的识别能力。这与“异质性互动表现为高频信号”的理论预期相符,并得到了实验数据的支持。
3. 欺诈感知融合对标签不平衡的改善
针对极端标签不平衡问题,欺诈感知表征融合机制通过调整聚合过程中不同类别邻居的贡献,有效缓解了模型对多数类(良性节点)的偏见。特别是在半监督设置下(仅1%的标签),F-GNN相比基线模型仍能保持优异的性能,证明了该机制在标签稀缺环境下的鲁棒性。
4. 在不同同质/异质程度图上的泛化能力
实验在具有不同同质/异质水平的数据集上进行。结果表明,F-GNN在异质性较强的图(如Yelp、Amazon)上性能提升尤为显著,同时在同质性较强的图上也保持了竞争力。这说明了频率感知方法对不同图结构特性的普遍适应性。
研究结论与意义
本研究从频域视角出发,提出了一种全新的图欺诈检测框架F-GNN。该框架通过谱域解耦、节点自适应频率门控和欺诈感知融合,有效解决了传统GNN在应对图结构欺诈检测时面临的异质性连接和极端标签不平衡两大核心挑战。理论分析表明,F-GNN实现了一种节点级的个性化谱滤波器,不同于应用全局共享频谱响应的现有谱GNN方法。
该研究的重要意义在于:首先,它提供了一种不同于传统空间图结构操作的、原理性的频域问题解决思路,为处理图数据的异质性和不平衡问题开辟了新途径。其次,F-GNN模型设计高效,通过切比雪夫多项式近似避免了昂贵的显式特征分解,使其能够适用于大规模图数据。最后,在多个公开基准数据集上取得的显著性能提升,充分证明了频率感知建模在图欺诈检测任务中的有效性和优越性。
这项工作不仅推动了图神经网络在欺诈检测这一重要应用领域的发展,而且其核心思想——即利用频率特性来理解和处理图结构数据中的复杂模式——对于其他非欧几里得数据学习任务,如推荐系统、药物发现、社会计算等,也具有一定的启发意义。论文发表于《Neural Networks》期刊。