Graph Transformers (GTs) integrate local graph structures with global attention, but face computational overhead. We propose GALiT by decoupling graph structures and simplifying attention mechanisms. Graphs are used only to denoise node features before training, which are then cached and指导 Transformers. Simultaneously, we replace complex attention with weighted cosine similarity, reducing complexity to O(N+E) while maintaining performance. Experiments show GALiT outperforms GNNs and GTs on benchmarks, achieving high efficiency and effectiveness.
图变换器(Graph Transformers,简称GTs)作为处理图结构数据的基础编码器,由于将局部图结构与全局注意力机制相结合,展现出了良好的性能。然而,复杂的注意力函数及其与图结构的耦合导致了显著的计算开销,尤其是在大规模图中。在本文中,我们将图结构与Transformer分离,并提出了图不可知线性变换器(Graph-Agnostic Linear Transformer,简称GALiT)。在GALiT中,图结构仅用于在训练前对原始节点特征进行去噪处理,因为我们的研究发现这些去噪后的特征已经整合了图结构的主要信息,可以替代图结构来指导Transformer的工作。通过将图结构从训练和推理阶段排除在外,GALiT成为了一个图不可知的模型,显著降低了计算复杂性。此外,我们简化了从传统Transformer继承的线性注意力函数,进一步减少了计算开销,同时仍然能够捕捉节点之间的关系。通过加权组合,我们将去噪后的特征整合到注意力机制中,理论分析表明线性注意力与去噪特征之间的协同作用对于提高表示多样性至关重要。尽管分离了图结构并简化了注意力机制,我们的模型在基准图上的表现仍优于大多数图神经网络(GNNs)和图变换器(GTs)。实验结果表明,GALiT在保持甚至提高性能的同时实现了高效率。
在本文中,我们将上述两种技术——分离图结构和简化注意力机制——整合到通用的GT框架中,并提出了我们的模型GALiT(Graph-Agnostic Linear Transformer)。在GALiT中,图结构仅用于在训练前获得去噪后的原始节点特征。这些预处理后的特征被缓存,然后用于指导Transformer内的自适应聚合过程。因此,GALiT在训练和推理阶段对图结构是不可知的。这一区别至关重要,因为它通过将图依赖性限制在一次性的低成本预处理步骤中,显著降低了计算复杂性。此外,我们简化了从传统Transformer继承的线性注意力函数,进一步减少了计算开销,同时仍然能够捕捉节点之间的关系。尽管分离了图结构并简化了注意力机制,我们的模型在基准图上的表现仍优于大多数GNNs和GTs。实验结果表明,GALiT在保持甚至提高性能的同时实现了高效率。除了当前的结果,我们相信所提出的方法可以为简化图编码器的设计开辟新的技术路径。