《Expert Systems with Applications》:SIGNL: A Label-Efficient Audio Deepfake Detection System via Spectral-Temporal Graph Non-Contrastive Learning
编辑推荐:
本文针对音频深度伪造检测中标注数据稀缺的挑战,提出了一种名为SIGNL的标签高效专家系统。研究人员通过将音频的视觉表示(如频谱图)转化为互补的谱图和时图,并采用图非对比学习策略进行预训练,有效学习了无需标注数据的鲁棒表征。实验表明,SIGNL在多个基准数据集上仅使用5%的标注数据即可达到优异性能(如ASVspoof 2021 DF上EER为7.88%),并展现出良好的跨领域泛化能力,为在实际数据受限环境中部署可靠的音频伪造检测器提供了有效解决方案。
随着文本到语音(TTS)和语音转换(VC)技术的飞速发展,合成语音,即音频深度伪造(Audio Deepfake),变得越来越逼真和易于获取。这些技术虽然有益,但也带来了严重的威胁,例如用于冒充他人身份、实施诈骗以及绕过自动说话人验证(ASV)系统。这给基于语音的认证、客服基础设施和媒体信任带来了严峻挑战。因此,迫切需要能够在实际约束下可靠检测音频深度伪造的专家系统。
当前,基于深度学习的方法,如卷积神经网络(CNN)、深度残差网络(ResNet)和变换器(Transformer),已被广泛用于音频深度伪造检测。其中,图神经网络(GNN)因其能够将频率子带和时间片段建模为图结构,从而捕捉不规则和复杂的关系,显示出巨大的潜力。GNN能够发现可能跨越多个频率区域和时间步长的细微伪造痕迹。然而,现有的基于GNN的方法严重依赖大量标注数据,这限制了它们的实际应用。在标注数据稀缺的情况下,这些方法性能会显著下降,并且难以处理新的攻击类型或陌生领域。虽然存在大量未标注音频数据(如通话录音、播客),但由于缺乏真实标签,它们往往未被充分利用。此外,传统的音频增强方法(如添加背景噪声)对图级结构的影响有限,难以在无标签情况下提升模型鲁棒性。
为了应对这些挑战,来自澳大利亚联邦大学创新、科学与可持续发展研究所的Falih Gozi Febrinanto、Kristen Moore、Chandra Thapa、Jiangang Ma和Vidya Saikrishna等研究人员在《Expert Systems with Applications》期刊上发表了他们的研究成果,提出了名为SIGNL(Spectral-temporal vIsion Graph Non-contrastive Learning)的新型标签高效音频深度伪造检测系统。
SIGNL的核心创新在于其独特的双视图图建模和非对比学习框架。与现有仅处理单视图图的非对比学习方法不同,SIGNL充分考虑了音频数据独特的谱结构和时态结构。该系统首先将音频的视觉表示(如频谱图)转化为两个互补的图:谱图(捕捉频率依赖性)和时图(捕捉时间关系)。然后,它采用图卷积编码器分别学习这两个视图的特征。最关键的一步是,研究人员使用一种非对比自监督学习(SSL)策略对这些编码器进行预训练。该策略通过图增强技术(如边丢弃、高斯噪声、特征掩码)生成正样本对,并最大化增强后图视图之间的相似性,而无需使用负样本。这种预训练方式使得模型能够在完全没有标注数据的情况下学习到鲁棒且可泛化的表征。最后,预训练好的编码器只需使用极少量的标注数据进行微调,即可适应下游的深度伪造检测任务。
为了验证SIGNL的有效性,研究人员在四个权威的音频深度伪造检测基准数据集上进行了全面评估,包括ASVspoof 2021 DF、ASVspoof 5、CFAD(中文虚假音频检测数据集)和In-The-Wild数据集。实验设置了多种标注数据比例(从5%到100%)来模拟低资源场景,并进行了域内和跨域评估。
5.4. (RQ1) 与基线方法的比较
结果表明,SIGNL在几乎所有标注数据比例和数据集上都显著优于基线方法。在仅使用5%标注数据的极端情况下,SIGNL在ASVspoof 2021 DF上达到了7.88%的等错误率(EER),在ASVspoof 5上达到了3.95%的EER,优于所有监督模型(如LCNN、AASIST)和自监督基线(如BYOL-A、MoCo、SimCLR)。即使在拥有全部标注数据时,SIGNL也保持了领先优势(ASVspoof 2021 DF: 7.21% EER; ASVspoof 5: 2.33% EER)。特别值得注意的是,在跨域评估中,当模型在ASVspoof 2021 DF上训练,然后在完全不同的In-The-Wild数据集上测试时,SIGNL仅用5%标注数据训练就达到了14.85%的EER,而当使用CFAD(中文数据集)训练并在In-The-Wild(英文数据集)上测试时,EER为10.16%,展现了其强大的跨语言和跨领域泛化能力。
5.5. (RQ2) 图增强分析
研究人员系统评估了三种图增强技术(边丢弃-ED、高斯噪声-GN、特征掩码-FM)的不同组合对性能的影响。实验发现,同时使用所有三种增强方法(SIGNL-8)的组合效果最佳,在三个主要数据集上都取得了最低的EER。此外,分析证实了SIGNL能够有效避免非对比学习中可能出现的特征崩溃(Feature Collapse)问题,即投影头(Projection Head)可能输出相似特征,但编码器本身学习到了多样且有意义的表征。
5.6. (RQ3) 消融研究
通过消融实验,研究人员验证了SIGNL各个组件的必要性。当移除图神经网络(GNN)编码器并用CNN替代时(SIGNL w/o GNN),性能急剧下降(如ASVspoof 5上5%标签时EER从3.95%升至19.39%),证明了图结构建模对于捕捉音频中长期依赖关系的重要性。如果移除下游微调步骤(SIGNL w/o FT),模型性能也大幅降低(如CFAD上EER从9.90%升至31.51%),表明任务特定的适应至关重要。而如果跳过预训练阶段直接进行监督训练(SIGNL w/o Pre),在低标签场景下性能损失严重,但在全标签场景下影响较小,说明预训练在数据稀缺时价值最大。
5.7. (RQ4) 参数敏感性
研究还探讨了关键超参数的影响,包括将频谱图划分的块数(N)和构建图时每个节点的邻居数(K)。结果表明,对于所使用的Wav2Vec2视觉特征,设置N=32个块,并在ASVspoof数据集上使用K=3个邻居,在CFAD数据集上使用K=4个邻居时,性能最优。同时,比较不同音频视觉表示(如LFCC、MFCC、Log-mel、Whisper特征、Wav2Vec2特征)发现,基于Wav2Vec2的特征作为输入能带来最佳性能。
5.8. 对抗攻击鲁棒性
为了评估模型对输入扰动的稳定性,研究人员使用了快速梯度符号法(FGSM)进行对抗攻击。结果显示,SIGNL在遭受攻击时性能下降幅度小于其他对比基线,表明其图基结构有助于在学习表征时保持稳定性,对输入噪声或失真具有一定的鲁棒性。
5.9. 超逼真伪造语音评估
面对新兴的超逼真语音合成模型(如CosyVoice 2.0)的挑战,研究进行了零样本(Zero-shot)和微调(Fine-tuning)评估。在零样本设置下,所有模型(包括SIGNL)对CosyVoice 2.0样本的检测性能都出现显著下降,这揭示了当前检测系统对分布外(OOD)攻击的泛化能力仍存在瓶颈。然而,当使用少量CosyVoice 2.0样本对预训练模型进行微调后,SIGNL表现出了较好的适应能力,取得了有竞争力的结果,说明通过少量样本的适应可以有效提升模型对新攻击的识别能力。
综上所述,这项研究成功开发了SIGNL这一标签高效的音频深度伪造检测专家系统。其创新性地将音频表示为谱和时双视图图结构,并利用图非对比学习充分利用未标注数据,最终通过少量标注数据微调即可达到优异性能。该研究不仅显著推进了低资源条件下的音频取证技术,其提出的双视图图学习范式也为处理其他具有多模态或多视角特性的信号提供了有价值的参考。研究成果对于在数据标注成本高昂或难以获取的现实场景中部署可靠的音频安全防御系统具有重要的实践意义。尽管在应对极端分布外攻击时仍面临挑战,但SIGNL框架为未来探索更具适应性和鲁棒性的检测方法奠定了坚实的基础。