自动说话人验证(ASV)(Kinnunen和Li,2010年)是生物特征认证中的一个关键组成部分,它通过检查语音的声学特性来确认说话人的身份。然而,由于许多欺骗攻击的存在,ASV系统遇到了困难,包括文本到语音(TTS)(Zhizheng等人,2016年;Heiga等人,2016年)、语音转换(VC)(Hsu等人,2016年;Matrouf等人,2006年)以及重放攻击(Kinnunen等人,2017年;You和Yang,2020年)。随着语音合成(SS)和VC技术的快速发展,合成语音攻击对ASV系统构成了日益严重的挑战。ASVspoof挑战系列(Kinnunen等人,2017年;Wu等人,2015年;Massimiliano等人,2019年;Yamagishi等人,2021年)通过提供数据集和评估标准,在推进ASV系统的反欺骗措施方面发挥了重要作用。为了提高系统的反伪造能力,研究人员对前端特征提取和后端分类器进行了深入研究,特别关注声学特征、后端分类器和损失函数。
当前的研究表明,大多数前端特征提取模块使用来自功率谱的特征(Davis和Mermelstein,1980年;Chakroborty等人,2008年;Kinnunen等人,2012年;Hasan等人,2013年;Sahidullah等人,2015年;Yu等人,2018年),利用离散傅里叶变换将信号从时域转换到频域。最近的研究表明,基于频谱的特性具有显著的区分能力,这表明欺骗检测的效果在不同程度上受到不同频带特征使用的影响。例如,在Tak等人(2020b)的研究中,他们认为ASVspoof挑战系列的结果表明,成功的对策需要专门为识别欺骗特征而设计的前端特征提取方法。作者指出,某些欺骗攻击在特定的子带中显示出特征性异常。为了准确识别这些异常,他们检查了低频和高频子带中的异常检测。在Tak等人(2020a)的研究中,作者研究了由两种SS算法和四种VC算法产生的攻击,并展示了不同子带的检测结果。Zhang等人(2021b)的研究发现,特征的高频成分主要导致系统过拟合,但低频成分对已知攻击表现出显著的鲁棒性,尽管准确性有所降低。在Lin等人(2024)的研究中,作者仅使用低频带幅度谱作为反欺骗模型的输入,并通过特征裁剪来减少高频成分。Ganesh等人(2025)研究了语音中有声和无声部分在区分合成语音和真实语音方面的贡献。他们验证了在特定语音频谱区域进行训练可以提高深度伪造检测系统的效果。Komal等人(2025)在整个MEL频谱图中使用混合模型方法来识别伪造语音。Souvik等人(2024)引入了一种改进的技术,用于在整个频谱范围内无监督地识别欺骗语音,在ASVSpoof2019评估数据集上实现了0.679的EER和0.0229的最小串联检测成本函数(min t-DCF)。Khan和Malik(2023)提出了SpoTNet模型,用于在整个频谱范围内识别欺骗攻击,在单特征设置下实现了0.109的最小串联检测成本函数(min t-DCF)和5.49%的EER,在多特征融合条件下实现了0.045的最小串联检测成本函数和5.49%的EER。在Yang等人(2023)的研究中,作者使用了0-4kHz范围内的低频特征,消除了重复信息(高频成分),以强调最具信息量的欺骗指标,从而提高了系统的鲁棒性。Di?ken(2024)的论文采用了两种频谱特征提取技术,都利用了低频数据,并验证了区域能量特征对不同配置下检测效果的影响。
近年来,利用卷积神经网络(CNN)来对抗合成语音攻击的技术越来越受欢迎,包括残差网络(Alzantot等人,2019年)、挤压-激励网络(SENet)(Lai等人,2019年)、Res2Net(Li等人,2021年)、图神经网络(Jung等人,2021年;Jung等人,2022年;Tak等人,2021a)和单类分类神经网络(Alegre等人,2013年),所有这些方法都表现出了出色的性能。这些方法依赖于手动设计的特征,并使用预处理技术,包括固定带通滤波器、池化、批量归一化(BN)和激活函数,从原始语音波形中提取频谱图。随后开发了多种网络设计,以增强特征提取和最终分类。最近的研究表明,与用于语音欺骗检测的二元分类方法相比,单类分类策略可以有效地集中于语音的伪造元素,从而提高检测精度并提供更好的检测能力和适应性。Alegre等人(2013)通过使用仅在真实语音上训练的单类支持向量机来分类语音欺骗攻击中的局部二进制模式,证明了单类方法的有效性。Villalba等人(2015)在ASVspoof 2015竞赛中利用单类支持向量机对齐DNN提取的真实语音嵌入。Zhang等人(2021a)引入了一种称为单类Softmax(OC-Softmax)的创新损失函数,该函数压缩了真实语音的表示,以将其与伪造语音区分开来。Ren等人(2024)提出了一种称为DOC-Softmax的增强型单类学习技术,用于语音反欺骗,重点开发特征空间。其中,真实样本位于一个紧凑区域内,而欺骗样本与真实区域明显分开,并通过定义的边界区分开来。此外,使用分散损失来确保欺骗样本尽可能覆盖整个欺骗空间。Lin等人(2024)引入了一种使用基于阈值的OC-softmax(TOC-Softmax)损失函数的合成语音反欺骗技术,在ASVSpoof2019评估数据集上实现了0.679的EER和0.0229的最小串联检测成本函数。Khan和Malik(2023)提出了SpoTNet模型,用于在整个频谱范围内识别欺骗攻击,在单特征设置下实现了0.109的最小串联检测成本函数和5.49%的EER,在多特征融合条件下实现了0.045的最小串联检测成本函数和0.95%的EER。在Yang等人(2023)的研究中,作者使用了0-4kHz范围内的低频特征,消除了重复信息(高频成分),以强调最具信息量的欺骗指标,从而提高了系统的鲁棒性。Di?ken(2024)的论文采用了两种频谱特征提取技术,都利用了低频数据,并验证了区域能量特征对几种配置下检测效果的影响。
近年来,利用卷积神经网络(CNN)对抗合成语音攻击的技术越来越流行,包括残差网络(Alzantot等人,2019年)、挤压-激励网络(SENet)(Lai等人,2019年)、Res2Net(Li等人,2021年)、图神经网络(Jung等人,2021年;Jung等人,2022年;Tak等人,2021a)和单类分类神经网络(Alegre等人,2013年),所有这些方法都表现出出色的性能。这些方法依赖于手动设计的特征,并使用预处理技术,包括固定带通滤波器、池化、批量归一化(BN)和激活函数,从原始语音波形中提取频谱图。随后开发了多种网络设计,以增强特征提取和最终分类。最近的研究表明,与用于语音欺骗检测的二元分类方法相比,单类分类策略可以有效地专注于语音的伪造元素,从而提高检测精度并提供更好的检测能力和适应性。Alegre等人(2013)通过使用仅在真实语音上训练的单类支持向量机来分类语音欺骗攻击中的局部二进制模式,证明了单类方法的有效性。Villalba等人(2015)在ASVspoof 2015竞赛中利用单类支持向量机对齐DNN提取的真实语音嵌入。Zhang等人(2021a)引入了一种称为单类Softmax(OC-Softmax)的创新损失函数,该函数压缩了真实语音的表示,以将其与伪造语音区分开来。Ren等人(2024)提出了一种称为DOC-Softmax的增强型单类学习技术,用于语音反欺骗,重点开发特征空间。其中,真实样本位于一个紧凑区域内,而欺骗样本通过定义的边界与真实区域明显分开。此外,使用分散损失来确保欺骗样本尽可能覆盖整个欺骗空间。Lin等人(2024)引入了一种使用基于阈值的OC-softmax(TOC-Softmax)损失函数的合成语音反欺骗技术,该技术包含一个固定的阈值参数,以减少数据集中的类别不平衡,从而提高合成语音攻击的检测精度。尽管已经取得了一些改进,但ASV系统仍然难以识别新的攻击。特别是在逻辑访问(LA)背景下,不同的语音合成算法使得LA攻击更加隐蔽,使其更难以识别。
基于先前的研究(Tak等人,2020b;Tak等人,2020a;Zhang等人,2021b;Lin等人,2024;Yang等人,2023;Di?ken,2024),这些研究表明,在离散傅里叶变换后,攻击在低频带更为明显,而合成语音攻击可能出现在每个子频带中。为了提高合成语音攻击检测的泛化能力和精度,我们提出了一种混合池化方法,该方法有效地利用了低频频谱成分的贡献,同时全面考虑了高频成分的影响。本研究通过使用单类特征学习分类模型和引入一种称为基于阈值的紧凑性增强OC-Softmax(CTOC-Softmax)的损失函数来解决合成语音的反欺骗问题,以促进特征空间学习。除了在真实数据和欺骗数据之间建立紧凑的边界外,还将每个训练批次内的样本分布的影响纳入损失函数中。目标样本朝向权重向量压缩,从而形成更紧凑的特征空间并提高分类精度。此外,我们发现SEblock在模型中的位置对其性能有显著影响;将SEblock放置在前面可以获得更好的训练结果。我们提出的解决方案在没有使用任何数据增强的情况下,超过了ASVspoof 2019 LA数据集上所有现有的单一系统。
总结来说,本文的主要贡献如下:
• 我们提出了一种混合池化策略,用于在双频带频域中挖掘特征性频谱特征,从而充分利用特征信息。
• 我们开发了一种新的损失函数CTOC-Softmax,通过训练,提高了样本分布的紧凑性,从而提高了真实类别和欺骗类别之间的区分度。
• 我们通过在前端集成现有的SEblock模块重新配置了残差网络,从而增强了通道关系学习,提高了模型的检测效果。
本工作的后续部分结构如下:第2节将更详细地阐述我们的工作过程。第3节将详细介绍实验数据,并将我们的方法与一些现有模型进行比较。最后,我们总结了我们的研究并讨论了未来的一些潜在工作。