基于双频段的混合池化技术的一类神经网络，用于欺骗性语音检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Speech & Language》：One-class neural network with hybrid pooling on dual-band frequency for spoofing speech detection

【字体：大中小】 时间：2026年01月30日 来源：Computer Speech & Language 3.4

编辑推荐：

　　对抗合成语音攻击检测方法研究提出OCNet-HPDB模型，通过高低频混合池化策略和CTOC-Softmax损失函数优化特征空间，在ASVspoof 2019 LA数据集上EER达0.29%降低34.09%，2021 LA数据集EER降低24.84%。

张建强|耿玉水|张鹏|王福强|吴晓明

山东科技大学计算机科学与工程学院，中国山东省青岛市，266590

摘要

在自动说话人验证中，有效检测欺骗攻击在很大程度上依赖于特定频谱或时间区域内的特征性异常。虽然低频带特征已经显示出实用性，但高频成分中的异常信息仍然没有得到充分探索。为了填补这一空白，我们提出了OCNet-HPDB，这是一种端到端的单类神经网络，它通过混合池化机制处理频谱的低频和高频部分，从而能够全面利用整个频谱中的欺骗线索。该模型还结合了一种先进的损失函数——基于阈值的紧凑性增强单类Softmax，该函数鼓励目标类样本在嵌入空间中更紧密地聚类。通过将挤压-激励块战略性地放置在残差连接之前，我们的方法在ASVspoof 2019 LA和ASVspoof 2021 LA数据集上实现了显著的性能提升，而无需使用数据增强。在ASVspoof 2019 LA评估中，我们的系统实现了0.29%的相等错误率（EER）和0.0094的最小串联检测成本函数（min t-DCF），相对于之前的最先进系统分别降低了34.09%和35.17%。对于更具挑战性的ASVspoof 2021 LA基准，该模型的EER为7.2%，相当于相对提高了24.84%。

引言

自动说话人验证（ASV）（Kinnunen和Li，2010年）是生物特征认证中的一个关键组成部分，它通过检查语音的声学特性来确认说话人的身份。然而，由于许多欺骗攻击的存在，ASV系统遇到了困难，包括文本到语音（TTS）（Zhizheng等人，2016年；Heiga等人，2016年）、语音转换（VC）（Hsu等人，2016年；Matrouf等人，2006年）以及重放攻击（Kinnunen等人，2017年；You和Yang，2020年）。随着语音合成（SS）和VC技术的快速发展，合成语音攻击对ASV系统构成了日益严重的挑战。ASVspoof挑战系列（Kinnunen等人，2017年；Wu等人，2015年；Massimiliano等人，2019年；Yamagishi等人，2021年）通过提供数据集和评估标准，在推进ASV系统的反欺骗措施方面发挥了重要作用。为了提高系统的反伪造能力，研究人员对前端特征提取和后端分类器进行了深入研究，特别关注声学特征、后端分类器和损失函数。

当前的研究表明，大多数前端特征提取模块使用来自功率谱的特征（Davis和Mermelstein，1980年；Chakroborty等人，2008年；Kinnunen等人，2012年；Hasan等人，2013年；Sahidullah等人，2015年；Yu等人，2018年），利用离散傅里叶变换将信号从时域转换到频域。最近的研究表明，基于频谱的特性具有显著的区分能力，这表明欺骗检测的效果在不同程度上受到不同频带特征使用的影响。例如，在Tak等人（2020b）的研究中，他们认为ASVspoof挑战系列的结果表明，成功的对策需要专门为识别欺骗特征而设计的前端特征提取方法。作者指出，某些欺骗攻击在特定的子带中显示出特征性异常。为了准确识别这些异常，他们检查了低频和高频子带中的异常检测。在Tak等人（2020a）的研究中，作者研究了由两种SS算法和四种VC算法产生的攻击，并展示了不同子带的检测结果。Zhang等人（2021b）的研究发现，特征的高频成分主要导致系统过拟合，但低频成分对已知攻击表现出显著的鲁棒性，尽管准确性有所降低。在Lin等人（2024）的研究中，作者仅使用低频带幅度谱作为反欺骗模型的输入，并通过特征裁剪来减少高频成分。Ganesh等人（2025）研究了语音中有声和无声部分在区分合成语音和真实语音方面的贡献。他们验证了在特定语音频谱区域进行训练可以提高深度伪造检测系统的效果。Komal等人（2025）在整个MEL频谱图中使用混合模型方法来识别伪造语音。Souvik等人（2024）引入了一种改进的技术，用于在整个频谱范围内无监督地识别欺骗语音，在ASVSpoof2019评估数据集上实现了0.679的EER和0.0229的最小串联检测成本函数（min t-DCF）。Khan和Malik（2023）提出了SpoTNet模型，用于在整个频谱范围内识别欺骗攻击，在单特征设置下实现了0.109的最小串联检测成本函数（min t-DCF）和5.49%的EER，在多特征融合条件下实现了0.045的最小串联检测成本函数和5.49%的EER。在Yang等人（2023）的研究中，作者使用了0-4kHz范围内的低频特征，消除了重复信息（高频成分），以强调最具信息量的欺骗指标，从而提高了系统的鲁棒性。Di?ken（2024）的论文采用了两种频谱特征提取技术，都利用了低频数据，并验证了区域能量特征对不同配置下检测效果的影响。

近年来，利用卷积神经网络（CNN）来对抗合成语音攻击的技术越来越受欢迎，包括残差网络（Alzantot等人，2019年）、挤压-激励网络（SENet）（Lai等人，2019年）、Res2Net（Li等人，2021年）、图神经网络（Jung等人，2021年；Jung等人，2022年；Tak等人，2021a）和单类分类神经网络（Alegre等人，2013年），所有这些方法都表现出了出色的性能。这些方法依赖于手动设计的特征，并使用预处理技术，包括固定带通滤波器、池化、批量归一化（BN）和激活函数，从原始语音波形中提取频谱图。随后开发了多种网络设计，以增强特征提取和最终分类。最近的研究表明，与用于语音欺骗检测的二元分类方法相比，单类分类策略可以有效地集中于语音的伪造元素，从而提高检测精度并提供更好的检测能力和适应性。Alegre等人（2013）通过使用仅在真实语音上训练的单类支持向量机来分类语音欺骗攻击中的局部二进制模式，证明了单类方法的有效性。Villalba等人（2015）在ASVspoof 2015竞赛中利用单类支持向量机对齐DNN提取的真实语音嵌入。Zhang等人（2021a）引入了一种称为单类Softmax（OC-Softmax）的创新损失函数，该函数压缩了真实语音的表示，以将其与伪造语音区分开来。Ren等人（2024）提出了一种称为DOC-Softmax的增强型单类学习技术，用于语音反欺骗，重点开发特征空间。其中，真实样本位于一个紧凑区域内，而欺骗样本与真实区域明显分开，并通过定义的边界区分开来。此外，使用分散损失来确保欺骗样本尽可能覆盖整个欺骗空间。Lin等人（2024）引入了一种使用基于阈值的OC-softmax（TOC-Softmax）损失函数的合成语音反欺骗技术，在ASVSpoof2019评估数据集上实现了0.679的EER和0.0229的最小串联检测成本函数。Khan和Malik（2023）提出了SpoTNet模型，用于在整个频谱范围内识别欺骗攻击，在单特征设置下实现了0.109的最小串联检测成本函数和5.49%的EER，在多特征融合条件下实现了0.045的最小串联检测成本函数和0.95%的EER。在Yang等人（2023）的研究中，作者使用了0-4kHz范围内的低频特征，消除了重复信息（高频成分），以强调最具信息量的欺骗指标，从而提高了系统的鲁棒性。Di?ken（2024）的论文采用了两种频谱特征提取技术，都利用了低频数据，并验证了区域能量特征对几种配置下检测效果的影响。

近年来，利用卷积神经网络（CNN）对抗合成语音攻击的技术越来越流行，包括残差网络（Alzantot等人，2019年）、挤压-激励网络（SENet）（Lai等人，2019年）、Res2Net（Li等人，2021年）、图神经网络（Jung等人，2021年；Jung等人，2022年；Tak等人，2021a）和单类分类神经网络（Alegre等人，2013年），所有这些方法都表现出出色的性能。这些方法依赖于手动设计的特征，并使用预处理技术，包括固定带通滤波器、池化、批量归一化（BN）和激活函数，从原始语音波形中提取频谱图。随后开发了多种网络设计，以增强特征提取和最终分类。最近的研究表明，与用于语音欺骗检测的二元分类方法相比，单类分类策略可以有效地专注于语音的伪造元素，从而提高检测精度并提供更好的检测能力和适应性。Alegre等人（2013）通过使用仅在真实语音上训练的单类支持向量机来分类语音欺骗攻击中的局部二进制模式，证明了单类方法的有效性。Villalba等人（2015）在ASVspoof 2015竞赛中利用单类支持向量机对齐DNN提取的真实语音嵌入。Zhang等人（2021a）引入了一种称为单类Softmax（OC-Softmax）的创新损失函数，该函数压缩了真实语音的表示，以将其与伪造语音区分开来。Ren等人（2024）提出了一种称为DOC-Softmax的增强型单类学习技术，用于语音反欺骗，重点开发特征空间。其中，真实样本位于一个紧凑区域内，而欺骗样本通过定义的边界与真实区域明显分开。此外，使用分散损失来确保欺骗样本尽可能覆盖整个欺骗空间。Lin等人（2024）引入了一种使用基于阈值的OC-softmax（TOC-Softmax）损失函数的合成语音反欺骗技术，该技术包含一个固定的阈值参数，以减少数据集中的类别不平衡，从而提高合成语音攻击的检测精度。尽管已经取得了一些改进，但ASV系统仍然难以识别新的攻击。特别是在逻辑访问（LA）背景下，不同的语音合成算法使得LA攻击更加隐蔽，使其更难以识别。

基于先前的研究（Tak等人，2020b；Tak等人，2020a；Zhang等人，2021b；Lin等人，2024；Yang等人，2023；Di?ken，2024），这些研究表明，在离散傅里叶变换后，攻击在低频带更为明显，而合成语音攻击可能出现在每个子频带中。为了提高合成语音攻击检测的泛化能力和精度，我们提出了一种混合池化方法，该方法有效地利用了低频频谱成分的贡献，同时全面考虑了高频成分的影响。本研究通过使用单类特征学习分类模型和引入一种称为基于阈值的紧凑性增强OC-Softmax（CTOC-Softmax）的损失函数来解决合成语音的反欺骗问题，以促进特征空间学习。除了在真实数据和欺骗数据之间建立紧凑的边界外，还将每个训练批次内的样本分布的影响纳入损失函数中。目标样本朝向权重向量压缩，从而形成更紧凑的特征空间并提高分类精度。此外，我们发现SEblock在模型中的位置对其性能有显著影响；将SEblock放置在前面可以获得更好的训练结果。我们提出的解决方案在没有使用任何数据增强的情况下，超过了ASVspoof 2019 LA数据集上所有现有的单一系统。

总结来说，本文的主要贡献如下：

• 我们提出了一种混合池化策略，用于在双频带频域中挖掘特征性频谱特征，从而充分利用特征信息。

• 我们开发了一种新的损失函数CTOC-Softmax，通过训练，提高了样本分布的紧凑性，从而提高了真实类别和欺骗类别之间的区分度。

• 我们通过在前端集成现有的SEblock模块重新配置了残差网络，从而增强了通道关系学习，提高了模型的检测效果。

本工作的后续部分结构如下：第2节将更详细地阐述我们的工作过程。第3节将详细介绍实验数据，并将我们的方法与一些现有模型进行比较。最后，我们总结了我们的研究并讨论了未来的一些潜在工作。

部分摘录

提出的方法

在真实场景中，频域分析在语音合成中起着基础性作用，其应用需要全面考虑从0到

f_{s} / 2

（Sahidullah等人，2015年；Tak等人，2020b；Tak等人，2021b）的整个声学频谱，其中

f_{s}

是采样频率。通过仔细调节这些频域元素，语音合成系统可以产生逼真、清晰且富有表现力的合成语音。基本频率成分决定了

实验设置

数据集：我们的实验使用了ASVspoof 2019的LA数据集（Massimiliano等人，2019年），包括训练、开发和评估子集。每个子集包括真实语音样本和通过TTS和VC技术生成的欺骗样本。训练和开发数据集包含4个TTS攻击和2个VC攻击，而评估数据集包含13个攻击，包括7个TTS攻击、3个VC攻击和3个TTS-VC混合攻击。在13个攻击中，有11个是未知的，但2个类似于攻击A04

讨论

许多文章根据开发集的错误来确定最佳模型作为评估标准。然而，本文中的实验数据表明，开发集上的最小错误并不必然保证在评估集上的出色性能。使用损失函数作为开发集的评估标准可能会在评估集上产生更好的结果。

结论

本研究提出了一个OCNet-HPDB模型，该模型利用了混合池化技术，并借鉴了先前的研究，以SEblock作为先驱。之前的单类分类模型侧重于低频特征提取，通过压缩特征空间来区分真实类别和欺骗类别，从而限制了反欺骗模型的检测效果。为了解决这个问题，我们执行了几项关键改进，包括混合池化策略

CRediT作者贡献声明

张建强：撰写——原始草稿、可视化、软件、方法论、数据管理、概念化。耿玉水：监督。张鹏：验证、方法论、形式分析。王福强：资源。吴晓明：项目管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

提出的方法

实验设置

讨论

结论

CRediT作者贡献声明

利益冲突声明

热点排行