SSWMNet：在目标佩戴口罩的情况下解决语音分离问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Internet Technology》：SSWMNet: Solving the Speech Separation Problem While the Target is Wearing a Mask

【字体：大中小】 时间：2026年03月04日 来源：ACM Transactions on Internet Technology

编辑推荐：

　　单通道语音分离在戴口罩场景下面临挑战，本研究构建了SSWM多模态数据集，提出两种策略：直接使用遮挡面部图像或通过Wav2Lip生成视觉信息辅助自监督语音分离。实验表明采用Wav2Lip的方案效果更优，且视听方法显著优于纯音频方案。

要查看此由AI生成的摘要，您必须具有高级访问权限。

了解更多登录

摘要

单通道语音分离仍然是语音信号处理领域中最具有挑战性的任务之一。在许多情况下，例如在涉及呼吸系统疾病的流行病（如COVID-19或甲型流感）期间，人们在交流时需要佩戴口罩。当目标说话者戴着口罩时，是否可以解决语音分离的问题？在说话者佩戴口罩的情况下，音频-视觉方法是否能够比仅使用音频的方法获得更好的语音分离性能？为了解决上述问题，我们首先构建了一个大规模的多模态数据集，称为“佩戴口罩时的语音分离”（Speech Separation while Wearing a Mask，简称SSWM），该数据集同时包含了音频模态和带有口罩的面孔的视觉模态。我们探索了两种解决面部遮挡问题的策略。一种策略是直接使用被遮挡的面孔（这些面孔缺乏诸如嘴部动作等关键视觉线索）作为自监督语音分离的监督信息；另一种策略是使用Wav2Lip首先生成视觉信息，然后将其作为自监督语音分离的监督指导。基于这两种策略，我们提出了SSWM网络（SSWMNet），该网络可以灵活地选择直接使用被遮挡的面部图像或利用Wav2Lip生成视觉信息。实验结果表明，在使用Wav2Lip生成视觉信息的所提出的语音分离方法中，其性能优于直接使用被遮挡面部图像进行自监督语音分离的方法。这两种提出的音频-视觉方法都优于仅使用音频进行语音分离的方法，后者在没有任何视觉信息辅助的情况下运行。SSWMNet的代码托管地址为：https://github.com/fanmanqian/SSWMNetwork。

AI摘要

AI生成的摘要（实验结果）

此摘要是使用自动化工具生成的，并非由文章作者撰写或审核。它旨在帮助读者发现相关内容、评估文章的相关性，并协助来自相关研究领域的读者理解本文的工作。它旨在补充作者提供的摘要，后者仍然是文章的官方摘要。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由AI生成的通俗语言摘要，您必须具有高级访问权限。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号