在多扬声器场景中,利用商用毫米波雷达辅助的声学窃听技术

《Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies》:LAM-assisted Acoustic Eavesdropping in Multi-speaker Scenarios via Commercial mmWave Radar

【字体: 时间:2026年03月17日 来源:Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies

编辑推荐:

  mmMPS基于商用毫米波雷达实现多人语音窃听,创新采用对象振动信号提取与LAM大模型结合的方法,突破传统单语种假设限制,在7人场景下仍保持低于30%的识别错误率,填补多说话人场景下毫米波窃听技术空白。

  
要查看此由 AI 生成的摘要,您必须具有高级访问权限。

摘要

摘要

在封闭和私密的房间中窃听目标语音(如秘密聚会或私人派对)已成为一种日益增长的研究趋势,并对个人隐私泄露构成了最大的威胁之一。以往的研究通常对窃听的目标和场景做出各种假设,例如只有一名说话者、非常慢的语速以及清晰的单词分隔,这些假设极大地限制了窃听系统的适用性。在本文中,我们提出了一种基于商用毫米波(COTS mmWave)雷达的声学窃听系统 mmMPS,该系统能够在多人同时说话的场景中窃听特定目标的语音,而无需事先了解背景声音、语速或音量。该系统使用单个 COTS mmWave 雷达捕捉由人类语音引起的物体振动所产生的微弱信号,结合我们提出的去噪算法来恢复语音信号,然后利用我们的识别模型和大型音频模型(LAM)从多个说话者的混合语音信号中提取目标关键词。我们在使用 LAM 并在实验场景中收集的近 120 小时的音频数据集和 60 小时的雷达数据集上进行了广泛的实验。该系统能够覆盖各种目标用户、语速和语音强度。实验结果表明,在有 1-2 名同时说话者的场景中,系统在识别 36 个目标关键词时的平均 WER/CER(单词/字符错误率)为 6.46%(数值越低越好)。在 3-5 名说话者的场景中,平均 WER/CER 为 14.97%;即使在有最多 7 名同时说话者的场景中,平均 WER/CER 也保持在 30% 以下。据我们所知,mmMPS 是第一个在多说话者场景中实现高精度目标语音窃听的系统,显著扩展了声学窃听的应用范围。

AI 摘要

AI 生成的摘要(实验结果)

此摘要是使用自动化工具生成的,未经过文章作者的撰写或审核。它旨在帮助读者发现相关信息、评估文章的相关性,并帮助来自相关研究领域的读者理解本文内容。它旨在补充作者提供的摘要,后者仍是文章的官方摘要。完整文章才是权威版本。点击此处了解更多

点击 此处 对此摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由 AI 生成的通俗语言摘要,您必须具有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号