一种用于单词级发音评估的多任务分层深度强化网络方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：A Multi-task Hierarchical Deep Reinforcement Network Approach for Word Level Pronunciation Assessment

【字体：大中小】 时间：2026年03月07日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　自动发音评估（APA）系统需处理多粒度特征和任务间依赖。本文提出HierDRN多任务层次强化学习模型，通过分层任务分解、CGA融合模块和PUR强化机制，有效整合跨粒度特征并优化任务关联，实验表明其优于传统方法。

庞旭东|吴买尔·艾山|卢文文|西拉杰·海迈提·鲁泽迈提|雷立功

新疆大学计算机科学与技术学院，乌鲁木齐，830046，中国

摘要

自动发音评估（APA）是计算机辅助发音训练（CAPT）系统的重要组成部分。为了向第二语言（L2）学习者提供更全面和准确的反馈，需要在不同的语言层次和各种粒度上进行评分。然而，现有方法在处理不同语言层次方面的粒度特征时存在不足，难以捕捉到各种粒度下的内在特征。其次，现有方法缺乏处理任务间依赖性的能力，导致不同任务的输出相对独立。为了解决这些问题，本文提出了一种基于多任务层次深度强化网络（HierDRN）的新型词级评估方法。该模型采用层次化策略，通过将原始音素级评估任务分解为音素单元级评估任务来处理不同任务。同时，采用深度卷积和门控注意力（CGA）组合模块来捕捉每个任务内部不同粒度之间的依赖性，并处理来自不同任务的复杂融合特征。最后，提出了音素单元强化模块（PUR），以进一步整合音素单元特征信息与词级任务。通过这些机制，HierDRN在词级评估任务中表现出优越性。在SpeechOcean762和SingleSyllableScore上的实验结果证明了HierDRN的鲁棒性。

引言

随着第二语言（L2）学习者数量的增加，关于计算机辅助发音训练（CAPT）系统的研究也在不断增加。CAPT系统为L2学习者提供了多种指导，以帮助他们提高发音能力（Moere & Downey, 2016）。大量研究表明，CAPT系统不仅可以检测和纠正发音错误并提供有针对性的反馈（Gan, Wei, 2025; Han, Yang, Du, Li, 2024; Leung, Liu, Meng, 2019; Tong, Chen, Ma, Li, 2016），还能在不同语言层次上进行多粒度特征建模（Lv et al., 2024），从而为L2学习者提供多方面的评分。这种方法被称为自动发音评估（APA）。

早期的APA系统依赖于手动标注的数据集来构建评分模型，研究主要集中在单个维度上，如音素级（Li, Qian, Meng, 2017a; Mao, Soong, Xia, Tien, 2022a; Witt, Young, 2000）、词级重音（Ferrer, Bratt, Richey, Franco, Abrash, Precoda, 2015; Korzekwa, Barra-Chicote, Zaporowski, Beringer, Lorenzo-Trueba, Serafinowicz, Droppo, Drugman, & Kostek）、词级声调（Zhang, Li, Ma, Wang, & Zhang, 2013）和语句级流利度（Cucchiarini, Strik, Boves, 2000; Lin, Wang, 2021; Yan, Gong, 2011）。尽管这种方法对单粒度特征具有良好的可解释性，但它仅利用了每个粒度的表面特征，而没有考虑更深层次的特征及其相互依赖性，导致粒度之间的独立性，阻碍了全面性能评估和优化。近年来，随着深度神经网络的进步，多任务和多粒度发音评估的研究受到了越来越多的关注。大多数现有的多任务和多粒度发音评估工作采用了两种主要架构设计。一种是并行结构（Do, Kim, Lee, 2023b; Gong, Chen, Chu, Chang, Glass, 2022; Pei, Fang, Luo, Xu, 2024），它同时建模不同语言层次的多粒度特征并预测每个粒度的分数。另一种方法是采用多任务层次架构（Do, Kim, Lee, 2023a; Yan, Chen, 2024; Yan, Li, Wang, Wang, Lo, Hsu, Chao, Chen, 2024），在这种架构中，每个语言层次被建模为一个单独的任务，并共同预测多粒度分数。尽管这两种方法都实现了不同语言层次的多粒度特征预测，但它们仍存在三个关键限制。首先，由于任务之间的独立性，平行结构评估模型无法有效捕捉细粒度特征之间的关系。其次，仅依赖注意力机制（Gong et al., 2022）、额外的卷积模块（Pei et al., 2024）或门控机制（Do et al., 2023a）难以从具有复杂混合特征的音频中提取特定于任务的关键细粒度特征。此外，将这些不同语言层次的提取特征分离为相应任务所需的评估特征也具有挑战性。第三，传统方法没有充分处理任务之间的相关性。大多数现有方法仅优化单个任务的内部结构以增强特征提取（Yan, Chen, 2024; Yan, Li, Wang, Wang, Lo, Hsu, Chao, Chen, 2024），但这未能解决根本问题：传统的任务划分（即音素级、词级）过于宽泛，且评估指标在不同任务之间差异巨大。如图2上半部分所示，每个任务都是基于其自身的细粒度特征独立构建的。

因此，包含多个不同任务中细粒度组件的混合输入特征需要更复杂的处理来处理任务相关性并有效提取每个任务特有的关键细粒度特征。为了解决现有方法的局限性，我们提出了一种名为HierDRN的新方法。首先，我们采用了一种更适合建模不同语言层次任务的层次化架构。其次，为了解决特征提取和分离的挑战，我们提出了深度卷积和门控注意力融合模块（CGA）。与传统方法中的单一、孤立机制不同，CGA模块不仅能够深度提取多个粒度的特征，还能对融合特征进行细粒度分离，使模型能够更准确地处理和学习相应的粒度特征。此外，为了解决传统任务划分过于宽泛和任务间相关性较弱的问题，我们首次将原始音素级评分任务分解为更细粒度的音素单元级任务，并构建了一个新的音素单元评估指标，如图2下半部分所示，增强了任务之间的相关性。此外，我们引入了音素单元强化模块（PUR），该模块使用强化策略（Deng, Chen, Lu, Du, & Li, 2025b）为单个音素单元生成加权奖励分数，并整合了多源特征（Song, Wang, Jiang, Li, Hao, Hou, Qin, 2024; Zhang, Lin, Wu, Deng, Zhang, Liao, Peng, 2024）。在公开可用的SpeechOcean762数据集（Zhang et al., 2021）上进行的实验表明，HierDRN在音素级和词级任务上的鲁棒性得到了验证。此外，我们还在自己构建的SingleSyllableScore数据集上进行了消融研究，该数据集采用了一种新的评估指标，验证了HierDRN方法在音素级和词级任务上的显著改进。

方法论

在本部分，我们介绍了HierDRN的模型设计，如图3所示。随后部分将详细描述各个组成部分，包括多任务层次评分模块、音素单元强化（PUR）模块和损失函数的设计。

实验

本文使用了两个数据集进行验证实验，并通过这些实验评估了HierDRN的性能。

结论

本文提出了一种多任务层次深度强化网络（HierDRN），旨在解决传统多任务自动发音评估（APA）模型在处理语言层次间的粒度特征和捕捉任务间依赖性方面的局限性。为此，我们在多任务模型中引入了深度卷积和门控注意力（CGA）模块，该模块旨在提取

资助声明

本研究由中国国家自然科学基金项目（项目编号62466058）资助。

未引用文献

缺少图1的引用

CRediT作者贡献声明

庞旭东：方法论，撰写——初稿。吴买尔·艾山：软件，资金获取。卢文文：验证。西拉杰·海迈提·鲁泽迈提：监督。雷立功：撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

方法论

实验

结论

资助声明

未引用文献

CRediT作者贡献声明

利益冲突声明

热点排行