随着第二语言(L2)学习者数量的增加,关于计算机辅助发音训练(CAPT)系统的研究也在不断增加。CAPT系统为L2学习者提供了多种指导,以帮助他们提高发音能力(Moere & Downey, 2016)。大量研究表明,CAPT系统不仅可以检测和纠正发音错误并提供有针对性的反馈(Gan, Wei, 2025; Han, Yang, Du, Li, 2024; Leung, Liu, Meng, 2019; Tong, Chen, Ma, Li, 2016),还能在不同语言层次上进行多粒度特征建模(Lv et al., 2024),从而为L2学习者提供多方面的评分。这种方法被称为自动发音评估(APA)。
早期的APA系统依赖于手动标注的数据集来构建评分模型,研究主要集中在单个维度上,如音素级(Li, Qian, Meng, 2017a; Mao, Soong, Xia, Tien, 2022a; Witt, Young, 2000)、词级重音(Ferrer, Bratt, Richey, Franco, Abrash, Precoda, 2015; Korzekwa, Barra-Chicote, Zaporowski, Beringer, Lorenzo-Trueba, Serafinowicz, Droppo, Drugman, & Kostek)、词级声调(Zhang, Li, Ma, Wang, & Zhang, 2013)和语句级流利度(Cucchiarini, Strik, Boves, 2000; Lin, Wang, 2021; Yan, Gong, 2011)。尽管这种方法对单粒度特征具有良好的可解释性,但它仅利用了每个粒度的表面特征,而没有考虑更深层次的特征及其相互依赖性,导致粒度之间的独立性,阻碍了全面性能评估和优化。近年来,随着深度神经网络的进步,多任务和多粒度发音评估的研究受到了越来越多的关注。大多数现有的多任务和多粒度发音评估工作采用了两种主要架构设计。一种是并行结构(Do, Kim, Lee, 2023b; Gong, Chen, Chu, Chang, Glass, 2022; Pei, Fang, Luo, Xu, 2024),它同时建模不同语言层次的多粒度特征并预测每个粒度的分数。另一种方法是采用多任务层次架构(Do, Kim, Lee, 2023a; Yan, Chen, 2024; Yan, Li, Wang, Wang, Lo, Hsu, Chao, Chen, 2024),在这种架构中,每个语言层次被建模为一个单独的任务,并共同预测多粒度分数。尽管这两种方法都实现了不同语言层次的多粒度特征预测,但它们仍存在三个关键限制。首先,由于任务之间的独立性,平行结构评估模型无法有效捕捉细粒度特征之间的关系。其次,仅依赖注意力机制(Gong et al., 2022)、额外的卷积模块(Pei et al., 2024)或门控机制(Do et al., 2023a)难以从具有复杂混合特征的音频中提取特定于任务的关键细粒度特征。此外,将这些不同语言层次的提取特征分离为相应任务所需的评估特征也具有挑战性。第三,传统方法没有充分处理任务之间的相关性。大多数现有方法仅优化单个任务的内部结构以增强特征提取(Yan, Chen, 2024; Yan, Li, Wang, Wang, Lo, Hsu, Chao, Chen, 2024),但这未能解决根本问题:传统的任务划分(即音素级、词级)过于宽泛,且评估指标在不同任务之间差异巨大。如图2上半部分所示,每个任务都是基于其自身的细粒度特征独立构建的。
因此,包含多个不同任务中细粒度组件的混合输入特征需要更复杂的处理来处理任务相关性并有效提取每个任务特有的关键细粒度特征。为了解决现有方法的局限性,我们提出了一种名为HierDRN的新方法。首先,我们采用了一种更适合建模不同语言层次任务的层次化架构。其次,为了解决特征提取和分离的挑战,我们提出了深度卷积和门控注意力融合模块(CGA)。与传统方法中的单一、孤立机制不同,CGA模块不仅能够深度提取多个粒度的特征,还能对融合特征进行细粒度分离,使模型能够更准确地处理和学习相应的粒度特征。此外,为了解决传统任务划分过于宽泛和任务间相关性较弱的问题,我们首次将原始音素级评分任务分解为更细粒度的音素单元级任务,并构建了一个新的音素单元评估指标,如图2下半部分所示,增强了任务之间的相关性。此外,我们引入了音素单元强化模块(PUR),该模块使用强化策略(Deng, Chen, Lu, Du, & Li, 2025b)为单个音素单元生成加权奖励分数,并整合了多源特征(Song, Wang, Jiang, Li, Hao, Hou, Qin, 2024; Zhang, Lin, Wu, Deng, Zhang, Liao, Peng, 2024)。在公开可用的SpeechOcean762数据集(Zhang et al., 2021)上进行的实验表明,HierDRN在音素级和词级任务上的鲁棒性得到了验证。此外,我们还在自己构建的SingleSyllableScore数据集上进行了消融研究,该数据集采用了一种新的评估指标,验证了HierDRN方法在音素级和词级任务上的显著改进。