《Data & Knowledge Engineering》:All-words pronunciation estimation of Japanese homographs
编辑推荐:
同音异义词发音估计系统基于BERT模型开发,通过自动标注数据(BCCWJ)和真实标注数据(CSJ)结合提升训练效率,并利用众包数据集NIKKEI验证模型效果,证明自动标注数据有效且众包方法优于传统单一致认可标准。
小宫香奈子|小林泰一郎|浅原雅之|新野宏之
东京农工大学工程学院,日本东京小金井中台2-24-16,邮编184-8588
摘要 日语中存在许多同形异义词,即那些虽然拼写相同(使用相同的汉字),但发音不同的词。因此,为了准确阅读日语句子,需要对同形异义词进行发音估计。我们开发了一个系统,利用Transformer模型的双向编码表示(Bidirectional Encoder Representations)来估计这些词的发音。这是第一篇针对所有同形异义词进行发音估计的研究论文,我们通过全词词义消歧技术实现了这一目标。我们使用了“自然日语语料库”(Corpus of Spontaneous Japanese,CSJ)作为测试数据,同时利用“当代日语平衡语料库”(Balanced Corpus of Contemporary Written Japanese,BCCWJ)中的非核心数据(这些数据的发音由日语形态学分析器自动标注)作为训练数据,以降低转录成本。我们还研究了使用形态学分析器为CSJ中的词标注伪发音数据的情况。实验表明,自动标注的数据可以提高发音估计的准确性。
此外,为了评估全词发音估计系统,我们通过众包方式收集了数据集。我们邀请了20名志愿者为《日本经济新闻》(Nihon Keizai Shimbun,NIKKEI)中的句子选择正确的发音。对于NIKKEI数据,允许多个正确发音,评估时以大多数志愿者的答案作为正确答案。比较了使用BCCWJ伪数据训练的模型和使用CSJ伪数据训练的模型,结果发现使用BCCWJ伪数据的模型表现更优。
引言 日语中有很多同形异义词,即那些字母(通常是汉字)相同但发音不同的词。例如,“ ”有两个发音:“Karai”和“Tsurai”,分别表示“辣味”和“困难”。英语中也有一些同形异义词,比如“bow”既有动词([báu])也有名词([bóu])的发音;然而由于历史原因,日语中的同形异义词数量远多于英语。日本从中国引入了许多汉字,但通常保留了这些汉字在日本的发音。这种复杂的书写系统导致了大量同形异义词的产生,它们在日语文本中非常常见。根据我们的调查,日语文本中超过10%的词是同形异义词。
此外,即使某些汉字源自中国,它们的发音也可能不同,因为日本从中国各地的方言中吸收了多种发音。例如,“ ”(表示“2”)至少有6种发音:“Ni”、“Nii”、“Futa”、“Futsu”、“Buta”和“Puta”;而“
尽管在大多数情况下,日语使用者可以根据上下文区分发音,但对于非日语母语者或计算机来说,区分同形异义词的不同发音仍然很困难。例如,截至2024年4月,ChatGPT还无法解决发音估计问题。即使只有一个示例,ChatGPT的发音估计准确率也只有50%,在我们测试的20个示例中只有10个是正确的;这一准确率与随机选择系统的结果相同。因此,可靠的日语文本到语音系统的发音估计结果对于许多应用都非常重要,包括为日语学习者提供的阅读辅助系统和日语文本到语音技术,特别是对于有阅读困难或视觉障碍的人。
因此,我们开发了一个用于估计日语同形异义词发音的系统。小林[1]、佐藤[2]和张[3]曾估计过语料库中常见同形异义词的发音,提供了发音估计的词汇样本任务。但在本文中,我们同时针对常用和较少见的同形异义词进行了全词发音估计。为了实现这一目标,我们注意到基于上下文的发音变化类似于由于上下文因素导致的词义变化,并利用全词词义消歧技术进行了全词发音估计(见第2节)。据我们所知,这是第一篇针对所有同形异义词进行发音估计的研究论文。
训练用于同形异义词发音估计的系统需要口语转录数据,因为在某些情况下,即使词义相同,也只有作者自己知道这些词的准确发音。例如,“ ”可以发音为“Asu”、“Ashita”或“Myonichi”,但在这三种情况下词义都是“明天”。目前,由于转录成本高且来自口语的转录数据量少,获取转录数据通常很困难。因此,我们建议使用自动标注的数据(见第3节数据和第4节使用自动标注数据的同形异义词发音估计)。我们使用Transformer的双向编码表示(BERT)进行的实验表明,使用自动标注的数据可以提高日语同形异义词发音估计系统的准确性(见第5节实验和第6节评估)。
此外,我们还开发了一个全新的数据集来评估发音估计系统。我们邀请了20名志愿者为《日本经济新闻》(NIKKEI)中的句子选择正确的发音(见第3.2节)。对于NIKKEI数据,允许多个正确发音,评估时以大多数志愿者的答案作为正确答案。当多个发音都被视为正确答案时,实验中将所有最佳发音都视为正确。我们比较了使用BCCWJ伪数据训练的模型和使用CSJ伪数据训练的模型,结果发现使用BCCWJ伪数据的模型表现更优(见第6节)。
我们在第7节讨论了日语同形异义词的类型以及估计其发音时需要解决的问题,并在第8节给出了结论性意见。
本文的贡献如下:
我们开发了一个适用于日语文本中所有同形异义词的发音估计系统; 我们证明了在转录数据较少时,自动标注的发音对估计同形异义词的发音是有效的; 我们通过众包方式构建了一个全新的发音数据集,并对其进行了评估。 相关工作 据我们所知,除了Mazovetskiy[4]的工作(仅为展示材料)外,目前还没有全词发音估计系统。小林[1]、佐藤[2]和张[3]使用词汇样本任务进行了同形异义词或异形词的发音估计实验。小林[1]使用多种特征在“当代日语平衡语料库”(BCCWJ)[5]中估计了71个日语同形异义词的发音。
用于发音估计的现有语料库
CSJ被用作包含正确发音信息的测试和训练数据,而BCCWJ被用作训练用的伪数据。CSJ是一个收集了大量自然口语的语料库,其中包含了各种形态学信息(如词性)。由于该语料库基于转录的语音数据,因此假设其中提供了准确的发音信息。CSJ包含学术讲座等独白内容。
使用自动标注数据进行同形异义词发音估计
我们为CSJ(一个包含准确发音信息的日语语料库)开发了一个发音估计系统,该语料库可用作发音估计的训练数据。CSJ是口语语料库,即转录的语音数据,因此可以获得准确的发音信息。我们将其用作发音估计的训练数据、验证数据和测试数据。
通常,准备大量转录的语音语料库是非常困难的。
实验
我们发音估计系统的实验步骤如下:
从BCCWJ和/或CSJ中提取同形异义词; 生成同形异义词的发音词典; 将句子分词并转换为BERT ID; 准备标注所需的信息; 使用BERT估计同形异义词的发音。 为了准备标注信息,我们准备了(1)正字法标记和发音信息,(2)BERT ID,以及(3)同形异义词的发音标签(作为金标准数据)。
评估
我们在CSJ(参见第6.1节)和NIKKEI数据集(参见第6.2节)上评估了我们的方法。
讨论
第7.1节讨论了通过添加至少包含一个相关示例的数据而改进的情况。第7.2节进行了错误分析,并描述了未来改进的方向。
结论
我们使用BERT进行了全词发音估计。我们注意到词的发音往往会根据上下文而变化,并利用词义消歧技术实现了这一目标。我们使用CSJ(包含正确发音信息的数据)和BCCWJ(发音由自动标注的数据)进行了实验。我们还假设部分CSJ的发音是未知的,使用了CSJ的伪数据。
CRediT作者贡献声明
小宫香奈子: 撰写初稿、监督、方法论制定、资金获取、概念构思。
小林泰一郎: 验证、软件开发、调查、数据管理。
浅原雅之: 资源协调、调查、数据管理。
新野宏之: 验证、监督、软件开发、方法论制定、资金获取、概念构思。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务关系/个人关系:小宫香奈子表示获得了日本学术振兴会的财务支持。这项工作是小林等人的会议论文[20]的扩展版本。该工作得到了日本学术振兴会(JSPS)KAKENHI项目编号22K12145以及日本语言学研究所(National Institute for Japanese Language and Linguistics)项目的支持。
致谢
这项工作是小林等人的会议论文[20]的扩展版本。它得到了日本学术振兴会(JSPS)KAKENHI项目编号22K12145以及日本语言学研究所(National Institute for Japanese Language and Linguistics)项目的支持。在准备这项工作时,作者使用了Chat-GPT来提高英语水平。使用该工具/服务后,作者根据需要对内容进行了审查和编辑,并对出版物的内容负全责。
小宫香奈子 于2009年从东京农工大学(TUAT)获得博士学位。她在东京工业大学担任博士后研究员,随后在TUAT担任助理教授,并在茨城县立大学担任讲师,目前是TUAT的副教授。她对自然语言处理领域感兴趣,同时也是IPSJ、JSAI和ACL的成员。