《Journal of Web Engineering》:Joint Models for Sentence Segmentation and Named Entity Recognition in Literary Sinitic Text
编辑推荐:
本文聚焦于朝鲜王朝汉文典籍的理解难题。为解决原文无标点、词语间无明显分隔导致的歧义问题,研究人员开展了一项联合进行断句与命名实体识别的研究。他们提出了一种基于Transformer的联合分析模型,并在《承政院日记》标注语料上进行训练。该模型在两项任务上均取得了高准确率,显著提升了句法分析和文本整体理解的效果,为汉文典籍的自动化信息提取与知识利用提供了有力工具。
你是否想象过,阅读一篇完全没有标点符号、字与字紧密相连的文章会是什么体验?对于研究朝鲜王朝历史的学者来说,这却是他们面对汉文古籍时的日常挑战。汉文,在古代东亚文化圈曾是一种通用的书面语言,在韩国,它从大约公元3-4世纪一直使用到20世纪初。然而,与现代中文不同,汉文典籍通常以连续字符流的形式书写,缺乏明确的词语分隔符和标点,这使得理解句子结构和语义变得异常困难,尤其是在处理包含大量人名、地名、官名等专有名词的朝鲜历史文献时。
为了解决这一难题,一项创新性的研究在《Journal of Web Engineering》上发表。研究者们瞄准了汉文文本理解中的两个核心任务:句子分割与命名实体识别。句子分割旨在预测文本中应在何处插入逗号或句号等分隔符,将连续的文字流切分成有意义的句子。而命名实体识别则负责从文本中识别并分类出特定类别的信息,如人名、地名、机构名等。这两项任务对于从海量古籍中高效提取知识、消除语义歧义至关重要。现有的中文分词工具,虽然采用了BERT、Bi-LSTM、CRF等现代算法,但由于语言习惯的差异,在分析包含朝鲜特有专有名词的文本时存在局限。为此,研究人员选择以朝鲜王朝的重要官方记录《承政院日记》为研究对象,旨在开发一款专门针对此类文献的自动化分析工具。
研究人员开展这项研究,主要采用了基于Transformer架构的联合模型方法。首先,他们构建了高质量的训练与测试数据集,其语料来源于数字化后的《承政院日记》。研究人员通过逆向处理人工标注好的文本,移除其中的命名实体标签和分隔符,得到原始的连续字符文本,并将被移除的实体和分隔符位置作为模型训练的目标标签,从而构建了包含约300万字符的数据集。接着,他们设计了一个共享编码器的多任务学习模型。该模型包含一个核心的Transformer编码器,以及两个后续的分类器,分别用于句子分割和命名实体识别任务。编码器负责从输入字符序列中提取深层特征,两个分类器则共享这些特征,并行完成各自的预测任务。这种设计不仅提升了参数效率,还能通过多任务目标实现正则化。此外,研究还探索了两种任务的输出相互作为对方模型输入的增强策略,以验证任务间的协同效应。在模型训练中,为应对类别不平衡问题,他们在损失计算中为不同类别设置了不同的权重。整个模型在GTX 1080Ti GPU上进行了训练。
研究结果方面,模型在句子分割和命名实体识别任务上均表现出色。
4.1 数据集
研究构建的数据集涵盖了《承政院日记》的字符级标注信息。预处理后,总计得到约300万字符的语料,划分了训练集、验证集和测试集。数据统计详细展示了分隔符(无、逗号、句号)和命名实体(无、人名、地名、补充说明、签名、工作状态)各类别的比例,为模型训练和评估提供了基准。
4.2 模型训练
模型采用了PreLN架构的Transformer编码器,参数量约为2700万。在预处理后的《承政院日记》训练集上进行训练,并使用验证集进行早期停止策略以选择最佳模型。
4.3 评估
实验评估了原始模型及其两个变体(将分隔符预测结果输入命名实体分类器的+S2N模型,以及将命名实体预测结果输入分隔符分类器的+N2S模型)的性能。评估指标包括精确率、召回率、F1分数和准确率。
结果显示,原始模型在句子分割任务上取得了0.9322的F1分数和0.9729的准确率,在命名实体识别任务上取得了0.9689的F1分数和0.9947的准确率,表现优异。更有趣的是,增强模型(+S2N和+N2S)进一步提升了性能,其中+S2N模型在命名实体识别上取得了最佳结果,而+N2S模型在句子分割上表现最好,这证实了两个任务之间确实存在相互促进的协同关系。案例分析表明,模型能够成功完成大部分句子的分割和实体识别,但也存在倾向于插入比真实情况更多分隔符,以及更偏好预测逗号而非句号的倾向。
最重要的量化证据来自形态分析失败率的对比:在使用句子分割的情况下,形态分析处理失败率为4.61%;而在不使用句子分割的情况下,失败率高达94.95%。这有力地证明了句子分割是理解汉文文本不可或缺的前置步骤。
研究结论与讨论部分强调了这项工作的创新性与重要意义。 该研究针对标注数据稀缺、应用场景相对小众的汉文典籍分析领域,提出并验证了一种有效的基于Transformer的联合分析模型。该模型成功地在《承政院日记》数据上实现了高精度的自动化句子分割和命名实体识别。句子分割显著降低了汉文文本的语义歧义,而命名实体识别则能有效提取关键信息类别,二者共同极大地提升了对汉文文本结构的理解和整体上下文的把握。研究不仅证明了一个共享编码器的多任务模型可以有效同时处理这两个任务,还发现了通过将一个任务的输出信息提供给另一个任务,可以进一步提升整体性能,这为未来相关自然语言处理任务的模型设计提供了新思路。这项工作的成果,为自动化处理大量无标点汉文历史文献、加速人文社科领域的数字化研究进程提供了强大的技术工具,具有重要的学术价值和实际应用前景。