利用大型语言模型实现命名实体标记的跨语言迁移 Vladimir Barakhnin、Rustam Mussabayev、Davlatyor Mengliev、Alexander Krassovitskiy、Alymzhan Toleu、Daniil Lyutaev、Iskander Akhmetov 和 Bahodir Ibragimov

《Informatics》:Cross-Lingual Transfer of Named Entity Markup with Large Language Models Vladimir Barakhnin, Rustam Mussabayev, Davlatyor Mengliev, Alexander Krassovitskiy, Alymzhan Toleu, Daniil Lyutaev, Iskander Akhmetov and Bahodir Ibragimov

【字体: 时间:2026年05月10日 来源:Informatics 2.8

编辑推荐:

  摘要:本文研究了跨语言命名实体识别(NER)问题,即自动识别文本中的实体,如人、组织、地点和其他结构化元素。高质量的NER通常需要手动标注的语料库;然而,对于许多资源匮乏的语言来说,这类数据既稀缺又难以获取。本文提出了以下问题:是否可以使用一种语言的标注句子将NER标记转移到其机

  摘要:本文研究了跨语言命名实体识别(NER)问题,即自动识别文本中的实体,如人、组织、地点和其他结构化元素。高质量的NER通常需要手动标注的语料库;然而,对于许多资源匮乏的语言来说,这类数据既稀缺又难以获取。本文提出了以下问题:是否可以使用一种语言的标注句子将NER标记转移到其机器翻译后的对应语言中?为探索这个问题,我们提出了一种基于大型语言模型(LLM)的方法,该方法同时执行两个任务:翻译源句子并为翻译后的输出生成BIOES格式的实体标签。为了提高鲁棒性并减少语义漂移,引入了回译步骤,通过将重构的源句子与原文进行比较来验证意义的保留。所提出的方法与两种基线方法进行了比较:(1)通过机器翻译进行注释投影;(2)使用现有的NER工具进行自动标记。性能评估采用了包括精确度、召回率和F1分数在内的标准指标。实验结果表明,基于LLM的方法为跨语言转移NER注释提供了一种实用且高效的方式。尽管该方法表现出强劲且平衡的性能,但其质量仍受翻译准确性和对注释规则遵守程度的影响。从方法论角度来看,该方法相对独立于具体语言,因为它依赖于通用的LLM能力、统一的标记方案以及多语言语义表示,而不是针对特定语言进行模型训练。

1. 引言
如今,许多文本处理任务首先需要理解文本的实际内容[1,2]。文本通常包含重要的名称:人、组织、城市和国家、日期、文档等类似元素[3,4]。自动识别和突出这些元素的任务称为命名实体识别(NER)[5]。这对于信息检索、新闻分析、构建知识库和其他实际任务非常有用[6,7]。此外,应当强调的是,NER通常需要标注数据[8,9]。这意味着文本需要预先标注,以确定哪些词指的是实体以及它们的类型。手动标注非常耗时且需要具备良好语言知识及标注规则的人[10]。对于资源匮乏的语言,由于标注语料库有限且手动标注成本高昂,NER的进展较为缓慢。本研究针对一种资源匮乏的情况,其中有一个标注了BIOES格式的乌兹别克语语料库,而相应的俄语和英语标注数据却很有限。我们探讨了是否可以将乌兹别克语的跨度级注释高效可靠地转移到这些目标语言中。我们采用了BIOES标记方案,该方案标记实体的开始、中间、结束以及单个标记,并非实体标记。
我们提出了一种基于LLM的流程,将句子翻译成目标语言,并为翻译后的标记生成BIOES标签。这种方法无需为每种语言单独训练NER模型,因此在标注数据有限时也可以应用。为了控制翻译的忠实度,我们采用了回译和语义相似性检查。虽然这种验证并不完美,但它有助于识别翻译在多大程度上扭曲了原意。我们将所提出的基于LLM的流程与两种基线方法进行了比较:(i)通过机器翻译进行注释投影;(ii)使用Stanza NER工具包对翻译后的文本进行自动标记。我们使用标准的NER指标(精确度、召回率和F1分数)评估转移的注释,并分析了常见的错误类型,包括边界错误、类型混淆和与翻译相关的匹配问题。总体而言,本文的目的是评估LLM是否能够加速乌兹别克语到俄语和英语的BIOES注释转移,并比较这种方法与简单基线的优劣。

2. 相关工作
本节描述了在需要NER且标注数据不足时常用的方法。

2.1. NER和标注数据问题
许多现代NER方法仅在有大量标注示例的情况下才能取得良好效果[11,12,13]。如果标注数据较少,质量通常会下降。因此,对于没有大型语料库的语言,研究人员经常寻找更快获取标注数据的方法或从其他语言转移标注数据。

2.2. 通过翻译转移标注(投影)
最直接的方法之一是将句子翻译成另一种语言,并尝试将实体标签转移到译文中[14,15]。这种方法常被称为“标注投影”。然而,这存在一些问题:
(1)翻译可能会改变词序或词形;
(2)有时实体并不是按字面意思翻译,而是按含义翻译;
(3)因此,很难准确确定实体在译文中的位置及其边界。

2.3. 准备好的工具和模型
现成的NLP库和预训练模型也可以用于NER[16,17]。这种方法的优点是可以快速产生结果;然而,性能取决于(i)语言覆盖范围,(ii)训练数据与目标文本之间的领域相似性,以及(iii)所需实体类型的可用性。

2.4. 用于标注的大型语言模型(LLM)
近年来,大型语言模型因其能够执行许多NLP任务的自然语言指令而受到欢迎[18,19]。这提供了另一种选择:让模型直接输出标记级别的注释,例如BIO或BIOES格式[20,21]。这种方法的优点是即使没有专门为目标语言训练的NER模型也可以应用。然而,LLM的输出可能包含格式错误、遗漏的实体或不正确的边界;因此,需要进行验证和质量控制。

2.5. 本研究的方法有何不同?
本研究的方法是使用LLM翻译句子,立即生成BIOES标签,然后进行回译和语义相似性检查。我们认为这是一种比完全手动标注更快获得跨语言跨度级注释的实际方法。更广泛地说,我们的工作与跨域适应和迁移的研究相关,即在一个环境中学习到的模型或表示在另一个环境中重新使用。尽管最近在领域泛化、跨域分割和跨域推荐等领域的研究探索了类似的迁移思路,但它们的方法并不直接适用于标记级别的NER标注转移,因为它们操作的数据结构、监督类型和目标输出不同。相比之下,我们的任务要求保持语言之间的标记边界和实体标签的一致性。下一节将详细描述所提出方法的数据和步骤,随后展示结果并与基线方法进行比较。

3. 材料和方法
3.1. 源数据
我们使用了一个包含大约10,000个句子的乌兹别克语语料库,这些句子在标记级别使用了BIOES方案进行了标注。每个标记都被分配了一个BIOES标签(B/I/E/S/O),以及相应的实体类型, indicating该标记是否属于某个命名实体及其在实体跨度中的位置。此外,需要注意的是,图1显示的是输入数据,而图2展示的是输出数据。表1总结了研究中使用的数据集。

3.2. 对比方法
本文比较了三种基于乌兹别克语句子获取俄语和英语BIOES格式NER标注的方法。所有方法都从乌兹别克语句子开始,但后续的处理方式不同。需要强调两种基本方法之间的区别:
(1)在标注投影方法(3.2.2节)中,我们尝试将原始乌兹别克语注释中的实体转移到译文中;
(2)在Stanza基线方法(3.2.3节)中,翻译中的实体是由现有模型新发现的,即不直接使用原始乌兹别克语注释。

3.2.1. 提出的LLM方法
主要方法使用大型语言模型以更直接的方式在目标语言中获取BIOES标注。在这项工作中,我们使用了ChatGPT(OpenAI, GPT-5.2)作为实验流程中的LLM。该模型用于(i)将乌兹别克语句子翻译成俄语和英语;(ii)在固定提示模板下生成BIOES标签序列。我们为模型生成了一个查询,使其同时执行两项任务:
(1)将乌兹别克语句子翻译成俄语或英语;
(2)为翻译后的单词生成BIOES标签。
为了确保模型产生更稳定的结果,在提示中给出了简单明了的规则:
(1)允许哪些BIOES标签(B-, I-, E-, S-, O);
(2)必须保持实体边界;
(3)响应必须遵循指定的格式(例如,“token—tag”)。
收到响应后,进行了两项检查:
测试1——BIOES格式和逻辑检查。我们检查每个单词是否有标签以及标签是否一致(例如,没有B就没有E,没有实体的开始就没有I)。
测试2——回译和句子-level的语义相似性检查。为了降低意义扭曲的风险,使用相同的LLM(ChatGPT)将生成的俄语/英语句子重新翻译回乌兹别克语。然后,我们使用多语言Sentence-Transformer模型sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2计算句子嵌入,并测量原始乌兹别克语句子与其回译之间的余弦相似性。这些相似性分数用于描述性分析翻译的忠实度(见表2和图3),但它们并非最终评估中的硬性过滤阈值。

3.2.2. 通过翻译进行标记转移的方法
第二种方法采用了经典的标记转移思路,即根据实体的含义,在翻译中将乌兹别克语句子中的实体放置到相同的位置,从而可以在俄语或英语文本中添加BIOES标签。主要的难点在于翻译过程中:
(1)词序可能会改变;
(2)实体可能不会被逐字翻译;
(3)实体有时会变得更短或更长。
为了更容易识别翻译中的实体边界,使用了一种带有标签的辅助技术。
方法步骤:
(1)取一个乌兹别克语句子,并用特殊标签依次突出每个实体;
(2)将这个句子翻译成目标语言;
(3)根据翻译中标签的位置,确定哪个文本片段对应于给定的实体;
(4)然后,将常规句子(无标签)的翻译作为最终文本,并将识别的实体边界转移到其中;
(5)最后,在最终翻译的单词上添加BIOES标签。
需要注意的是,在这种方法中,我们的目标不是发现新的实体,而是转移乌兹别克语文本中已经标注的实体。此外,为了公平比较,所有流程都使用了相同的翻译系统(ChatGPT 5.2)。

3.2.3. 使用现有NER模型的方法(Stanza方法)
第三种方法作为基线进行比较。在这里,原始的乌兹别克语标记不会被转移,实体也不是一对一映射的。相反,使用了一种相当简单的方案:首先获取目标语言的文本,然后使用现成的NER模型对其进行注释。方法步骤如下:

(1)将乌兹别克语句子翻译成俄语或英语。
(2)运行Stanza库中对应语言的现成NER模型。
(3)模型输出翻译中发现的实体及其类型的列表。
(4)将结果转换为BIOES格式,即为句子中的单词分配B/I/E/S/O标签。

这种方法的主要思想是Stanza会重新找到实体,因此结果可能与原始的乌兹别克语标注不同。这使得该方法作为一个基线很有用:它展示了在不转移标注的情况下可以取得什么成果。

3.3. 评估方法

所有方法都在由300个俄语句子和300个英语句子组成的专家标注参考集上进行了评估。评估是在实体跨度级别进行的。我们报告了微平均精确度、召回率和F1分数。在严格的匹配条件下,只有当预测实体的跨度边界和实体类型与参考完全匹配时,才计为真正例(TP)。未与任何参考实体匹配的预测实体计为假正例(FP),而未被预测匹配的任何参考实体计为假负例(FN)。

除了严格的跨度级别评估外,我们还报告了两个补充分析,以捕捉翻译效应:
(i)句子级别的语义相似性,以保持意义;
(ii)实体级别的语义匹配,以考虑表面形式的变化。

3.3.1 句子级别的语义相似性(保持意义)

对于基于LLM的流程,我们使用回译来评估意义保持情况。每个生成的目标语言句子(俄语/英语)都使用相同的LLM(ChatGPT 5.2)重新翻译成乌兹别克语。我们使用多语言Sentence-Transformer模型sentence-transformers/paraphrase-multiilingual-MiniLM-L12-v2计算句子嵌入,该模型将不同语言映射到共享的嵌入空间,并测量原始乌兹别克语句子与其回译版本之间的余弦相似度。我们还计算了原始乌兹别克语句子与直接俄语/英语翻译之间的余弦相似度。描述性统计信息和分数分布分别在表2和图4中报告。这些相似度分数仅用于分析,并不作为最终评估中的硬性过滤标准。

3.3.2 实体级别的语义匹配(评估中的语义等价)

为了减少翻译引起的表面形式变化(例如,缩写与全称或官方名称与简称)的惩罚,我们还计算了允许语义匹配的实体级别分数。实体嵌入是使用相同的模型(paraphrase-multilingual-MiniLM-L12-v2)计算的,并计算预测实体字符串与参考实体字符串之间的余弦相似度。

语义匹配在以下约束条件下进行:
- 仅相同类型的实体(例如,LOC?LOC,ORG?ORG);
- 在同一句子内进行匹配;
- 如果预测实体与同一句子中任何相同类型的参考实体的最大余弦相似度≥T_ent = 0.85,则计为语义真正例;
- 为了避免多个预测匹配相同的参考实体,通过贪婪地分配最高得分的对来实现一对一匹配。

我们基于多语言句子嵌入常用的相似度阈值设置了T_ent = 0.85,并通过一个小型的试点检查确认它提供了合理的精确度-召回率权衡。所有报告的指标都是在实体跨度级别计算的(而不是词元准确性)。这种设置确保了边界检测和正确实体类型的正确评估。

3.4. 说明性示例

为了说明典型的跨语言转换挑战,我们提供了乌兹别克语、俄语和英语的平行示例。为了清晰起见,我们包括了简短的释义(近似意义)并展示了主要实体跨度的BIOES标签。

**示例1:**
乌兹别克语:“Men Axborot va hisoblash texnologiyalari institutiga bordim。”
释义:“我去了信息与计算技术研究所。”
俄语:“Я пошёл в Институт информационных и вычислительных технологий.”
英语:“I went to the Institute of Information and Computational Technologies.”

目标BIOES注释(ORG)—正确跨度:
乌兹别克语词元:Axborot B-ORG, va I-ORG, hisoblash I-ORG, texnologiyalari I-ORG, institutiga E-ORG;
俄语词元:Институт B-ORG, информационные I-ORG, и I-ORG, вычислительные I-ORG, технологии E-ORG;
英语词元:Institute B-ORG, of information I-ORG, and computing I-ORG, technologies E-ORG

**典型错误:**模型只将首词标记为ORG,忽略了完整的多词跨度。即使实体类型正确,也会产生严格的跨度不匹配。

**示例2:缩写与全称**
乌兹别克语:“Bugun AQSH Prezidenti bayonot berdi.”
俄语:“Сегодня президент США сделал заявление.”
英语:“Today the U.S. President issued a statement.”

参考实体:AQSH/CШA/U.S. (LOC)

**典型挑战:**不同语言的表面形式不同(缩写、标点符号和转写)。在严格的评估下,如果边界/类型对齐不完美,这些差异可能会降低分数。而在语义评估下,如果实体类型相同且余弦相似度超过T_ent,则可以匹配。

**示例3:官方名称与简称的变化**
乌兹别克语:“Uchrashuv O‘zbekiston Respublikasi Prezidenti bilan bo‘lib o‘tdi.”
俄语:“Была встреча с Президентом Республики Узбекистан.”
英语:“The meeting was held with the President of Uzbekistan.”

参考实体:O‘zbekiston Respublikasi (LOC)

**典型挑战:**英语翻译可能使用简称(“Uzbekistan”)而不是完整的官方名称(“Republic of Uzbekistan”)。在严格的跨度级别评估下,这会导致不匹配,而在语义评估下,如果实体类型相同且余弦相似度≥T_ent,则可以视为正确。

4. 结果

本节讨论了三种方法的比较结果:基于LLM的方法、注释投影和现成模型(Stanza)。评估是在每个目标语言(俄语和英语)的300个带有专家BIOES注释的参考集上进行的。下面,我们分别检查了(1)翻译后意义的保持情况以及(2)使用标准指标的NER注释质量。

4.1. 语义相似性(意义的保持和回译)

基于LLM的方法还评估了翻译过程中句子意义的保持情况。这一点尤为重要,因为LLM流程同时执行翻译和BIOES注释;因此,翻译错误可能会直接影响实体标记。

进行了两种语义一致性比较:
- 原文与回译——比较原始乌兹别克语句子及其回译(先翻译成俄语/英语再翻译回乌兹别克语);
- 原文与目标翻译——比较原始乌兹别克语句子及其翻译成俄语或英语的结果。

此外,图4展示了相似度值的分布,表2提供了描述性统计信息(均值、中位数、最小值和最大值)。

总体而言,结果显示大多数句子的语义相似度值较高。这表明LLM方法在大多数情况下保持了句子的整体意义。在结构复杂的句子或涉及模糊构造的句子中,相似度值较低。我们将乌兹别克语和俄语/英语句子嵌入到相同的多语言嵌入空间(MiniLM)中,并计算余弦相似度。

对于注释投影和Stanza方法,没有应用回译质量控制。尽管这些流程中使用了机器翻译作为技术步骤,但并未通过语义一致性检查进行明确评估。

4.2. 不考虑语义的BIOES标签质量

接下来,我们评估每种方法在严格跨度级别标准下再现原始BIOES注释的准确性。只有当实体边界(跨度)与参考完全匹配且实体类型(标签)相同时,才认为实体是正确的。

结果在表3中呈现,并在图5、图6和图7中可视化,其中报告了精确度、召回率、F1分数以及TP/FP/FN分布。需要注意的是,表3中的严格结果仅基于精确的跨度和标签一致性。这些分数是本研究的主要NER评估标准。

**表3. 跨度级别的NER性能(严格匹配):精确度、召回率、F1分数和TP/FP/FN计数。**
**图5. 严格跨度级别(实体级别)评估:不同方法的F1分数比较(俄语和英语)。**
**图6. 严格跨度级别(实体级别)评估:不同方法的精确度比较(俄语和英语)。**
**图7. 严格跨度级别(实体级别)评估:不同方法的召回率比较(俄语和英语)。**

可以观察到几个一致的模式:
- **基于LLM的方法**:LLM流程表现出最平衡的性能。它在保持高精确度的同时也获得了相对较高的召回率,表明更好地保持了实体边界和实体类型。
- **注释投影**:投影通常具有较高的精确度,因为它直接从原始标注中转移实体,不太可能引入虚假实体。然而,召回率通常较低。这主要是由于翻译引起对齐问题,包括词序变化、跨度碎片化或形态变化。
- **Stanza基线**:Stanza基线通常产生最低的F1分数。由于它对翻译后的文本进行独立的实体提取,可能会生成参考中不存在的额外实体(增加FP),并无法恢复一些原始实体(增加FN),特别是对于多词实体和复杂的句法结构。

这些严格的结果提供了对每种方法准确传递注释能力的严格评估,而不仅仅是识别语义相关的实体。

4.3. 考虑语义等价的实体质量

除了表3中报告的严格跨度级别评估外,我们还进行了另一种允许实体之间语义等价的评估。这种设置不是为了替代严格评估,而是为了检查由翻译引起的表面形式变化导致了多少错误。因此,表4中的分数应被视为在不同匹配标准下的补充分析,而不是严格结果的直接替代。

**表4. 具有语义等价的实体级别性能:精确度、召回率、F1分数和TP/FP/FN计数。** 在这种评估中,如果满足以下条件,则将实体计为真正例:
- 完全匹配:预测实体的跨度和实体类型与参考完全匹配;
- 语义匹配:预测实体与同一句子中的相同类型参考实体匹配,并且它们之间的嵌入余弦相似度≥T_ent = 0.85。

如前所述,实体嵌入是使用多语言Sentence-Transformer模型sentence-transformers/paraphrase-multiilingual-MiniLM-L12-v2计算的。为了避免多个预测匹配相同的参考实体,我们通过贪婪地分配最高得分的对来实现一对一匹配。

**注意:**这种语义评估通过减少表面形式变化的惩罚(例如,缩写与全称)来补充严格的跨度级别评分,同时仍然要求一致的实体类型。

相应的结果在表4、图8、图9和图10中呈现。
**图8. 语义等价评估:不同方法的F1分数。**
**图9. 语义等价评估:不同方法的精确度。**
**图10. 语义等价评估:不同方法的召回率。**

观察到以下趋势:
- **基于LLM的方法**:LLM流程从语义评估中受益最多。即使在措辞与参考注释不同,它也能在许多情况下保持正确的实体。
- **注释投影**:与严格评估相比,投影显示出适度的改进。当考虑语义等价时,一些字符串不匹配的情况变得正确,尤其是在替代翻译的情况下。
- **Stanza基线**:尽管语义评估略微提高了Stanza的分数,但其整体性能仍然较低。这是因为其主要弱点不仅在于表面变化,还在于独立的实体提取,这会引入额外的假正例和遗漏参考实体。

总体而言,语义评估确认了一部分严格错误是由翻译引起的表面变化造成的,而非错误的实体识别。然而,各种方法的相对排名仍然一致:基于LLM的流程在严格和语义评估中都表现最好。因此,表3到表4的改进应被视为放宽语义匹配的效果,而不是原始严格协议下的改进。

5. 讨论

本节总结了主要发现。总体而言,基于LLM的流程在跨语言转换中提供了最稳定的性能,因为它更好地保持了实体边界和实体类型。相比之下,注释投影由于翻译引起的对齐和边界移动,通常会失去召回率,尤其是对于多词实体。Stanza基线产生了更多的假正例和假负例,因为它独立于源注释重新检测实体,这可能与以转换为导向的参考标准有所不同。

**5.1. 关键观察**

总体而言,结果显示三种方法产生了显著不同的结果。基于LLM的方法在两种目标语言上的表现最为一致。它更经常正确识别实体类型,并更好地保持了实体边界,从而实现了更平衡的精确度和召回率。基于回译的验证有助于识别翻译改变了预期意义的情况,这可能导致NER中的边界和标签错误。因此,这一步改进了基于LLM的流程的鲁棒性。

**5.2. 为什么方法会产生不同的结果**

基于LLM的方法的主要优势在于它可以考虑上下文。它不仅简单地搜索词匹配,而是试图理解句子的意义。由于这个原因,大语言模型(LLM)通常更擅长判断一个词是否是一个实体、它的类型以及它的开始和结束位置。注释投影方法通常看起来更“可控”,因为它试图只转移源乌兹别克语文本中已经注释的实体。这通常可以提高精度,因为这种方法不太可能添加“不必要的”实体。然而,如果翻译改变了词序、短语被缩短或扩展,或者翻译不是字面意义上的,这种方法的召回率可能会下降。在这种情况下,很难在翻译中准确找到所需的片段,有些实体则根本无法转移。

Stanza基线方法的性质不同:它不转移原始实体,而是重新检测翻译文本中的实体。因此,其输出可能与用于评估的参考注释有所不同。在我们的设置中,这通常会增加误报(额外的实体)和漏报(未发现的参考实体)。

5.3 常见错误
在手动审查示例时,可以识别出几种重复出现的错误类型:
- 多词实体(特别是组织名称)。
- 边界错误:该方法只能捕获名称的一部分或附近的额外词汇。所有方法都会出现这个问题,但在投影和Stanza方法中尤为明显。
- 翻译不是字面意义上的,而是语义上的:有时实体在翻译中表现不同,例如,一个简短的名称被替换为正式名称,反之亦然。在严格的评估中,这可能被视为错误,尽管本质上是一样的。因此,考虑语义的评估通常会显示出更“柔和”和更真实的翻译数据情况。
- 转移与“从头开始搜索”之间的区别:重要的是,Stanza解决的是不同的问题:它不转移源标记,而是在目标语言中创建新的标记。因此,即使从俄语/英语的角度来看是正确的实体,也可能不符合转移标准。在我们的设置中,这会导致指标下降。

5.4 俄语和英语之间的差异
结果还表明,不同方法在不同目标语言上的表现可能不同。例如,在某些情况下,翻译成俄语可能比翻译成英语更容易。一个可能的解释是,将乌兹别克语翻译成俄语通常更直接,而翻译成英语可能会更显著地改变句子结构。当结构变化较大时,转移实体边界和匹配严格标准就变得更加困难。这一观察表明,乌兹别克语和目标语言之间的结构差异可能会影响边界的保持;然而,需要进一步的对照实验来验证这一假设。

5.5 局限性和实际结论
这项工作有几个局限性:
- 所有方法都依赖于机器翻译的质量。如果翻译显著改变了含义或结构,注释的转移就不太准确了。
- LLM方法依赖于模型的稳定性。有时模型可能会违反注释格式,因此需要进行检查和修正。
- 语义相似性分析取决于嵌入模型和选定的阈值(例如T_ent),结果在不同的设置下可能会有所不同。
- 参考集包含每种目标语言的300个句子,这比非常小的样本提供了更可靠的分数,但它仍然可能无法涵盖所有文本类型和所有复杂情况。
- 从实际角度来看,LLM方法可以作为快速获取其他语言初步注释的一种方式。然而,要创建高质量的语料库,仍然需要应用额外的检查,并在可能的情况下进行部分手动修正,特别是对于长的组织名称和模棱两可的情况。

6. 结论
本文研究了将Uzbek语到俄语和英语的BIOES注释(命名实体识别NER)转移的问题。主要挑战在于难以快速获取多种语言的高质量注释数据,而手动注释需要时间和专业知识。研究中比较了三种方法:第一种方法基于LLM,根据指令同时翻译句子并输出BIOES标签;第二种方法是通过翻译进行注释转移(注释投影),将源乌兹别克语文本中的实体转移到目标语言中;第三种方法是使用现成的NER模型(Stanza),在翻译中重新发现实体而不使用原始注释。实验结果表明,LLM方法在两种目标语言中通常表现最一致。它更好地保持了实体边界及其类型,即使在翻译不完全是字面意义上也能产生正确的结果。同时,通过翻译转移标记是一种更“可控”的方法,但它对翻译质量和句子结构的变化很敏感。Stanza方法证明是最容易实现的。然而,作为基线方法,它表明现成的模型并不总是适合标记转移,因为它们使用自己的规则来寻找实体,可能会与标准有所不同。

在每种目标语言的300个句子参考集上,基于LLM的流程取得了最高的严格跨度级别性能(见表3)。投影方法显示出完美的精度,但由于翻译引起的边界不匹配,召回率较低;而Stanza基线产生了更多的误报和漏报,因为它独立于源注释重新检测实体。此外,LLM方法通过回译(用作语义一致性检查)进行的额外验证有助于识别含义被显著扭曲的情况,使流程在实践中更加可靠。结果还证实了本文开头提到的主要贡献:首先,所提出的基于LLM的流程提供了一种实用的方法,可以将BIOES注释从Uzbek语转移到俄语和英语中,同时比基线方法更可靠地保持实体边界和类型;其次,基于嵌入的语义分析有助于区分严格的边界错误和由翻译引起的表面形式变化;第三,对专家标记的参考集的比较评估表明,所提出的方法不仅对这里研究的语言有效,也可能适用于其他资源匮乏的语言,这些语言的手动注释语料库有限。从这个意义上说,所提出的工作流程可以被视为一种多语言NER在资源匮乏环境中的实用资源创建策略。未来的工作将集中在三个方向上:首先,增加跨文本类型的测试数据量和多样性,以确保更稳健的评估;其次,更详细地研究实体类型错误,并为复杂情况(例如多词实体)添加更严格的规则;第三,尝试结合这些方法的最佳方面:使用LLM进行初始标记,然后应用更正式的验证和修正步骤。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号