
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Seq2Turk:利用上下文依赖的序列到序列模型进行土耳其语拼写错误校正
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Seq2Turk: Turkish Spelling Error Correction Using Context-Dependent Sequence-to-Sequence Model
【字体: 大 中 小 】 时间:2026年02月16日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
本研究针对土耳其语复杂形态的拼写错误问题,提出基于RoBERTa的上下文依赖序列到序列修正模型。通过生成20GB清洁数据及1TB含人工错误的训练集,模型在真实用户生成内容中达到96.2%修正准确率,优于传统规则系统及生成式AI模型,并提升后续情感分析任务性能。
此摘要是使用自动化工具生成的,未经过文章作者的撰写或审核。它旨在帮助读者发现研究内容的相关性,并辅助来自相关研究领域的读者理解该工作。它是对作者提供的摘要的补充,而作者提供的摘要仍然是论文的正式摘要。完整文章才是权威版本。点击此处了解更多。
点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。
AI 生成的摘要
版本创建于2026年1月24日。
本研究提出了Seq2Turk,这是一种专为土耳其语设计的上下文依赖型拼写校正模型。土耳其语是一种黏着语,其复杂的形态学特征使得自动纠错具有挑战性。以往的土耳其语拼写校正系统大多忽略了上下文信息,从而导致性能下降。所提出的方法通过基于预训练的RoBERTa语言模型的序列到序列架构解决了这一限制。
该方法包括三个主要组成部分:首先,使用高精度的拼写错误检测模型从互联网来源中过滤出38吉字节的原始文本,得到了20吉字节的干净数据;其次,研究人员根据社交媒体和数字平台上常见的错误模式生成了人工拼写错误,从而产生了约1太字节的训练数据;第三,在这个干净的数据集上预训练了RoBERTa模型,并用它来初始化序列到序列模型中的编码器和解码器组件。
该模型通过检查目标词前后的句子来融入上下文理解能力,从而能够根据语义意义区分相似的错误模式。例如,Seq2Turk能够正确地将拼写错误的“ynyr”解释为体育场景下的“oynuyor”(正在玩),或者在描述火灾时解释为“yan?yor”(正在燃烧),显示出强大的上下文感知能力。
评估指标包括四个方面:校正准确性(衡量成功纠正的错误数量)、拼写保留准确性(追踪未改变的正确单词)、总单词准确性(考虑整体的正确性)以及句子准确性(评估完整的句子修正情况)。测试数据包括包含6,300个单词的合成数据以及来自社交媒体的3,957个单词(含1,798个错误)的真实用户生成内容。
结果显示,Seq2Turk的表现显著优于基准系统,在真实数据上的校正准确率为96.2%,拼写保留准确率为99.2%,总单词准确率为97.8%,句子准确率为87.4%。该模型的表现大幅超过了传统的基于规则的方法(如Zemberek和Hunspell)以及现代语言模型(如ChatGPT和Google Gemini)。虽然生成式模型也表现良好,但它们倾向于过度纠正文本并改变原意,这对土耳其语复杂的形态学特征尤为不利。基于规则的技术虽然保留了现有的拼写,但遗漏了许多错误。
此外,将Seq2Turk作为情感分析的预处理步骤后,多个基于Transformer的模型的准确性提高了约1%。这项研究提供了一个公开可用的拼写校正系统、一个针对土耳其语的预训练RoBERTa模型、用于生成真实错误的函数,以及一个用于未来研究的干净土耳其语语料库。未来的工作将集中在处理口语表达和短文本上,并探索其在机器翻译、摘要生成和问答系统中的应用。