
-
生物通官微
陪你抓住生命科技
跳动的脉搏
通过基于本体的特征融合和逻辑回归技术提升阿姆哈拉语新闻的分类效果
《Scientific Reports》:Enhancing amharic news classification through ontology-based feature fusion and logistic regression
【字体: 大 中 小 】 时间:2026年05月22日 来源:Scientific Reports 3.9
编辑推荐:
摘要阿姆哈拉语是埃塞俄比亚的一种主要闪米特语言,但由于语言资源有限,在自然语言处理研究中的代表性不足。本研究通过提出一种混合框架来应对低资源语言的文本分类挑战,该框架将语义结构化的阿姆哈拉语新闻本体(ANO)与传统的TF-IDF特征相结合。ANO通过严格的四阶段方法系统地开发出来
阿姆哈拉语是埃塞俄比亚的一种主要闪米特语言,但由于语言资源有限,在自然语言处理研究中的代表性不足。本研究通过提出一种混合框架来应对低资源语言的文本分类挑战,该框架将语义结构化的阿姆哈拉语新闻本体(ANO)与传统的TF-IDF特征相结合。ANO通过严格的四阶段方法系统地开发出来,以捕捉新闻领域概念之间的层次关系。我们提出了一种特征融合技术,将词汇(TF-IDF)和本体特征结合起来,生成丰富的文档表示,用于训练逻辑回归分类器。在包含61,915篇阿姆哈拉语新闻文章的公共数据集上进行评估时,我们的本体增强模型达到了97.0%的准确率。统计分析显示,与仅使用TF-IDF的基线模型相比,准确率提高了3.2个百分点(McNemar检验($\chi ^2 = 256.7$,$p < 0.001$))。本体集成在区分语义相关类别方面尤其有效(政治与商业类别的混淆减少了38%)。实验结果表明,对于评估数据集中的阿姆哈拉语新闻分类,通过特定领域的本体整合结构化语义知识可以将分类准确率提高3.2%。虽然这些发现展示了基于本体的特征融合在低资源语言中的潜力,但其效果仅限于新闻领域和所使用的数据集。
生物通微信公众号