今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

通过基于本体的特征融合和逻辑回归技术提升阿姆哈拉语新闻的分类效果

《Scientific Reports》:Enhancing amharic news classification through ontology-based feature fusion and logistic regression

【字体: 大 中 小 】 时间:2026年05月22日 来源:Scientific Reports 3.9

编辑推荐:

  摘要阿姆哈拉语是埃塞俄比亚的一种主要闪米特语言,但由于语言资源有限,在自然语言处理研究中的代表性不足。本研究通过提出一种混合框架来应对低资源语言的文本分类挑战,该框架将语义结构化的阿姆哈拉语新闻本体(ANO)与传统的TF-IDF特征相结合。ANO通过严格的四阶段方法系统地开发出来

  

摘要

阿姆哈拉语是埃塞俄比亚的一种主要闪米特语言,但由于语言资源有限,在自然语言处理研究中的代表性不足。本研究通过提出一种混合框架来应对低资源语言的文本分类挑战,该框架将语义结构化的阿姆哈拉语新闻本体(ANO)与传统的TF-IDF特征相结合。ANO通过严格的四阶段方法系统地开发出来,以捕捉新闻领域概念之间的层次关系。我们提出了一种特征融合技术,将词汇(TF-IDF)和本体特征结合起来,生成丰富的文档表示,用于训练逻辑回归分类器。在包含61,915篇阿姆哈拉语新闻文章的公共数据集上进行评估时,我们的本体增强模型达到了97.0%的准确率。统计分析显示,与仅使用TF-IDF的基线模型相比,准确率提高了3.2个百分点(McNemar检验($\chi ^2 = 256.7$,$p < 0.001$))。本体集成在区分语义相关类别方面尤其有效(政治与商业类别的混淆减少了38%)。实验结果表明,对于评估数据集中的阿姆哈拉语新闻分类,通过特定领域的本体整合结构化语义知识可以将分类准确率提高3.2%。虽然这些发现展示了基于本体的特征融合在低资源语言中的潜力,但其效果仅限于新闻领域和所使用的数据集。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:阿姆哈拉语文本分类|语义本体|混合特征|烟火模型|新闻分类 语言资源短缺|有限数据集|结构智能|高准确率|概念层级

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号