今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

SRM-CSR:基于语义感知相关性建模和上下文句子表示的无监督方面类别检测

《Scientific Reports》:SRM-CSR: unsupervised aspect category detection based on semantic-aware relevance modeling and contextual sentence representation

【字体: 大 中 小 】 时间:2026年06月03日 来源:Scientific Reports 3.9

编辑推荐:

  摘要无监督的方面类别检测旨在在不使用任何标注标签的情况下,识别给定句子中讨论的潜在方面类别。最近的研究通常从评论语料库中生成伪标签,然后以监督的方式训练模型。然而,在生成伪标签的过程中,现有方法要么无法捕捉句子内部的方面区分度,要么完全依赖于从通用语料库中提取的预训练模型,这可能

  

摘要

无监督的方面类别检测旨在在不使用任何标注标签的情况下,识别给定句子中讨论的潜在方面类别。最近的研究通常从评论语料库中生成伪标签,然后以监督的方式训练模型。然而,在生成伪标签的过程中,现有方法要么无法捕捉句子内部的方面区分度,要么完全依赖于从通用语料库中提取的预训练模型,这可能会误导训练过程并降低模型性能。为了克服这些限制,我们提出了一个新颖的框架(SRM-CSR),该框架结合了词汇层面的方面相关信息和句子层面的上下文表示来生成高质量的伪标签。具体来说,在词汇层面,我们根据两个属性提取与方面相关的术语(ARTs):(1)领域特异性,通过评论语料库与通用语料库之间的词频差异来衡量;(2)语义稳定性,通过不同句子之间的语义一致性来反映。我们还引入了一种基于熵的区分度机制,可以根据方面术语与提取的ARTs的相似性分布为其分配更高的权重。在句子层面,我们利用Sentence-BERT将句子编码为上下文表示,并计算种子句子与评论语料库中句子之间的相似性。两个阶段分别独立生成伪标签。我们根据两个阶段产生的一致结果构建训练集,然后用该训练集基于经过预训练的Domain Knowledge BERT来训练神经分类器。在三个真实世界数据集上的广泛实验表明,SRM-CSR中的伪标签策略非常有效,所提出的方法在宏观F1分数上平均提高了2.9个百分点。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:无监督方面检测|伪标签生成|类别区分|领域表征|噪声过滤|监督增强

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号