今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

《分娩对话:一个多语言问答数据集,用于东非语言地区的母婴健康护理》

《BMC Research Notes》:Dialogues of delivery: a multilingual question-answer dataset for maternal healthcare in East African languages

【字体: 大 中 小 】 时间:2026年06月03日 来源:BMC Research Notes 1.7

编辑推荐:

  摘要目标针对非洲语言的、具有临床背景的自然语言处理(NLP)资源严重匮乏。在乌干达西部,语言多样性成为母亲获得医疗保健的障碍,因为母亲们无法用她们自己的语言获取健康信息。该数据集的目标是提供一个高质量的、使用当地语言的医疗语料库,以便在资源有限的环境中开发和微调大型语言模型(LL

  

摘要

目标

针对非洲语言的、具有临床背景的自然语言处理(NLP)资源严重匮乏。在乌干达西部,语言多样性成为母亲获得医疗保健的障碍,因为母亲们无法用她们自己的语言获取健康信息。该数据集的目标是提供一个高质量的、使用当地语言的医疗语料库,以便在资源有限的环境中开发和微调大型语言模型(LLMs)以及用于母婴健康的对话式AI工具。

数据描述

“分娩对话”(Dialogues of Delivery)数据集是一个多语言的平行语料库,包含3,694对问答,这些问答用四种语言呈现:英语、卢干达语、鲁尼亚科雷语和斯瓦希里语(总计14,800条记录)。通过在乌干达西部的两家医疗机构进行便利抽样,从150名参与者(准妈妈/产后母亲和母婴健康护理人员)那里收集了结构化、开放式问卷的原始数据。该数据集经过了认证语言学家的严格正向-反向翻译流程,并由独立医疗专业人员进行人工临床验证。该数据集涵盖了母婴健康的核心领域,为以非洲为中心的AI开发提供了文化和临床验证的基础。

目标

针对非洲语言的、具有临床背景的自然语言处理(NLP)资源严重匮乏。在乌干达西部,语言多样性成为母亲获得医疗保健的障碍,因为母亲们无法用她们自己的语言获取健康信息。该数据集的目标是提供一个高质量的、使用当地语言的医疗语料库,以便在资源有限的环境中开发和微调大型语言模型(LLMs)以及用于母婴健康的对话式AI工具。

数据描述

“分娩对话”(Dialogues of Delivery)数据集是一个多语言的平行语料库,包含3,694对问答,这些问答用四种语言呈现:英语、卢干达语、鲁尼亚科雷语和斯瓦希里语(总计14,800条记录)。通过在乌干达西部的两家医疗机构进行便利抽样,从150名参与者(准妈妈/产后母亲和母婴健康护理人员)那里收集了结构化、开放式问卷的原始数据。该数据集经过了认证语言学家的严格正向-反向翻译流程,并由独立医疗专业人员进行人工临床验证。该数据集涵盖了母婴健康的核心领域,为以非洲为中心的AI开发提供了文化和临床验证的基础。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:非洲语言医疗语料库|母婴健康对话AI|临床验证数据增强|乌干达多语言文本|医患对话数据集|文化医学沟通

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号