
-
生物通官微
陪你抓住生命科技
跳动的脉搏
《分娩对话:一个多语言问答数据集,用于东非语言地区的母婴健康护理》
《BMC Research Notes》:Dialogues of delivery: a multilingual question-answer dataset for maternal healthcare in East African languages
【字体: 大 中 小 】 时间:2026年06月03日 来源:BMC Research Notes 1.7
编辑推荐:
摘要目标针对非洲语言的、具有临床背景的自然语言处理(NLP)资源严重匮乏。在乌干达西部,语言多样性成为母亲获得医疗保健的障碍,因为母亲们无法用她们自己的语言获取健康信息。该数据集的目标是提供一个高质量的、使用当地语言的医疗语料库,以便在资源有限的环境中开发和微调大型语言模型(LL
针对非洲语言的、具有临床背景的自然语言处理(NLP)资源严重匮乏。在乌干达西部,语言多样性成为母亲获得医疗保健的障碍,因为母亲们无法用她们自己的语言获取健康信息。该数据集的目标是提供一个高质量的、使用当地语言的医疗语料库,以便在资源有限的环境中开发和微调大型语言模型(LLMs)以及用于母婴健康的对话式AI工具。
“分娩对话”(Dialogues of Delivery)数据集是一个多语言的平行语料库,包含3,694对问答,这些问答用四种语言呈现:英语、卢干达语、鲁尼亚科雷语和斯瓦希里语(总计14,800条记录)。通过在乌干达西部的两家医疗机构进行便利抽样,从150名参与者(准妈妈/产后母亲和母婴健康护理人员)那里收集了结构化、开放式问卷的原始数据。该数据集经过了认证语言学家的严格正向-反向翻译流程,并由独立医疗专业人员进行人工临床验证。该数据集涵盖了母婴健康的核心领域,为以非洲为中心的AI开发提供了文化和临床验证的基础。
针对非洲语言的、具有临床背景的自然语言处理(NLP)资源严重匮乏。在乌干达西部,语言多样性成为母亲获得医疗保健的障碍,因为母亲们无法用她们自己的语言获取健康信息。该数据集的目标是提供一个高质量的、使用当地语言的医疗语料库,以便在资源有限的环境中开发和微调大型语言模型(LLMs)以及用于母婴健康的对话式AI工具。
“分娩对话”(Dialogues of Delivery)数据集是一个多语言的平行语料库,包含3,694对问答,这些问答用四种语言呈现:英语、卢干达语、鲁尼亚科雷语和斯瓦希里语(总计14,800条记录)。通过在乌干达西部的两家医疗机构进行便利抽样,从150名参与者(准妈妈/产后母亲和母婴健康护理人员)那里收集了结构化、开放式问卷的原始数据。该数据集经过了认证语言学家的严格正向-反向翻译流程,并由独立医疗专业人员进行人工临床验证。该数据集涵盖了母婴健康的核心领域,为以非洲为中心的AI开发提供了文化和临床验证的基础。
生物通微信公众号