基于机器学习的东非十国青少年妊娠预测与决定因素识别

《Scientific Reports》:Machine learning-based prediction and identification of determinants of teenage pregnancy in ten East African countries

【字体: 时间:2026年03月12日 来源:Scientific Reports 3.9

编辑推荐:

  本研究为应对东非地区严峻的青少年妊娠(teenage pregnancy)问题,利用人口与健康调查(DHS)大数据,通过机器学习(ML)方法构建预测模型。研究人员应用随机森林(Random Forest)算法,识别出包括母亲教育水平、首次性行为年龄、财富状况、社交媒体使用等关键决定因素,模型表现优异(AUC达94.6)。其成果为通过针对性干预(如加强乡村青少年友好服务、利用社交媒体宣教)降低该地区青少年妊娠率提供了循证依据,对改善公共卫生具有重要意义。

  
在公共卫生领域,青少年妊娠(teenage pregnancy)一直是一个全球性的挑战。据统计,全球每年约有2100万青少年成为孕妇。而在撒哈拉以南的非洲地区,这一问题尤为突出,其中东非的报告率最高。高发的青少年妊娠不仅关系到个体的健康与发展,还与一系列社会、经济问题紧密相连,如母婴健康风险增加、教育中断、贫困循环等。为了有效应对这一挑战,精准识别导致青少年妊娠的关键因素,从而制定有针对性的预防策略,成为了公共卫生研究的当务之急。然而,传统的统计方法在处理大规模、复杂的多维度健康数据时,可能难以完全揭示其中隐藏的非线性关系与复杂模式。为了回答“哪些因素是东非青少年妊娠最重要的预测指标”这一问题,并为精准干预提供科学依据,研究人员转向了强大的数据分析工具——机器学习(Machine Learning, ML)。
这项研究发表在《Scientific Reports》上,旨在利用机器学习方法,预测并识别东非十个国家中青少年妊娠的决定因素。研究采用了监督式机器学习(supervised machine learning)方法,具体运用了随机森林(Random Forest)算法来分析预测变量与青少年妊娠结局之间的关系。为开展研究,研究人员主要采用了以下几个关键技术方法:首先,研究数据来源于人口与健康调查(Demographic and Health Surveys, DHS),这是一个大规模的复杂数据集。其次,在数据预处理阶段,研究处理了缺失值,进行了特征缩放(feature scaling),并使用了Tomek Links和合成少数类过采样技术(Synthetic Minority Over-sampling Technique, SMOTE)来应对类别不平衡(class imbalance)问题。最后,模型性能通过多种指标进行评估,包括准确率(accuracy)、混淆矩阵(confusion matrix)和受试者工作特征曲线下面积(Receiver Operating Characteristic Area Under the Curve, ROC AUC),并使用独立的测试集进行了最终验证,以确保模型的泛化能力和预测准确性。
研究结果
  • 模型性能表现:随机森林模型在预测青少年妊娠方面展现了卓越的性能。其AUC值高达94.6,准确率(accuracy)达到89.1%,F1分数(F1 score)为89%,召回率(recall)为88%,精确率(precision)为90%。这表明该模型具有强大的区分能力和综合预测效能。
  • 各国妊娠率差异:在研究的十个东非国家中,肯尼亚的青少年妊娠率最高,达到19.1%(95%置信区间为[18.12%, 20.08%])。这一结果为识别高风险地区、优先配置干预资源提供了具体目标。
  • 关键决定因素识别:研究成功识别出影响东非地区青少年妊娠的一系列关键预测因子。这些因素包括:母亲的教育水平、婚姻状况、首次性行为年龄、财富状况、居住地(城市或农村)、距离医疗机构的远近,以及社交媒体使用情况。这些发现系统地揭示了个人、家庭、社会经济及环境等多层面因素的综合影响。
研究结论与讨论
本研究得出结论,基于机器学习,特别是随机森林算法,能够有效处理复杂的公共卫生调查数据,并高精度地预测东非地区的青少年妊娠风险,同时可靠地识别出其核心决定因素。模型识别出的关键因素——如较低的母亲教育水平、较早的首次性行为年龄、农村居住环境、获取医疗服务的物理距离较远,以及社交媒体使用——为理解青少年妊娠的多维驱动机制提供了实证依据。
这些发现具有重要的公共卫生意义。它们表明,降低东非青少年妊娠率需要多维度的综合干预策略。首先,在青少年妊娠率高发的农村地区,应扩大生殖健康服务的覆盖范围,并特别加强“青少年友好型服务(youth-friendly services)”的建设,以降低服务获取的地理和社会壁垒。其次,鉴于社交媒体被识别为一个相关因素,可以积极利用这一平台开展关于生殖健康和避孕知识的精准教育宣传,触及更广泛的青少年群体。最后,将全面的生殖健康教育系统地纳入学校课程,是从源头提升青少年认知和自我保护能力的长远之策。
总之,这项研究不仅展示了大数据和机器学习在公共卫生研究中的应用潜力,为复杂社会健康问题的归因分析提供了新方法,更重要的是,其产出的具体、可操作的证据,直接服务于东非地区降低青少年妊娠率的政策制定与项目规划,对改善该地区青少年健康与发展前景具有重要的现实意义。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号