《Smart Health》:Excessive Daytime Sleepiness Prevention Using Causality Network Driven by Score-based Bayesian Network Structure Learning Algorithms
编辑推荐:
基于STAGES研究1881名参与者的数据,本研究通过Tabu算法构建贝叶斯网络,揭示过度日间嗜睡(EDS)的潜在因果因素,包括年龄、吸烟、高胆固醇血症等,为临床干预和公共政策提供可扩展的因果分析工具。
雷扎·萨德吉(Reza Sadeghi)|莉迪亚·布洛克(Lydia Bullock)|莉亚·伯里安(Leah Burian)|理查德·法里纳(Richard Farina)|科斯罗·普尔卡武斯(Khosro Pourkavooos)|马赫迪赫·扎比希马伊万(Mahdieh Zabihimayvan)
美国纽约州波基普西市玛丽斯特大学(Marist University)玛丽斯特公共舆论研究所(MIPO)计算机科学与数学学院,公共舆论分析主任
摘要
目标
日间过度嗜睡(EDS)是多种睡眠障碍的主要症状,其中许多障碍会加重心血管并发症。尽管近几十年的大量研究增加了人们对与EDS相关因素的了解,但其因果链仍大部分未知。通过建立明确的因果关系,医疗专业人员和公共卫生官员可以有效地干预,以预防或减轻EDS造成的未来危害。
方法
本研究利用基于分数的贝叶斯网络结构学习算法揭示导致EDS的病因因素。通过网络模型生成的因果链来考察各种促成因素的可能性。这些因果网络和条件概率是基于斯坦福技术分析与睡眠基因组学研究(Stanford Technology Analytics and Genomics in Sleep)中1881名参与者的临床和生物医学数据构建的。需要注意的是,该数据集在人口统计分布上存在不平衡,特别是在种族分布方面,这可能会影响因果网络的普遍性。
结果
使用Tabu算法构建的贝叶斯网络在拟合优度指标上表现最佳,BIC得分为-64844.62,而Hill-Climb和Max-Min Hill-Climb的得分分别为-63921.19和-64526.64。该图形模型揭示的EDS的因果因素包括年龄、吸烟、高胆固醇血症、性别、精神健康问题、抑郁、疲劳和饮酒,以及已知的其他因果因素,如家庭人口数量、街头/娱乐性药物使用、失眠、睡眠时长、嗜睡症、运动、体重指数和睡眠呼吸暂停。
结论
我们开发的因果贝叶斯网络为从公共卫生和政策到诊断、预防和研究的各个领域提供了评估EDS风险因素的工具。我们的模型结果展示了贝叶斯网络结构学习方法在为研究人员设计评估医疗干预措施有效性方面的应用潜力。
引言
日间过度嗜睡(EDS)是失眠症、嗜睡症和阻塞性睡眠呼吸暂停等多种睡眠障碍的次要症状,影响了高达25%的美国人口[1, 2]。这些障碍已知会加重高血压、冠状动脉疾病和充血性心力衰竭等心血管疾病[3]。EDS还与机动车事故、职业伤害和总体死亡率的风险增加有关[4]。尽管最近有大量研究,但导致EDS的潜在机制尚未完全了解。检测其因果关系对于预防EDS至关重要,因为它能识别出这种症状的真正原因而不仅仅是相关性。这种理解使医疗专业人员能够有效采取行动,以预防或减少未来的EDS风险。
1991年由默里·W·约翰斯(Murray W. Johns)博士开发的Epworth嗜睡量表(ESS)是一种公认的测量日间过度嗜睡的方法[6]。该量表是一种自我管理的问卷,用于评估参与者在八种日常情境下打瞌睡或入睡的可能性。可能的得分范围从0到24分,根据得分将患者分为低正常、高正常、轻度、中度或重度嗜睡类别,对应的范围分别为0-5、6-10、11-15、16-20、21-24[7]。
ESS得分作为EDS严重程度的代理指标,是我们研究的主要关注变量。我们利用斯坦福技术分析与睡眠基因组学数据集(STAGES)中的生理、行为、人口统计和临床数据来探索EDS背后的因果链。我们选择基于分数的学习算法来生成一种称为贝叶斯网络的有向无环图(DAG)。我们选择基于分数的贝叶斯网络是因为它们能够模拟复杂的多变量依赖关系,并在适当假设下提示方向性关系。对这些网络的分析有助于了解EDS的因果关系,并基于新发现促使进一步研究。
与仅揭示关联性的传统医学研究不同,本研究使用的方法提供了可推广的方法,可以直接揭示医学病因。这使得能够高效设计和测试针对特定病理的治疗方法。
部分摘录
因果发现
因果发现是识别数据中编码的因果关系的过程。因果网络是一种利用称为贝叶斯网络(BNs)的概率图模型(PGM)的方法,通过DAGs提供这些因果关系的数学表示。正式来说,BN是一种概率图模型,其中变量X1、...、Xn表示为节点,两个变量之间的条件依赖关系表示为节点之间的弧。
数据集
数据来自斯坦福技术分析与睡眠基因组学研究(STAGES),包括868名男性、991名女性和22名性别不明的参与者[10]。参与者的年龄范围从13岁到84岁,数据来自斯坦福大学、Bogan睡眠咨询公司(Bogan Sleep Consulting)、盖辛格健康中心(Geisinger Health)、梅奥诊所(Mayo Clinic)、MedSleep和圣卢克医院(St. Luke's Hospital)等六个机构。我们的研究使用ESS作为EDS的测量标准[6]。根据文献
结果
为了识别与ESS得分相关的因果路径,我们使用Tabu算法生成了一个DAG(图1、图2)。选择Tabu算法而不是Hill-Climb和Max-Min Hill-Climb算法是因为Tabu的BIC得分为-64844.62,而Hill Climb为-63921.19,Max-Min Hill-Climb为-64526.64。需要记住,较低的BIC得分表示更好的拟合度。在图中,绿色弧表示已确认的连接,黑色弧表示推断出的连接
算法选择
因果发现是指从观察数据中识别潜在因果关系的过程。这主要是通过创建一个利用机器学习生成贝叶斯网络(BN)的因果网络来实现的,从而提供一种基于数学的因果发现方法。我们研究了三种算法:Tabu、Hill-Climb和Max-Min Hill-Climb。Max-Min Hill-Climb算法生成的DAG未能产生预期的弧
结论
本研究的主要优势在于其可推广的方法论,能够识别变量之间的潜在因果关系,而不仅仅是关联关系。贝叶斯网络揭示的EDS的因果因素包括年龄、吸烟、高胆固醇血症、性别、精神健康问题、抑郁、疲劳和饮酒,以及已知的其他因果因素,如家庭人口数量
CRediT作者贡献声明
马赫迪赫·扎比希马伊万(Mahdieh Zabihimayvan):写作——审阅与编辑。理查德·法里纳(Richard Farina):写作——初稿撰写、验证、方法论、正式分析。科斯罗·普尔卡武斯(Khosro Pourkavooos):写作——审阅与编辑、初稿撰写。雷扎·萨德吉(Reza Sadeghi):写作——审阅与编辑、监督、资源协调、项目管理、方法论、资金获取、正式分析、数据管理、概念化。莉迪亚·布洛克(Lydia Bullock):写作——初稿撰写、可视化、方法论、数据管理、概念化。莉亚·伯里安(Leah Burian):
披露声明
本文基于美国国家科学基金会(NSF)授予的DMS-2447324号资助的工作。本文中表达的任何观点、发现、结论或建议均为作者个人观点,不一定反映NSF的观点。
利益冲突声明
作者声明没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
本研究使用了由Klarman家族基金会资助的STAGES - 斯坦福技术、分析与睡眠基因组学资源。STAGES研究的研究人员参与了STAGES队列的设计和实施,提供了数据和/或收集了生物样本,但不一定参与了本报告的分析或撰写。STAGES研究人员的完整名单可以在项目网站上找到。
国家睡眠研究