综述:统计学与研究方法核心概念 第7部分:回归分析

《BJA Education》:Core concepts in statistics and research methods. Part 7: regression

【字体: 时间:2026年03月21日 来源:BJA Education 2.6

编辑推荐:

  这篇综述为临床研究者系统梳理了回归分析这一强大的统计框架。文章从基本概念(如响应变量与解释变量)出发,循序渐进地介绍了简单线性回归、多变量线性回归直至广义线性模型(GLM),并以逻辑回归为重点进行了详述。文中通过模拟数据集(如身高体重、VA-ECMO术后死亡率)生动阐释了模型解读、假设检验、交互作用等核心内容,并强调了模型拟合、变量选择、多重共线性等实际应用中的关键考量。对于涉及聚类数据(如多中心试验)的分析,文章还介绍了混合效应模型这一解决方案。全文旨在帮助读者建立回归分析的整体框架,理解其如何为各种类型的数据(连续、二分类、计数等)提供统一的推断方法,并能在临床研究和论文解读中加以应用。

  
什么是回归?
回归是一种统计学方法,用于量化一个变量(称为响应变量)如何随另一个(或多个)变量(称为解释变量)的变化而变化。例如,我们可能关心体重如何随身高变化,或者术后呼吸系统并发症的发生率如何随年龄和使用舒更葡糖而变化。解释变量和响应变量这两个词仅表示潜在效应的方向,并不暗示因果关系。在实验科学中,它们常被称为因变量和自变量;在流行病学中,则称为结局和预测变量/暴露/风险因素;在机器学习中,称为标签/目标和特征;在数学和统计学中,称为回归子和回归元。
简单线性回归
简单线性回归量化了一个连续解释变量(例如身高)与一个连续响应变量(例如体重)之间的关系。连续解释变量称为协变量。在散点图上,解释变量的值位于x轴,响应变量的值位于y轴。常用的简写是将模型表示为 y ~ x,其中y是响应,x是协变量。观察到的数据点用于通过一种称为普通最小二乘的技术计算最佳拟合线。最佳拟合线是拟合模型,其形式为:y = β?0+ β?1x。其中,y是当解释变量取值为x时期望的(平均)响应值。β?0和 β?1是拟合的回归系数,它们是模型参数。系数β?1是斜率参数的估计值,代表解释变量每单位变化所预期的响应变化。例如,在体重~身高的模型中,身高每增加1厘米,预期体重增加0.5公斤。系数β?0是截距参数的估计值,代表当解释变量为零时期望的响应值,但通常可能没有有意义的解释。
线性回归有三个关键假设。第一,每个观测值都是独立的。第二,解释变量和响应变量之间的关系是线性的。第三,残差(观测响应值与期望值之间的垂直差异)呈正态分布,均值为零,且方差恒定。在许多数据集中,线性和恒定方差的假设可能不满足,但对一个或两个变量进行变换(例如对右偏数据取自然对数)可能满足这些假设。
回归模型可用于预测和检验关联。在预测时,必须注意模型中的变异来源。回归线周围的置信区间提供了给定x值时,期望y值的合理范围。然而,当预测给定x值时个体的实际y值时,必须考虑回归线周围的散布(即残差),此时需要使用预测区间。在检验解释变量与响应变量之间是否存在关系时,我们从零假设(H0)开始,即x不影响y(β1= 0)。检验统计量t是样本估计值除以其标准误。对于线性模型,零分布是t分布。如果p ≤ 0.05或95%置信区间不包含零值,我们就在5%显著性水平上拒绝H0,并得出结论认为解释变量与响应变量之间存在关联。
具有单一分类解释变量的线性回归
当解释变量是分类变量(称为因子,例如性别)时,我们使用线性回归。因子可以取的值称为水平(例如男性和女性)。该模型可表示为 y ~ A。在解释回归系数时,系数告诉我们特定水平对响应变量的影响相对于参考水平(例如,以女性为参考水平,男性性别的效应系数为12.7,表示男性的预期体重比女性重12.7公斤)。与简单线性回归一样,我们可以检验效应系数是否为零的零假设。
多变量线性回归
多变量线性回归将简单线性回归扩展到包含多个解释变量,这些变量可以是协变量、因子或两者兼有。模型可表示为 y ~ x1+ x2+ A + B。对于多变量回归,我们将回归系数解释为:当所有其他解释变量保持恒定值时,特定解释变量对响应的影响。例如,在体重~身高+性别的模型中,男性性别的效应系数是9.8,这意味着我们预期,在身高相同的情况下,男性比女性平均重9.8公斤。注意,这个效应小于仅包含性别的模型(12.7公斤),因为男性性别的部分影响源于男性平均比女性更高。
当不同组别的回归线不平行时,表明解释变量之间存在交互作用。如果交互作用重要,可以通过在模型中包含交互项来改进预测。如果交互项的p值很小,或者整体模型拟合度显著提高,则应包含交互项。否则,应遵循简约性原则,选择更简单的模型。
在解释多变量回归结果时需要谨慎。即使p值表明多个变量是“独立预测因子”,但统计显著性本身并不能可靠地识别真实效应,尤其是在p值接近0.05时。此外,在观察性数据集中调整混杂因素非常困难,可能存在未测量的混杂变量。多变量回归模型会生成多个p值,这增加了假阳性结果的机会。
广义线性模型
以上考虑的模型涉及连续响应变量,称为线性模型。然而,我们通常对其他类型的响应感兴趣,例如二分类结局(例如死亡与存活)、计数或有序量表评分。广义线性模型(GLM)是一类可以容纳几乎所有类型响应变量的回归模型。GLM的一个关键特征是连接函数。对于简单线性回归,响应变量和线性预测变量在理论上可以取任何值。但是,如果响应变量被限制为仅取正值(例如计数)或0到1之间的值(例如概率),则需要一个连接函数将线性预测变量变换到与响应相匹配的尺度上。由于其重要性,我们将重点介绍逻辑回归。
逻辑回归
当响应变量是二分类时(例如死亡与存活),使用逻辑回归。我们通过一个模拟的静脉-动脉体外膜肺氧合(VA-ECMO)心脏术后患者数据集来说明逻辑回归的原理。响应变量是死亡率,解释变量包括年龄、VA-ECMO适应症、性别和慢性肾脏病(CKD)的存在。我们建模的是死亡概率p。逻辑回归使用logit函数作为连接函数,其形式为 ln[p/(1-p)]。对于模型死亡率~年龄,拟合的回归方程为 logit(p) = -1.1 + 0.05x。因此,对于一名60岁的患者,其VA-ECMO术后预期死亡概率约为65%。
解释回归系数时,当解释变量是连续的,斜率系数β1表示解释变量每增加一个单位,结局发生比的自然对数的变化。对系数取指数(即e的系数次方)可以得到事件的比值比(OR)。例如,对于模型死亡率~年龄,年龄每增加1岁的估计OR是e0.05= 1.05。当解释变量是二分类的,取指数后的斜率系数代表组间的估计OR。
多变量逻辑回归采用了与单变量逻辑回归相同的原理。在VA-ECMO模拟数据集中,单变量逻辑回归显示,年龄、非移植手术和CKD的存在与死亡率在5%显著性水平上显著相关。由于我们构建数据集时使CKD在老年患者中更常见,因此年龄是CKD的混杂因素。在多变量模型中,年龄和非移植手术仍然具有统计学意义,而CKD不再显著。这表明,在这个假设的患者群体中,CKD的存在并非VA-ECMO心脏术后死亡的独立预测因素。
逻辑回归在医学研究中应用广泛。单变量逻辑回归是分析随机试验数据的常用方法。相反,多变量逻辑回归常用于分析观察性数据集,以确定感兴趣的变量是否是二分类结局的独立预测因素。
模型拟合
模型拟合指的是拟合模型解释数据的优劣程度。模型拟合的指标取决于回归模型的类型。对于线性模型,模型拟合通过R2和F统计量来量化。R2是响应变量的方差中由解释变量解释的比例,其值介于0和1之间。调整后的R2是一个修正值,它考虑了模型复杂性,对包含许多解释变量的模型进行惩罚。F统计量是模型拟合的另一个度量。一般来说,F统计量越大(因此p值越小),模型对数据的拟合越好。如果简单模型嵌套在更复杂的模型中,我们可以使用方差分析(ANOVA)检验来比较两个模型的F统计量。如果p值很小,则更复杂的模型能更好地解释数据。
对于逻辑回归,一个常见的模型拟合度量是赤池信息准则(AIC)。与调整后的R2类似,AIC会惩罚不必要的复杂模型。比较两个模型时,AIC较低的模型能更好地解释数据。
变量选择
选择解释变量是构建多变量模型时的关键考虑因素。没有固定的规则,应遵循简约性和生物学合理性(常识)原则。根据经验,每个解释变量至少应有10-15个结局事件(例如死亡)发生。一种常见的方法是仅包含在单变量建模中具有统计学意义的解释变量;然而,这可能会遗漏那些本身不具有统计学意义但属于混杂因素的解释变量。另一种方法是比较模型拟合指标。对于只有有限数量可行模型的简单数据集,可以使用ANOVA来比较嵌套模型。对于高维数据集,通常使用逐步回归,这是一种基于模型拟合指标(如AIC)逐步添加或移除变量以获得最优模型的算法过程。读者应谨慎解释这些模型,因为它们是数据驱动的,而非假设驱动的。
多重共线性是选择解释变量时的一个重要考虑因素。当两个或多个解释变量高度相关时,就会出现多重共线性。如果两个高度相关的变量都被包含在模型中,模型会低估每个变量的效应。可以通过检查相关矩阵来研究多重共线性,如果两个解释变量高度相关,模型中应只包含一个。
模型欠拟合指多变量模型对数据的解释力很差。欠拟合模型预测能力低,可能无法识别混杂。增加样本量和包含更多解释变量可能会改善模型拟合。模型过拟合指模型完美地解释了数据,这也存在问题,因为过拟合模型包含了样本特有的随机噪声。过拟合模型无法推广到总体,并且预测能力差。增加样本量和减少解释变量数量可以防止过拟合。
混合效应模型
上述模型假设观测值是独立同分布的。然而,在多中心试验中,来自同一中心的患者结局可能由于共同特征而相关。具体来说,对照组的基线事件率(β0)和干预与结局之间的关系(β1)可能因中心而异。未能考虑治疗中心之间的差异可能导致标准误的低估,进而导致置信区间错误地变窄。
处理聚类数据的一种方法是使用混合效应模型。混合效应模型允许回归系数(β0, β1)在因子的不同水平(例如治疗中心)上变化。解释变量与响应之间的总体关系称为固定效应。回归系数在因子不同水平上的值称为随机效应。虽然没有固定规则,但至少需要因子的五个水平才能可靠地估计组水平变异。因此,对于二水平因子(例如性别),交互项是合适的,而不是混合效应模型。
混合效应模型常用于分析多中心随机试验的数据。在混合效应模型中,由于考虑了治疗中心效应带来的额外变异,标准误会更大,置信区间更宽。
多变量回归的替代方法
在观察性数据集中调整混杂因素的一种替代多变量回归的方法是计算倾向评分。在比较多变量回归与四种倾向评分方法的综合评估中,多变量回归与最佳的倾向评分方法效果相当。
回归为统计推断提供了一个统一的框架,在医学研究中具有广泛的应用。我们的目标是阐明回归的原理,并强调重要的考虑因素和陷阱。回归提供了一种统一的统计推断框架,能够分析几乎所有的数据类型,是临床研究和数据解读中不可或缺的工具。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号