编辑推荐:
本综述聚焦观察性研究(OS)在电子健康记录(EHR)及真实世界数据(RWD)中的核心陷阱:混杂(Confounding)、碰撞(Collider)与选择偏倚、时依混杂(Time-varying confounding)、测量误差(Measurement error)及生存分析误区(Immortal time bias, Competing risks)。旨在为临床医生提供一份规避因果推断谬误的“排雷”指南。
Introduction
当随机对照试验(RCT)因伦理、成本或时效性无法实施时,观察性研究(Observational studies)便成了理解疾病模式与治疗结局的关键替代方案。特别是在罕见病、长期安全性评估及紧急临床场景中,其价值无可替代。然而,随着电子健康记录(EHR)、注册库及医保索赔等“真实世界数据(RWD)”的普及,系统误差(Systematic errors)的风险也随之激增。本文旨在“排雷”,重点剖析那些足以颠覆研究结论的常见方法学陷阱。
Confounding and causal structures
混杂(Confounding)是观察性研究的头号天敌。它发生在某个“第三者”变量(混杂因子)同时与暴露(Exposure)和结局(Outcome)相关联时,从而制造出虚假的因果假象(或掩盖真实效应)。
判定与应对
一个变量要成为混杂因子,必须满足三要素:
- 1.
与结局相关;
- 2.
与暴露相关;
- 3.
不在暴露→结局的因果路径上(即非中介变量)。
虽然多元回归、倾向评分匹配(Propensity score matching)等统计调整手段是常规武器,但残余混杂(Residual confounding)——由未测量或测量不佳的变量引起——往往是无法完全消除的“幽灵”。
因果图的降维打击
有向无环图(DAG, Directed Acyclic Graph)是厘清因果关系的“导航地图”。它能直观展示变量间的逻辑(如谁是因、谁是果),帮助研究者识别真正的混杂因子(需调整)并避开陷阱。
?? 两大调整误区:
- •
调整中介变量(Mediator):若变量M在暴露E导致结局O的路径上(E→M→O),调整M会阻断真实因果路径,导致低估总效应。
- •
调整碰撞点(Collider):详见下文,这会人为制造虚假关联。
“因果谬误(Fallacy)”警示:切勿将模型中协变量(如混杂因子或中介变量)的效应估计值,与主要暴露的效应混为一谈,它们的因果解释截然不同。
Selection and collider bias
选择偏倚:样本失真
当研究样本无法代表目标人群时,选择偏倚便产生了。例如,仅从三甲医院招募的患者往往病情更重、合并症更多,由此得出的疗效估计在社区人群中可能严重失真。此外,失访(Attrition)若与不良预后相关,留下的“健康幸存者”样本也会扭曲真相。
碰撞偏倚: conditioning 出来的假信号
碰撞偏倚(Collider bias)是更为隐蔽的“魔术手”。当一个变量(碰撞点,Collider)同时受到暴露和结局的影响,且你对其进行了条件限制(Conditioning)(无论是通过筛选样本还是统计调整),就会在暴露与结局之间人为“撬开”一条非因果的虚假通路。
经典场景:在EHR研究中,若以“医疗资源利用”作为入组标准(碰撞点),而该行为同时受“疾病严重度”和“社会经济地位”影响,那么 conditioning 后,可能会在收入与健康之间产生荒谬的虚假关联。
避坑清单:在建模前,务必用DAG审视:样本代表性如何?入排标准是否同时关联暴露与结局?是否误调了由暴露和结局共同导致的变量?
Time-varying confounding
在纵向研究中,时依混杂(Time-varying confounding)是复杂度极高的挑战。它指那些随时间变化、且本身受既往治疗影响的混杂因素。此时,该变量身兼二职:既是后续治疗的混杂因子,又是既往治疗的中介变量。
传统回归的失效:标准回归模型无法处理这种“既混又介”的双重身份,会导致估计偏倚。
进阶武器库:
- •
边际结构模型(MSM, Marginal structural models):利用逆概率加权(IPW, Inverse probability weighting)重新构建一个“伪人群”,模拟随机化场景。
- •
序列条件均值模型(SCMM, Sequential conditional mean models):通过精细调整既往暴露、结局和协变量的历史来估计总效应。
核心建议:一旦涉及“治疗影响未来混杂因子”的动态场景,请果断放弃传统回归,转向MSM或SCMM。
Measurement errors and misclassification
真实世界数据中,测量误差无处不在,其影响绝非总是“向零靠拢”那么简单。
定义与分类
- •
测量误差:观测值与真值的差异(连续变量)。
- •
错误分类:对象被划入错误的类别(分类变量)。
- •
非差异性(Nondifferential):通常(但非绝对)使效应估计衰减(Attenuate),即偏向无效值(Null)。
- •
差异性(Differential):可导致估计偏向或远离无效值,甚至制造出完全虚假的关联。
源头治理
- 1.
病例定义(Case definition):在EHR/索赔数据中,必须使用经过验证的算法(结合诊断码、用药、化验),并设定足够的回顾期(Lookback period,如5-10年),以区分新发病例与现患病例,避免左截断(Left-censoring)问题。
- 2.
暴露测量误差:强混杂因子即使存在微小误差,也会导致严重的残余混杂。
- 3.
结局错误分类:在药物流行病学中,即使是轻微的结局误判,也可能大幅扭曲风险比。死亡结局的算法准确性尤为关键。
- 4.
协变量测量误差:会破坏倾向评分平衡,需通过回归校准(Regression calibration)、贝叶斯方法或阴性对照校准(Negative-control assisted calibration)进行校正。
竞争风险(Competing risks)的陷阱
当存在竞争事件(如研究心血管事件时,患者因车祸死亡)时,若将其简单当作随机删失(Censoring)处理(如使用Kaplan-Meier或Cox模型),会严重高估目标事件的累积发生率。正确的做法是采用竞争风险模型(如Fine-Gray模型),承认“机会已被剥夺”的事实。
Time-to-event pitfalls
时间事件分析(生存分析)是偏倚的重灾区,任何时间定义(Time zero)、暴露窗、协变量时点的错位都可能导致悖论性结果。
永生时间偏倚(Immortal time bias, ITB)
ITB是观察性研究中最经典的“幻觉制造机”。它发生在暴露定义时间晚于观察起点时。从入组到接受暴露的这段间隔被称为“永生时间”——因为患者必须活着(未发生结局)才能熬到接受暴露的那一刻。
后果:人为地赋予了暴露组一段“绝对不会死亡”的虚假生存优势,导致严重高估治疗获益或生存率。
解决方案:严格界定时间零点(Time zero),确保暴露状态在随访开始时或随时间更新(Time-varying exposure),而非基于未来事件进行分组。