在因果推断研究中,观察性研究不同于随机对照试验,其往往存在某些已知或未知的协变量在组间分布不均衡的情况,也即存在混杂因素,从而影响暴露与结局间因果效应的推断。此外其还会面临选择偏倚、信息偏倚等风险,进而影响得出正确的因果推断结论。在分析时我们通常采用协变量校正、分层、匹配、加权等方法对已知的混杂因素进行调整,但有时过度调整也会带来新的偏倚。因此如何选择纳入分析的协变量始终是一个研究的热点问题。
有向无环图(DAG)因能够基于预先假定的因果关系帮助确定应校正的因素集合,目前在因果推断中得到了广泛应用。其最大的优点在于,当涉及多个变量,即使存在无法测量的变量时,可将暴露、结局以及潜在的混杂因素等各变量之间的因果关系直观的表述出来,从而达到将复杂的关系可视化的效果,并可基于简单的规则确定因果关系是否可识别及其识别的方法。鉴于此,本文旨在介绍DAG的基本原理,并示例给出基于DAG的偏倚识别和常用混杂因素调整方法。
DAGs基本原理首先将箭头连接节点构成有方向的路径,但并不形成封闭的循环,由这些节点以及连接节点的箭头组成的图形,即DAG。其中节点表示变量,箭头表示变量间因果关系的方向(原因→结果),一个箭头代表一个变量对另一变量的直接因果效应。
如图1,
若箭头从变量X出发指向Y,如中间无其他变量,则X是Y的父代(parent),Y是X的子代(child)(X→Y);
如果中间至少有一个其他变量M,则X是Y的祖先(ancestor),Y是X的孙代(descendant)(X→M→Y)。
箭头从变量X出发指向Z且中间无其他变量(X是Z的父代),同时另一箭头从变量Y出发也指向Z且中间无其他变量(Y是Z的父代),即Z是X、Y的共同效应,那么Z就称为经过X、Y、Z路径上的一个碰撞点(X→Z←Y)。
箭头从变量Z出发指向X且中间无其他变量(Z是X的父代),同时另一箭头从变量Z出发也指向Y且中间无其他变量(Z是Y的父代),则Z是X、Y的共同原因。
图1DAGs基本原理
在DAG应用于因果推断时需注意以下四点:
一、时间流向为从左到右,箭头不指明效应有害还是有利;二、若无从X指向Y的箭头等价于二者之间没有直接因果效应;三、即便存在无法测量的变量,也应将变量的所有共同原因表示在图上;四、每个变量都是其子代的原因。“后门路径(backdoorpath)”是DAG的一个重要概念,其定义为即使移除所有从暴露指向其子代变量们的路径,在暴露和结局间仍存在一条非因果效应的路径。如果暴露和结局之间除因果路径还存在开放的后门路径,在估计暴露和结局之间的因果效应时就会产生偏倚。
由暴露和结局的共同原因导致开放的后门路径所引起的偏倚称为混杂偏倚(confoundingbias)。如图2(a)中,L为暴露A和结局Y的共同原因;(b)、(c)中U为共同原因;(e)、(f)中U1为共同原因,均能导致开放的后门路径,存在混杂偏倚。而由两个变量(其中之一为暴露或与暴露相关的变量,另一为结局或与结局相关的变量)的共同效应导致开放的后门路径所引起的偏倚称为选择偏倚(selectionbias)或碰撞点偏倚(colliderbias)。如图2中(g)、(h)、(i)、(j)、(k),均是直接对碰撞点或通过其他因素对碰撞点施加了干预,使暴露A和结局Y之间打开额外的后门路径,引起选择偏倚。图2(d)则不存在任何开放的后门路径,在估计暴露A和结局Y的因果效应时不存在混杂偏倚和选择偏倚。
图2几种偏倚情形
DAGs对偏倚的识别根据Pearl给出的两个判断标准,我们可以结合DAGs识别出进行因果推断时需要校正的最小变量子集:
一、集合中的变量阻断了从暴露因素到研究结局的每一条开放的后门路径;
二、集合中的变量阻断了因校正集合中的变量而产生的新的从暴露因素到结局的所有开放后门路径。
下面通过最基本的图3进行举例说明。其中图(a)、(b)、(c)表示暴露X与结局Y之间除了因果路径X→Y外,还存在由共同原因引起的开放的后门路径,此时需要对混杂因素施加干预,即校正混杂因素。图(d)、(e)常用于说明并非所有变量都可以校正,有时校正变量反而会引起偏倚。由于碰撞点的存在,除了因果路径X→Y外,并没有开放的后门路径,因此不存在偏倚,但是,如果过度校正了碰撞点,则反而打开了后门路径,引起选择偏倚。
图(a):X←C→Y,C为X和Y的共同原因,存在混杂偏倚。例如:身体健康(C)是成为消防员(X)和死亡率(Y)较低的共同原因,因此在评估担任消防工作对死亡的因果效应时会受到身体健康这一混杂因素的影响。
图(b):X←C←U→Y,U为X和Y的共同原因,存在混杂偏倚。例如:在评估阿司匹林(X)对中风风险的因果效应时,心脏疾病(C)将导致混杂。这是由于心脏疾病患者更易服用阿司匹林,而心脏疾病和中风都有一个共同原因,即动脉粥样硬化(U)。
图(c):X←U→C→Y,U为X和Y的共同原因,存在混杂偏倚。例如:在评估运动(X)对于死亡风险(Y)的因果效应时,吸烟(C)将导致混杂。这是由于吸烟是死亡的危险因素之一,而运动和吸烟行为都由性格特征或社会因素(U)所导致。
图(d):C1→M←C2,对M进行校正将会引起选择偏倚。例如:在研究身体健康(X)对患宫颈癌风险(Y)的影响时,发现健康意识(C1)会影响身体健康,也可影响癌症早期筛查(M)。与此同时,癌症早期对身体的损害(C2)也会影响癌症早期筛查和患宫颈癌风险。此时不存在X和Y的共同原因,因此不存在混杂。然而,当研究限制人群为接受过癌症早期筛查时,就会打开原本闭合的后门路径从而引起选择偏倚,此时需进一步控制C1和(或)C2来关闭后门路径。
图(e):X→C←U,对C进行校正将会引起选择偏倚。例如:在研究某种药物(X)对癌症死亡风险(Y)的影响时,发现患者的性格(U)会影响研究的删失情况(C)和死亡风险。当研究仅纳入未删失的人群时,就会引起选择偏倚。
图3常见的DAGs图例
常用校正方法经由DAGs识别出最小变量子集后,需要对其进行校正以保证得到真实的因果效应。校正研究中的最小变量子集(混杂因素)等同于阻断所有开放的后门路径,而阻断后门路径的方法有很多种,大致可分为两类:
一、G-方法:G-formula(标准化方法的广义形式)、IP加权以及g-estimation;
二、基于分层的方法:分层(含限制)、匹配。下面通过一个简单例子对常用的几种方法的原理进行介绍。
例:考虑一个理想的条件随机化心脏移植手术试验,旨在研究心脏移植对死亡是否存在因果效应。研究共纳入20名个体(理想情况下1名个体表示1万个这样的个体),其中处理A=1表示接受心脏移植手术,A=0表示不接受;结局Y=1表示该名患者死亡,Y=0表示未死亡;预后因子L=1表示病情危急,L=0表示不危急。随机选取75%的危急患者和50%的不危急患者进行心脏移植手术,结果如下表1,可进一步整理成图4。据此发现相应的DAG如图2(a),需要对L这一混杂因素进行校正。
图4心脏移植手术情况图
标准化方法在经由混杂因素分层后根据每层的比例进行加权,从而得到全人群的效应。即:
计算可得两组死亡概率:
IP加权通过权重的调整产生一个虚拟人群(pseudo-population),在该虚拟人群中,暴露因素与研究结局之间的相关关系不受混杂因素影响,即使得暴露因素与混杂因素不再相关。其权重
。计算可得两组死亡概率:
分层方法将研究人群按照混杂因素进行分层,使得每一层内暴露组和非暴露组的混杂因素分布均衡可比,然后估计每一层内暴露因素与研究结局之间的关系,计算观察人群亚组中的条件效应。限制为分层的特例,仅计算一部分亚组的条件效应。如:对于L=0时,可计算出接受和未接受心脏移植手术的死亡概率均为0.25。
匹配则是通过一对一或一对多匹配保证匹配后两组之间混杂因素分布均衡可比,同样仅用于在亚组人群中计算条件效应。如按L进行随机匹配得表2,此时A的分布均衡,可计算出接受和未接受心脏移植手术的死亡概率均为3/7。由于匹配人群是原始人群的子集,其因果效应往往与全人群中的有所区别。
综上可知,G方法模拟了后门通路不存在时暴露与结局的关系,相当于删除了从混杂指向暴露的箭头,可用于计算亚组或全人群的因果效应;而基于分层的方法则是通过一系列选择,在亚组中计算条件概率。
参考文献:
[1]向韧,戴文杰,熊元,等.有向无环图在因果推断控制混杂因素中的应用[J].中华流行病学杂志,,37(07):-.
[2]郑英杰,赵耐青.有向无环图:语言、规则及应用[J].中华流行病学杂志,,38(8):-.
[3]荆典,段重阳,陈平雁,等.基于DAGs和线性回归理论定量分析常见混杂的影响[J].中国卫生统计.
[4]CausalInference:WhatIf[M]..
[5]PearlJ.Causality:models,reasoningandinterference[M].Cambridge:CambridgeUniversityPress,:1-.
[6]PearlJ.Anintroductiontocausalinference[J].IntJBiostat,,6(2):7.
[7]DuanC,DragomirAD,LutaG,etal.Reflectiononmodernmethods:understandingbiasanddataanalyticalstrategiesthroughDAG-baseddatasimulations.[J].Internationaljournalofepidemiology,.
[8]刘慧鑫,汪海波,汪宁.有向无环图在混杂因素识别与控制中的应用及实例分析[J].中华流行病学杂志,,41(4):-
作者:荆典
指导老师:段重阳
▼往期精彩回顾▼转载系列如何用统计学将数据装扮成一篇JAMA子刊文章?转载系列
《经济学人》数据可视化编辑:错误的图表,我们也画了很多指南解读系列
适应性随机对照试验报告规范真实世界大数据分析系列
CoxPH模型HR值置信区间太大怎么办?时间序列系列
广义相加模型在医学研究中应用及其R语言实现生信分析系列
如何分析新冠病*的基因组数据?机器学习系列
机器学习评价指标生存分析系列
基于R语言的竞争风险模型多水平模型系列
二分类数据的多水平模型量表评价系列
问卷和量表初步评价与探索性因子分析Meta分析系列-连续性资料meta分析实例传统时间序列ARIMA模型在疾病预测上的应用——实践操作我们旨在搭建数据挖掘分析交流桥梁和科技成果转化推广平台,如果您有好的文章想和大家分享,或者您有一个临床研究项目正处于设计阶段,我们可以辅助临床科研设计和课题申报。请联系我们()~预览时标签不可点收录于话题#个上一篇下一篇