第一节概述
一、流行病学研究与流行病学数据
二、流行病学数据分析的目的与原则
三、流行病学数据中的变量和分类
四、流行病学研究数据分析的内容
第二节流行病学专题研究数据的分析
第三节队列研究数据分析实例
第四节常规收集的流行病学数据的分析
第五节本系列讲座总结
第一节概述
一、流行病学研究与流行病学数据
狭义的流行病学数据(epidemiologicaldata)指任何来自针对明确研究目的特定的流行病学研究所收集的资料,比如一项队列研究收集的数据,它是关于研究中暴露组和对照组每个成员的年龄、性别、暴露、其它危险因素等基线信息和终点结局信息的集合。广义的流行病学数据还应包括出于其他目的和用途的而收集的、以一个人为最小观察单位的、可以用来定量地探索疾病、健康或医疗卫生服务相关问题的资料,如医院某科室常规记录的有关一种病人的所有的信息的集合,再如各种医学和健康大数据。本文有时会把两类数据均简称为数据。
二、流行病学数据分析的目的与总则
流行病学数据分析是针对明确研究问题的、具有明确目的的、采取特定方法的、对流行病学数据进行的定量的整理、分析和总结,以下简称数据分析。流行病学研究的问题可涉及疾病频率、病因与危险因素、诊断、预防和治疗措施的效果、不良反应、预后及其决定因素等方面。数据分析的目的就是利用研究和数据的特征,科学地定量地回答这些医学实践相关的问题。
数据分析不是简单的统计学游戏,不在于统计学方法的复杂性和新颖性,其目的在于正确地回答有意义的问题。普林斯顿大学统计学系创系主任JohnWTukey教授的统计学分析原则也应是流行病学数据分析应遵循的最高原则:“数据分析的最高原则,也是很多分析者常想逃避的原则,就是:一个对正确问题的近似的答案远远好于一个对错误问题的精准的答案。”
因此,数据分析必须有明确要的回答的问题,必须有明确的分析目的。流行病学分析的常见目的见框1。提出的问题越重要,分析的结果就越重要,若是无关紧要的问题,再好的分析也没有多大价值;提出的问题越明确,分析的思路和方法就越明确,如果问题不明确,再好的分析都是盲目的。
框1流行病学数据分析的前提和目的
前提必须具有明确的研究问题
目的1估计有关的统计学指标,如相对危险度
目的2估计该统计学指标的可信区间
目的3控制可能的混杂因素
目的4分析剂量反应关系
目的5分析可能的效应修饰因子(交互作用)
目的6分析可能存在的偏倚
明确研究的问题是数据分析的前提。问题明确后,要提出具体的、明确的分析目的。流行病学数据分析最根本的目的是:根据问题和数据特征,选择最合适的统计学指标,对有关指标进行估计。这里,统计学应用的重点不是显著性检验,而是对有关统计学指标及其可信区间的估计。比如,在一项队列研究里,分析的目的往往是估计暴露可能增加疾病危险的程度(如相对危险度)及其可信区间。这个暴露可能引起的疾病危险的变化就是上面所说的统计学指标,在流行学里常叫效应指标。
另外,对此指标的估计必须同时控制可能存在的混杂因素。只有在随机对照试验里,研究者可以通过随机分组有效地控制混杂偏倚,在观察性研究(如队列研究和病例对照研究)里,由于其它混杂控制方法同时可控制的因素数目有限,最有效可行的控制混杂方法是多因素回归分析,控制混杂的前提是混杂因素是已知的,而且收集了有关混杂因素的基线数据。其他分析目的包括识别和测量效应修饰作用、确定和描述剂量反应关系,以及分析和控制其他可能存在的偏倚。
本系列文章的目的在于介绍流行病学数据分析的基本原理、原则、方法和内容。为了便于理解,有关讨论和分析将从典型的流行病学研究的数据开始,然后延伸到常规数据的分析,重点在于介绍分析的原理和方法,而不是统计学和公式细节,并用Logistic回归演示如何进行所有有关的分析。
三、流行病学数据中的变量和分类
进行流行病学数据分析,必须首先了解和确定数据中变量的分类、用途和特征。典型的流行病学研究数据中的变量主要可分为以下五种:暴露、结局、混杂因素、效应修饰因素和其他变量。识别这些变量在流行病学研究中的分类和用途,是分析数据的基础。很多错误的和漫无目的的分析多是出于对有关变量定位的混淆或定位错误。比如,在研究吸烟和肺癌关系的队列研究中,吸烟是暴露因素,肺癌是结局指标,年龄、性别以及肺癌的其他危险因素是潜在的混杂因素,同时也是潜在的效应修饰因素。其他变量可能包括病人的联系信息、数据收集的可重复性信息、抽样率信息等,它们在一般数据分析中的用途不大。
很多流行病学研究的目的属于探索因果关系(causeandeffectassociation)的研究,例如,病因与其引起的疾病是因果关系,治疗与其产生的效果属于因果关系,药物与其引起的不良反应也属于因果关系。在因果关系里,因是一个因素,果也是一个因素,两个因素是一对相互依赖而存在的变量。例如,暴露是因,疾病是果;治疗是因,效果是果。上述五种变量里,暴露是关于“因”的变量,结局是关于“果”的变量,它们是数据分析的核心。在多元回归分析中,前者又常叫做自变量(independentvariable),后者叫做因变量(dependentvariable)。
在任何围绕一个具体研究目的的分析中,自变量可以是多个,但因变量总是只有一个,分析总是围绕因变量展开的,因此,因变量的特征决定了分析的策略和方法。因变量又常称作结局。由于医学实践问题的特殊性以及统计分析方法的限制,结局变量多以分类变量表达,尤以二分变量(binaryvariable)为多,如死亡或生存、发病或未发病、病情好转或恶化等。如果原始数据是连续变量,经常需转换成等级变量或二分变量才进行分析,如血压是一个连续变量,但作为研究结局指标时经常会用是否有高血压这样一个二分变量来表达。
这样做有三个原因。一是因为临床的思维和实践习惯造成的,如诊断时把人分为有病和无病,治疗时分为好转和恶化,预后时分为死亡和生存,因此二分变量便于医生和病人理解和应用。二是为了分析的需要或方便,如分层分析时,必须使用分类变量(包括二分变量)或等级变量。三是由于可用的统计分析模型的限制,比如使用最多的Logistic回归主要是用于二分变量的分析。而且,很多流行病学的概念和理论都是建立在二分变量的概念之上的。因此,本系列文章将注重讨论结局为二分变量的分析策略和方法。
无论是在同一个研究或是不同研究里,一个因变量和一个自变量的关系应该是固定的、不能调换方向的,即自变量不能作为因变量来分析,反之亦然。但是,由于因果链上中间因素的存在,一个变量在一个研究里可能是果,而在另一个研究里可能是因。比如,在一项研究里高血压可能是食盐太多的结果,但在另一项研究里血压可能是心脑血管事件的原因,分析时应对血压采取不同的定位和处理。
另外,在多元回归分析里,因变量须放在回归方程等号的左侧,自变量放在回归方程等号的右侧。混杂因素和效应修饰因素从本质上必须也是病因,因此也属于自变量,应放在方程的右侧。
四、流行病学研究数据分析的内容
(一)流行病学专题研究数据分析的内容
流行病学专题研究数据指为研究一个医疗卫生问题而特别进行的研究的数据。如美国弗明汉心脏研究就是一个专门为研究心血管病病因而进行的前瞻性研究。常见的现场流行病学研究包括现况研究、病例对照研究、前瞻性研究、非随机的对照试验和随机对照试验。
总体来讲,前瞻性研究数据分析涉及的内容最多,方法也最复杂,最具有流行病学研究数据分析的代表性,其内容一般包括:①描述研究对象的数量变动;②变量分类和数据整理;③描述和比较组间基线资料;④估计结局事件的发生频率;⑤估计效应的大小;⑥估计效应的可信区间;⑦识别和控制混杂;⑧识别和测量效应修饰作用;⑨识别和测量剂量反应关系;⑩其他分析。
尽管不同流行病学研究的设计原理不同,研究的医疗卫生问题不同,分析的目的、内容和方法也有不同,但是其他类型的研究数据的分析基本上可以看成是前瞻性研究数据分析的一个或几个组成部分。
例如,病例对照研究主要用于探索疾病的危险因素和研究治疗的不良反应。其分析内容基本与前瞻性研究相同。主要区别有两点:一是不能估计结局事件发生的频率;二是不能估计由发生率衍生出来的测量效应大小的指标,如相对危险度和率差,只能估计比值比。
在随机对照试验里,由于随机分组,比较组间可获得在所有可能的混杂因素上的基线可比性,因此绝大多数随机对照试验无需在数据分析阶段对混杂因素进行调整。
相比,非随机分组的对照试验与前瞻性研究在设计原理上无本质区别,主要是研究的暴露因素不同,前者主要用于评估干预效果的大小,后者主要用于研究疾病的危险因素。因此,前者属于干预性研究,后者属于病因研究。非随机形成的比较组在潜在混杂因素方面的可比性没有保障,因此非随机分组的对照试验对混杂控制的需要同前瞻性研究。
现况研究主要是对研究对象某个时间点或某个很短的时间段内一些特征和事件的了解,其分析与前瞻性研究差别较大。比如,年中国居民营养与健康状况调查就是典型的现况调查。现况调查的常见目的有二:一是对疾病、健康和服务的现状进行分析,旨在说明某种疾病在人群中的重要性以及对医疗服务的需求;二是利用现况资料初步探索疾病的危险因素、治疗的效果和治疗的不良作用。
现况研究围绕第一个目的的分析主要是估计调查人群中某些事件(如疾病)的频率或某些特征(如血压)的平均状况,一般包括前瞻性研究第1-3项的分析内容。围绕第二个目的的分析需要进行组间比较,其目的在于发现可能影响某些事件发生的因素,因此需要控制混杂,也可能涉及剂量反应和交互作用的分析。因此,其分析接近前瞻性研究。但由于现况研究不能提供从可疑暴露因素到结局事件在时间上的先后关系,第二类分析只能是初步的探索性的,为未来研究提供必要的假说。
另外,有关诊断准确性的研究,设计上多属于现况或病例对照研究,但分析目的和方法与上述各类研究不同,具体细节请参考有关诊断试验的评价和筛检的评价的文章。有关卫生经济学评价的研究可能采用上述任何一种研究设计,其主要特点是暴露、结局和其他因素包括一些经济学指标或变量。同理,有关分子流行病学的研究,其特点主要是暴露、结局和其他因素包括一些分子生物学测量的指标或变量。除此之外,这两类研究的分析原则和内容与上述研究没有明显区别,本讲座不作详细的介绍。
(二)常规收集的流行病学数据分析的内容
上述流行病学专题研究数据的分析原理、原则和方法,也适用于其他流行病学数据的分析。其他流行病学数据分析的特殊性不在于其目的、原理、内容和方法,而在于其他方面。例如,研究问题的不明确,缺乏明确的研究设计框架,总体人群不明确,失访不明确,每个研究对象观察时间不一致,变量的测量不准确或不一致,缺乏混杂因素的数据等。
面对具体数据时,如何识别这些问题,并对它们可能引起的偏倚进行分析和估计,将是本讲座第四部分“常规收集的流行病学数据的分析”讨论的主要内容。
(本文是全文六个部分的第一部分,未完待续)
原文出处:唐金陵.第二十章:流行病学研究数据统计分析概述.见:李立明主编.《流行病学》.第一卷.第三版.北京:人民卫生出版社::-.
作者:唐金陵,广州市妇女儿童医疗中心临床研究总监、《英国医学杂志》高级临床研究编辑、香港中文大学临床流行病学荣休教授
编辑:唐惠、邬德华
唐金陵教授《临床研究方法学文章汇集》
-11-27
系统综述中的统计分析(5/5):Meta分析软件与分析实例
长按上方