流行病学数据分析处理方法

1、1流行病学数据的分析处理方法山东大学公共卫生学院SchoolofPublicHealthShandongUniversity流行病与卫生统计学研究所山东大学公共卫生学院2流行病学数据分析前的准备工作一、原始数据的检查在数据分析前需要对原始的流行病学调查研究数据进行一次审查，发现可能存在的错误、遗漏的研究变量取值和其他问题，并采取相应的措施进行处理。若在调查表中发现有缺失的数据，可以通过电话再次询问研究对象、查阅有关的记录、应用储存的血液标本重新检测或再次取样等措施进行补充。若发现逻辑错误，也要及时改正。需要对调查问卷进行编码或者对已编码的问卷进行核查，避免重复和遗漏。山东大学公共卫生学院3二、选择合适的数据管理和数据分析软件常用的数据管理软件MicrosoftFoxPro、MicrosoftAccess、MicrosoftExcel这些数据管理软件也具有简单的数据分析功能，Excel的数据分析功能更强，不仅可实现描述性统计，还可以做t检验、方差分析、相关回归分析等常用的数据分析软件SAS（StatisticalAnalysisSystem）和SPSS（StatisticalP。

2、ackageforSocialScience），它们均具有很强的数据分析和数据管理的功能山东大学公共卫生学院4三、数据的计算机录入(编号、定义变量名、变量数量化）编号：给每一个调查表或调查对象一个编号以识别录入的数据与调查表或调查对象的对应关系（唯一性）使用阿拉伯数字1、2、3…等给每份调查表按照顺序编号，这样有利于以后对输入的数据进行检查、核对与修改错误。可以给编号以时间、地区、单位、调查对象编号等，如：200501（济南）02（历下）0001（调查对象）山东大学公共卫生学院5定义变量名称：命名：可以应用中文、拼音、也可以应用英文，但以使用拼音或英文为好，这样可以方便输入。注意：变量名应简短、易懂易记：如对性别、年龄、身高、体重可以使用gender,age,height和weight进行命名。对名称较长的变量，可以使用简写，如wt表示weight、ht表示height。标记或说明：有些数据管理和分析软件可变量进行标记或说明，避免时间长久了而忘记数据库中的变量名字，如对上述Wt可标记为“weight”。山东大学公共卫生学院6变量数量化如果调查表的设计是编码式的，则此步。

3、骤可省略，直接将变量取值编码的结果输入计算机。若不是编码式的调查结果，则需要对变量的取值结果进行编码(数量化）。山东大学公共卫生学院7常见变量的类型1、字符型(charactertype)：输入字符如中文或英文2、数值型(numericaltype)：以数值的形式输入3、日期型(datatype)：按照规定的格式输入日期数值4、逻辑性（logicaltype）:山东大学公共卫生学院8变量数量化时应注意：（1）除日期型变量外尽量使用数值型变量（2）某些数值变量(numericalvariable)可直接输入变量的取值，如研究对象的身高、体重、血压水平等。（3）分类变量(categoricalvariable)及有序变量(ordinalvariable)则可将其取值进行量化，然后再输入计算机山东大学公共卫生学院9如：分类变量——种族白人—1黑人—2西班牙裔人—3亚太裔—4其它种族—5注意：分类变量在进行多因素分析时，必须转换成哑变量（dummyvariable），不能直接将前述的取值1、2、3、4、5放入方程中进行分析。山东大学公共卫生学院10有序变量的数量化顺序合理，则可以直接进行。

4、分析如：教育程度文盲：0小学：1中学：2高中及中专：3大学：4硕士及以上：5山东大学公共卫生学院11四、数据的检查与核对（一）检查数据库结构数据库样本数（观测数）、变量数、变量名称及定义等。（二）检查各变量的取值情况查看变量取值范围，有无逻辑错误：如性别应有两个取值，若有2个以上的取值，说明存在错误。对数据变量要检查其最小值(minimum)、最大值(maximum)、均数(mean)、中位数(median)，并查看是否有异常取值(outlier)，如极小值及极大值。异常值若影响显著时应删除山东大学公共卫生学院12五、数据的整理（一）数据分组分类变量：按其原有的分类进行分组，若有必要，可将性质相近或差别不大的类别进行合并。如教育程度。数值变量：按照实际的生理、病理或临床意义分组，如体重指数：低体重、正常体重、超重和肥胖山东大学公共卫生学院13按使用的方便程度和专业上惯用的方法分组，如年龄在某一个合适的范围内每5岁或10岁分成一组。按分位数分组，即首先找出四分位数（quartile）或五分位数（quintile）的界值，然后应用这些界值将研究对象平均分成4组（每组25%的研究对象）或。

5、5组（每组20%的研究对象）。山东大学公共卫生学院14（二）数据的转换1、非正态数据的变量转换原理：正态分布——参数检验(parametrictest)非正态数据——非参数检验(non-parametrictest)（不是对原始数据检验）如：秩和检验（是对原始数据的秩次检验）检验：正态性检验、方差齐性检验方法：对数变换；平方根变换；倒数变换山东大学公共卫生学院152、分类变量转换成哑变量原理：分类变量是二分类尺度及顺序尺度，则可直接应用其原有的数量化数值。名义尺度因为各类别间没有顺序关系，在进行不同分析（包括多元分析、logistic回归、Cox回归等）时，不能使用原始的计算机录入数值，必经进行变量转换。即将该变量转换成（水平数-1）个哑变量，再将这些新转换的变量放入多因素模型中。山东大学公共卫生学院16方法：例如：将种族原始取值转换成哑变量（新变量）表1.分类变量转换成哑变量的方法新变量.种族原始取值(x1)x1-1x1-2x1-3x1-4白人10000黑人21000亚太裔30100西班牙裔人40010其它种族50001新变量以白人为参照，X1－1表示黑人与白人比较，依此类。

6、推山东大学公共卫生学院17六、确定拟分析的因变量和应变量因（自）变量(independentvariable)：是指影响疾病的发生或健康状况的分布的变量，是原因变量、已知变量、x变量。应变量(dependentvariable)：是指随因变量的变化而发生变化的变量，是结果变量、预测变量、y变量。应变量是在自变量作用下产生反应的变量山东大学公共卫生学院18意义有助于选择拟研究的变量：对调查表的设计具有指导作用可以指导数据分析方法的选择：因变量是分类变量：采用2检验，logistic回归分析等。因变量是数值变量：采用t检验、方差分析，协方差分析、多元回归等。有助于模型的建立：应变量（y）放在模型的左侧，因变量（x）放在模型的右侧。山东大学公共卫生学院19例1.欲评价不同治疗方法（口服药物、注射胰岛素及膳食控制）对糖尿病人的治疗效果（血糖水平），分析时要求调整病人的性别、年龄和病程的影响。血糖水平（应变量y）=治疗方法（因变量x)+其它协变量（covariate，性别、年龄和病程）例2.欲分析脂蛋白（a）与冠心病发生的关系。冠心病(应变量y)=脂蛋白(a)(因变量x)山东大。

7、学公共卫生学院20七、缺失数据（missingdata）的处理缺失数据：是指其测量结果缺失。产生的原因：问卷调查：遗漏出生日期和年龄，调查结束后又无法补救实验室检测：血脂或血糖因为血清量不足或研究对象拒绝采血而致过去处理：仅用无缺失的数据进行分析—损失样本量缺失数据“合理”赋值—人为赋值不一定合理山东大学公共卫生学院21现在处理数据分析处理件软处理：SAS自动分析处理如一个数据库中有性别和年龄等变量，性别有10个缺失数据，年龄有3个缺失数据：分析性别时不包括性别缺失的10个个体分析年龄时不包括缺失年龄的3个个体当分析中（如多因素分析）共同使用了性别和年龄时，分析的实际样本数量是性别和年龄这两个变量均不含缺失数据的样本山东大学公共卫生学院22流行病学数据分析方法的选择一、流行病学数据的分析程序数值变量正态性检验正态数据转换非正态参数检验非参数检验图1.数值变量的分析程序山东大学公共卫生学院23单因素分析Χ2检验分类变量分层分析多因素分析logistic回归分析Cox回归分析其它分析方法图2.分类变量的分析程序山东大学公共卫生学院24二、根据研究设计类型选择（一）成组比较的。

8、设计两组比较：t检验或Χ2检验多组比较：方差分析、行×列表Χ2检验病例对照研究：按其分析方法分析分级的病列对照研究：按其分析方法分析（二）配对（自身实验前后）设计配比的t检验、Χ2检验配对的病例对照研究方法进行数据山东大学公共卫生学院25（三）重复测量的设计在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果，在接种后的2周、4周、6周和8周测定抗体滴度：重复测量的方差分析方法（四）多因素设计自变量是数值变量：多元回归分析方法、协方差分析方法自变量分类变量：logistic回归分析方法、判别分析方法、聚类分析方法山东大学公共卫生学院26三、根据变量的类型选择因变量应变量(y)(x)数值变量分类变量有序变量数值变量相关分析，多元回归分析t检验,方差分析，协方差分析，多元回归分析相关分析，多元回归分析分类变量t检验,方差分析，logistic回归分析,判别分析，聚类分析Χ2检验，logistic回归分析Χ2检验有序变量方差分析，logistic回归分析,判别分析，聚类分析Χ2检验，logistic回归分析相关分析，Χ2检验生存时。

9、间生存分析表2.不同变量类型的数据分析方法选择山东大学公共卫生学院27表3.不同研究设计和数据类型的数据分析方法选择研究设计类型变量类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线性回归Pearson相关系数分类变量Χ2检验Χ2检验配对Χ2检验列联表相关系数有序变量Mann-Whitney秩和检验Kruskal-Wallis分析（成组设计多个样本比较的秩和检验）Wilcoxon符号秩和检验（配对设计差值的符号检验）Spearman相关系数生存时间生存分析山东大学公共卫生学院28不同流行病学研究类型的数据分析方法一、描述性研究（一）现况研究分布描述：患病率、危险因素流行率、数值变量分布探讨因素：相关回归分析、Χ2检验、t检验、方差分析、多因素分析、人群归因危险度（二）生态学研究同现况研究（三）筛检筛检试验的真实性和可靠性人群中疾病、健康状况、危险因素筛选结果分析方法：同现况研究山东大学公共卫生学院29（一）病例对照研究病例对照研究数据成组设计配比设计粗OR→分级OR→剂量反应分层OR分级OR→剂量反应(趋势Χ2检验)。

10、(趋势Χ2检验)分层OR混杂与效应修饰分析混杂与效应修饰分析图3.病例对照研究数据的分析程序二、分析性研究的数据分析方法山东大学公共卫生学院30（二）队列研究队列研究数据人时、发病密度/累积发病率粗RR、AR、AR%、PAR及PAR%分层RR、AR、AR%、PAR、PAR%分级RR、AR、AR%、PAR、PAR图4.队列研究数据的分析程序山东大学公共卫生学院31三、实验研究的数据分析方法干预组与对照组某疾病发病率、危险因素的暴露率及数值变量均值水平的差异，检验方法同前述效果指数、保护率山东大学公共卫生学院32流行病学数据的表达与报告一、数据的报告顺序1、按分析顺序描述性结果：如人口学数据（性别、年龄、职业、文化程度，居住地）、某病发病率/患病率、危险因素流行率、数值变量的集中趋势及变异情况单因素分析结果多因素的分析结果2、按变量的特点及逻辑顺序按某疾病的人群、地区及时间的分布特征按个人生活方式因素、家族遗传因素、社会心理因素、实验室及体格检查结果等顺序山东大学公共卫生学院33二、非正态数据的表达与报告1、未进行变量转换：报告中位数、最小值及最大值报告中位数、25%分位数。