您好,欢迎访问三七文档
常用的统计分析方法佳木斯大学公共卫生学院姚嵩坡第一部分统计学基本概念几个重要的统计学概念总体与样本总体(population):表示根据研究目的确定的同质观察单位的全体。如一个国家的所有成年人(身高值);某地的所有小学生(身高值)。抽样(sampling):从研究总体中抽取一部分有代表性的个体的方法;样本(sample):从研究总体中随机抽取的一部分有代表性的个体;数据(data):对样本中个体进行深入的观察与测量,获取的测量值。几个重要的统计学概念同质与变异同质性(homogeneity):一个总体中有许多个体大同小异,存在共性,这些个体处于同一总体。例如,同性别、同年龄的小学生具有同质性。变异(variation):同一总体内的个体间存在差异。例如,同性别、同年龄的小学生属于同一个总体,但他们的身高、体重又存在变异。变异性是统计学的根本需要。统计学的任务:在变异的背景上描述同一总体的同质性,揭示不同总体的异质性(heterogeneity)。几个重要的统计学概念变量的类型变量(variable):分成定性(qualitative)与定量(quantitative)两种类型。◆定性变量(分类变量(categoricalvariable)或名义变量(nominativevariable)。例如,职业(工、农、商、学、兵等)是一个分类变量;其可能的“取值”不是数字,而是,几个重要的统计学概念二分类变量(binaryvariable),称为0-1变量例如,性别(男女)、疾病(有无)和结局(生死)等。二分类变量常用0和1来编码,0-1变量常称为假变量(dummyvariable)或哑变量,可以和真变量一样参与计算。几个重要的统计学概念有序变量(ordinalvariable)或等级变量。分类变量的“取值”中自然地存在着次序。例如,问卷调查常问对某件事情的满意程度:极不满意、有点满意、中度满意、很满意、极满意。有些临床体检或实验室检验常用–、±、+、++和+++来表示测量结果。几个重要的统计学概念◆定量变量离散型变量(discretevariable):离散型变量只能取整数值。例如,一月中的手术病人数,一年里的新生儿数。连续型变量(continuousvariable):连续型变量可以取实数轴上的任何数值。“连续”是指该变量可以在实数轴上连续变动,由测量而得到。例如,血压、身高、体重等。几个重要的统计学概念变量转化:变量只能由高级向低级转化:离散型变量常常通过适当的变换或连续性校正后借用连续型变量或有序变量的方法来分析。连续型有序分类二值几个重要的统计学概念参数与统计量参数(parameter):是统计模型的特征指标,是对总体而言,其大小是客观存在的,然而往往是未知的,如总体均数(mean)和总体方差(variance);统计量(statistic):由观察资料计算出来的量,如计算观察样本中的个体得到的样本均数,样本方差。统计学关心的常常是总体参数的大小,其依据却是统计量及其性质。几个重要的统计学概念设计与分析统计设计(statisticaldesign):是医药卫生科研设计不可或缺的部分。医药卫生科研主要有两大类:干预性研究(interventionstudy)和观察性研究(observationalstudy)。统计设计内容主要涉及对象选择、随机化、重复、匹配、盲法、统计方法选择、统计图表等。几个重要的统计学概念统计分析:一定的设计样式决定了一定的数据分析方法;不同设计下获得的资料常常要用不同的方法来分析。随机化区组设计(randomizedblockdesign)的方差分析不同于析因设计(factorialdesign)的方差分析病例-对照研究(case-controlstudy),成组对照的资料和匹配对照的资料的分析方法不同几个重要的统计学概念因果与联系统计学联系(association):事物之间存在统计学联系,如某疾病与危险因素(riskfactor)之间存在联系。这种联系可能包括:人为联系、虚假联系和因果关系(causality)。因此,存在联系未必有因果关系。因果关系(causality):在排除了人为联系、虚假联系后仍然存在的、无法用其他联系解释的两个变量之间的关系。但也需要时间顺序等标准进行因果判断。第二部分定量资料的统计描述频数与频数分布频数与频数分布频数:某个测量值的个(例)数。频数分布表(frequencydistributiontable):又称频数表。是将原始数据值适当分组后得到各组的频数。适用样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。可用手工和计算机软件(如SAS、SPSS等)方便制作频数表。频数与频数分布离散型定量变量的频数分布例2-11998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7等共96个数值频数与频数分布表2-1:96名妇女产前检查次数分布的频数分布表表2-11998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.551212.596100.0合计96100频数与频数分布图2-1图2-1某地96名妇女产前检查次率分布0510152025300123455产前检查次数频率(%)频数与频数分布连续型定量变量的频数分布例2-2抽样调查某地120名18岁~35岁健康男性居民血清铁含量(μmol/L),将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表2-2)则能显示出这组数据分布的特点。频数与频数分布数据7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.52频数与频数分布手工编制表2-2步骤。(1)计算全距(range,R),也称为极差R=最大值-最小值=29.64-7.42=22.22(μmol/L)(2)确定组段数与组距:组段数一般可在10~15之间选择。组距=上限-下限=R/(预计的组段数)。本例如果预计取12个组段,则组距长度约为22.22/12=1.85,取整数2。两端的组段应分别包含最小值或最大值;(3)列表做出如表2-2的表格,将选好的组段顺序地列在(1)列。按照“下限≤x<上限”的原则确定每一例数据x应归属的组段。频数与频数分布频数分布图:在表2-2的基础上,可以绘制出图2-2,称为直方图(频率直方图)。横轴:血清铁含量纵轴:频率密度,即频率/组距(直条面积等于相应组段的频率)。在组距相等时,直方图中矩形直条的高度与相应组段的频率成正比。频数与频数分布0510152025306810121416182022242628血清铁(μmol/L)频率密度频数与频数分布对称分布:频数最多的组段在中央,图2-2正偏峰分布:峰向左侧偏移的分布,右侧的组段数多于左侧,为右偏峰分布。图2-3负偏峰分布:峰向右侧偏移的分布,左侧的组段数多于右侧,称为左偏峰分布。图2-1定量变量的特征数集中趋势统计指标对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和中位数。算术均数:适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为定量变量的特征数1)直接计算法:计算公式为式中X1,X2和Xn为所有观察值,n为样本含量,∑(希腊字母,读作sigma)为求和的符号。nXXXxn...21nXnXnXiinii1定量变量的特征数例2-3测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。算术均数=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075(U/L)定量变量的特征数表2-3加权法计算均数组段组中值(XO)ffXO(1)(2)(3)(4)=(2)(3)6~7178~932710~1166612~13810414~151218016~172034018~192751320~211837822~231227624~25820026~27410828~3029129合计1202228定量变量的特征数2)加权频数表法:计算公式为加权均数=2228/120=18.57(μmol/L)直接法均数=18.61(μmol/L)。nfXffXxOO定量变量的特征数几何均数(geometricmean,G)适用于观察值变化范围跨越多个数量级的资料。其频数图一般呈正偏峰分布。人们常用几何均数描述这类资料的集中位置。在医学研究中常适用于免疫学的指标。其计算公式为nXXXXXnnGlglg...121定量变量的特征数例2-57名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。6451212864643232167G)log(log1nXG.648062.1lg7512lg128lg64lg64lg32lg32lg16lglg11定量变量的特征数加权法计算几何均数。频数表资料例2-652例慢性肝炎患者的HBsAg滴度数据如表2-4。试计算滴度的几何均数。nXffXfGloglgloglog11定量变量的特征数表2-452例慢性肝炎患者的HBsAg滴度资料抗体滴度频数(f)滴度倒数(X)lgXf(lgX)1:162161.204122.408241:327321.5051510.536051:6411641.8061819.867981:128131282.1072127.393731:256122562.4082428.898881:51275122.7092718.96489合计52108.06977定量变量的特征数52例慢性肝炎患者的HBsAg滴度的几何均数为1∶119.74705。74705.1195206977.108lg1G定量变量的特征数中位数(median,M)可用于各种分布的定量资料。中位数的原意是指在总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。奇数:偶数:1()2nMX()(1)2212nnMXX定量变量的特征数百分位数法计算中位数:频数表资料百分位数的计算公式为式中LX、iX和fX分别为第百分位
本文标题:常用的统计分析方法
链接地址:https://www.777doc.com/doc-4050165 .html