您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 卫生统计学讲义!!!
卫生统计学第1页第一节统计学的几个基本概念一、统计学的几个基本概念(一)总体与样本总体(population):根据研究目的确定的同质的研究对象,其某项变量值的全体。某省2000年14岁男孩的身高抽样(sampling):从研究总体中随机抽取一部分有代表性的个体的方法。样本(sample):从研究总体中随机抽取的一部分有代表性的个体(其某项变量值的全体)。统计推断(inference):利用样本信息推断总体特征。(二)同质与变异1.同质(homogeneity):一个总体中有许多个体大同小异,存在共性,这些个体处于同一总体。某省2000年14岁男孩的身高卫生统计学第2页2.变异(variation):在同质基础上个体间的差异。变异性是统计学的根本需要(三)抽样误差(samplingerror)定义:由个体变异产生,由抽样引起的总体指标(参数)与样本指标(统计量)以及样本指标之间的差异特点:不可避免目的:减小抽样误差方法:减小个体间的差异;增大样本含量(四)参数与统计量1.参数(parameter):是由总体中个体值计算出来的用于描述总体特征的指标。其大小是客观存在的,然而往往是未知的。2.统计量(statistic):是由样本中个体值计算出来的用于描述样本特征的指标。统计学关心的常常是总体参数的大小,其依据却是统计量及其性质。(五)概率(Probability)定义:描述随机事件发生可能性大小的数值(P)随机事件取值范围:不可能事件必然事件估计方法:当n足够大时,用频率估计概率小概率事件:某随机事件发生可能性很小含义:在一次试验或观察中某随机事件发生可能性很小(六)资料类型变量:根据研究目的,对研究对象的某个或某些特征(研究指标或项目)实施观测,这些特征(指标或项目)称为变量(variable)资料(数据):变量的取值(变量值)卫生统计学第3页二、医学统计工作的基本步骤【例题】下面的变量中,属于分类变量的是A.脉搏B.血型C.肺活量D.红细胞计数E.血压【答案】B【例题】小概率事件在统计学上的含义是A.指发生概率的随机事件B.指一次实验或观察中绝对不发生的事件C.指一次实验或观察中发生的可能性很小的事件,一般指D.指发生概率的随机事件E.以上都不正确【答案】C第二节定量资料的统计描述卫生统计学第4页统计描述:利用统计表、图以及统计指标描述资料的数量特征及其分布规律一、频数与频数分布频数:某个测量值的个(例)数。频数分布表(frequencydistributiontable):又称频数表,一个统计表,有两个栏目(列)组成,其中一个栏目是观察单位的观察值或组段,另一个栏目是相应的频数。是对样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。1.离散型定量变量的频数分布1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7等共96个数值96名妇女产前检查次数分布的频数分布表卫生统计学第5页1998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)44.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.551212.596100.0合计96100.0——直条图(barchart)2.连续型定量变量的频数分布某市2005年进行的小学生体质评价研究中,120名9岁男孩的肺活量(L)资料如下,试分析其频数分布特征及类型。1.7061.3261.6321.8762.1611.6841.5331.1751.8671.676…………………………………………1.9301.7251.3741.6541.6631.4381.6451.2141.1841.7352005年某市120名9岁男孩肺活量(L)频数分布组段(1)频数(f)(2)频率(%)(3)累计频数(4)累计频率(%)(5)0.980~1.110~1.240~1.370~1.500~1.630~1.760~1.890~2.O20~2.150~2.280~2.41055714192915126444.174.175.8311.6715.8324.1712.5010.O05.O03.333.3351017315079941061121161204.178.3314.1725.8341.6765.8378.3388.3393.3396.67100.00卫生统计学第6页合计120100.00——频数分布图从频数分布图中可以看出两个趋势:集中趋势和离散趋势从频数分布图中可以看出,图形中间的直条最高,两边对称(或基本对称)地逐渐减少,统计学上称之为正态分布。二、集中趋势的描述描述数值变量资料的集中趋势指标——平均数平均数:它是一类指标,统计中常用的平均数包括:算术平均数、几何平均数、中位数。平均数的选取:根据资料的分布类型(一)算术平均数算术平均数简称均数,总体均数—,样本均数—卫生统计学第7页1.适用条件:对称分布,特别适用于正态或近似正态分布资料2.计算方法:(1)直接法—观察单位较少公式:某市10名4岁女孩的身高(cm)分别为:112.9,108.0,99.8,102.5,116.3,105.6,100.7,103.2,104.9,98.9,试求其均数。(2)加权法—频数表资料公式:(二)几何均数几何均数(geometricmean)用G表示。1.适用条件:观察值呈倍数关系或对数正态分布,多用于描述抗体的平均滴度等。2.计算方法:(1)直接法—观察单位较少公式:例题某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度分别为1:10,1:20,1:40,1:40,1:160,求抗体的平均滴度。解:平均指标选用几何均数(观察值呈倍数关系)首先取观察值的倒数5份血清抗体效价的平均滴度为1:34.8(2)加权法—频数表资料公式:例题:69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布如下,求其平均抗体滴度。某医院预防保健科用流脑疫苗为75名儿童进行免疫接种,1个月后测定其抗体滴度如下表所示,试求其平均滴度。75名儿童的平均抗体滴度计算表卫生统计学第8页抗体滴度滴度倒数XlgX频数fflgX1:41:81:161:321:641:1281:256481632641282560.60210.90311.20411.50511.80622.10722.408249212012542.40848.127925.286130.102021.674410.53609.6328合计——75107.7676(三)中位数中位数(median)用M表示,是一组观察值按由小到大的顺序排列后,位于中间位置上的那个数值。1.适用条件:(1)变量值中出现个别特小或特大的数值(2)资料的分布呈明显的偏态(3)变量值分布一端或两端无确定数值,只有小于或大于某个数值()。(4)资料的分布不清2.计算方法:(1)当样本含量为奇数时,1,8,2,4,12→1,2,4,8,12(2)当样本含量为偶数时,1,8,2,4,12,3→1,2,3,4,8,12(四)百分位数百分位数(percentile)用(第x百分位数)表示,也是一种位置指标,观察值按由小到大的顺序排列后,一个百分位数将全部变量值分为两部分,其中有x%的变量值比它小,(100-x)%变量值比它大。适用条件同中位数频数表法::第X百分位数所在组段的组下限卫生统计学第9页:组距:第X百分位数所在组段对应的频数:为小于的各组段的累计频数例题测得某地200名正常人发汞值(μg/g),试计算其平均水平及P75百分位数。某地200名正常人发汞值频数分布组段(μg/g)(1)频数f(2)频率(%)(3)累计频数(4)累计频率(%)(5)0.3~0.7~1.1~1.5~1.9~2.3~2.7~3.1~3.5~3.9~4.3205046302516642110.025.023.015.012.58.03.O2.01.00.5207011614617118719319719920010.035.058.073.085.593.596.598.599.5100.0合计200100.0——三、离散趋势(一)极差(全距)卫生统计学第10页1.定义:极差(R)=最大值-最小值极差越大变异程度越大。例:甲乙两组球员身高资料如下:甲组:184,186,188,190,192乙组:180,184,188,192,196甲乙两组的集中趋势相同(有相同的平均水平),但离散程度不同(乙组大于甲组)。也就是说,既考虑集中趋势,又要考虑离散趋势,这样才能全面对数值变量资料进行描述。2.应用范围:适用于任何分布类型的资料,描述偏态分布资料。3.优缺点优点:计算简单、概念清晰。缺点:⑴只考虑了最大值与最小值,容易受个别极端值的影响,且不能反应组内其它变量值的变异情况。⑵受样本含量影响,不稳定(一般样本含量越大越有机会观察到偏小或偏大的数据)。(二)四分位数间距1.定义:2.应用范围:适用于任何分布类型的资料,主要和中位数一起描述偏态分布资料。3.优缺点优点:要比极差稳定缺点:仍未考虑到全部观察值的变异程度(三)方差公式的由来样本方差在实际应用时,总体均数常常是未知的,往往也很大,或者总体内的个体有无限多个,因此,总体方差的公式就不太适合应用了。在抽样研究中往往是用样本的方差来估计总体方差,也就是用,用也即,但是经数理统计学证明这样代替后样本方差值会变小,因此统计学家进一步完善将其中是自由度(四)标准差由于方差的单位是原单位的平方,因此为了应用方便,对方差进行开方得到,该公卫生统计学第11页式就是样本的标准差。标准差的简化公式方差和标准差主要应用于正态分布(五)变异系数1.应用条件:反映资料的相对变异程度。常用于比较度量衡单位不同或均数相差悬殊的两组(或多组)资料的变异度。2.公式:例比较单位不同的几组资料的离散程度某年某市城区120名5岁女孩身高均数为110.15cm,标准差为5.86cm,体重均数为17.71kg,标准差为1.44kg,比较其离散程度。例比较均数相差悬殊的几组资料的离散程度某年某市城区120名5岁女孩体重均数为17.71kg,标准差为1.44kg,同年该地120名5个月女孩体重均数为7.37kg,标准差为0.77kg,比较其离散程度。【例题】正态分布资料宜用()来描述其集中趋势。A.算术平均数B.标准差C.几何均数D.变异系数E.四分位数间距【答案】A【例题】变异系数越大说明A.标准差越大B.标准差越小C.均数越大D.均数越小E.以均数为准变异程度大【答案】E【例题】数列8,-3,5,0,1,4,-1的中位数是A.2B.0C.2.5D.0.5E.1【答案】E卫生统计学第12页【例题】原始数据呈倍数关系的资料,宜用()描述其分布的集中趋势。A.算数均数B.几何均数C.极差D.中位数E.百分位数【答案】B【例题】离散程度指标中,最容易受极端值影响的是A.极差B.标准差C.变异系数D.方差E.四分位数间距【答案】A【例题】以下关于偏态分布资料的说法,不正确的是A.正偏态分布的频数分布集中位置偏向数值大的一侧B.负偏态分布的频数分布集中位置偏向数值大的一侧C.不宜用均数描述其集中趋势D.偏态分布资料频数分布左右不对称E.不宜用变异系数来描述其离散程度【答案】A四、正态分布正态分布是医学和生物学中最常见,也是最重要的一种连续性分布,如正常人的身高,体重,红细胞数,血红蛋白等。我们可以从频数表和频数图对正态分布进行研究。120名正常成年男子红细胞计数的频数表(×1012/L)组段(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)3.20~21.721.73.50~54.275.93.80~108.31714.24.10~1915.83630.04.40~2319.25949.24.70~2420.08369.25.00~2
本文标题:卫生统计学讲义!!!
链接地址:https://www.777doc.com/doc-3615107 .html