您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 卫生统计学第八版李晓松第一章-数据分布的描述
卫生统计学欧春泉南方医科大学第一章数据分布的描述目录第一节:数据分布表与直方图第二节:集中位置第三节:变异程度第四节:箱式图第五节:数据核查与离群值01020304050506第六节:分类变量的常用统计图重点难点※频数分布表与直方图的编制原则和方法※集中位置和变异程度的常用指标及其适用条件※基本箱式图和箱式百分位数图的绘制和作用※常用的逻辑核查方法※离群值的探索和处理方法※各种图形的适用条件第一节数据分布表与直方图采用SF-36自测健康量表测得118名慢性鼻窦炎患者的生命质量评估总分如下:(一)频数分布表第一节数据分布表与直方图723080577272723065251052758252606572356245353066816555656780626245524745575267525740665562454552725757574555507755724550357260475752604045456760404535507225604062405555926561353515658792408565577272724030524553505257454530256540254565451.频数表的编制方法(1)找出最小值和最大值,本例为10与92。(2)计算全距(range,R):最大值与最小值之差,本例R=92−10=82。(3)确定组距:相邻两组之间的距离,组距=全距/组段数,通常组段数取8~12组。本例共设9个组段,组距取10。(4)确定组段的上、下限:每个组段的起点为下限(lowerlimit),终点为上限(upperlimit)。每个组段均包含组段的下限值,最后一组的组段写出上限值。(5)列表整理:计算频数、频率、累计频数及累计频率。(一)频数分布表第一节数据分布表与直方图广州市118名慢性鼻窦炎患者生命质量评估总分的频数分布表(一)频数分布表第一节数据分布表与直方图组段(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)10~21.6921.6920~43.3965.0830~119.331714.4140~2521.194235.5950~2924.587160.1760~2521.199681.3670~1411.8611093.2280~65.0811698.3190~10021.69118100.00合计118100.00——(二)直方图第一节数据分布表与直方图慢性鼻窦炎患者生命质量评估总分的直方图慢性鼻窦炎患者生命质量评估总分的直方图(非等距分组造成错觉)1.分布形态分类(1)对称分布:集中位置在正中,左右两侧频数分布对称。(2)偏态分布:集中位置偏向一侧,左右两侧频数分布不对称。①正偏态(positiveskewness):有小部分数据偏大、直方图呈现右侧拖尾,又称右偏态(rightskewness);②负偏态(negativeskewness):有小部分数据偏小、直方图呈现左侧拖尾,又称左偏态(leftskewness)。(三)数据分布特征第一节数据分布表与直方图(三)数据分布特征第一节数据分布表与直方图分布形态图示:成都市238名正常居民发汞值分布直方图(三)数据分布特征第一节数据分布表与直方图分布形态图示:冠心病患者的年龄分布直方图(三)数据分布特征第一节数据分布表与直方图2.集中趋势和离散趋势的描述(1)集中趋势(centraltendency):指一组数据向某一中心值靠拢的趋势,反映了一组数据中心点的位置,是频数分布表和直方图中高峰所在位置,即频数最大的组段。(2)离散趋势(dispersiontendency):部分数据偏离中心位置的变异特征。第二节集中位置第二节集中位置1.集中位置(center)反映一组观察值的平均水平或中心位置。描述集中位置的常见指标有以下三种:(1)算术均数(arithmeticmean)(2)几何均数(geometricmean,G)(3)中位数(median,M)(一)算术均数第二节集中位置(一)算术均数第二节集中位置基于频数分布表数据计算慢性鼻窦炎患者生命质量评估总分的均数组段(1)频数(fi)(2)组中值(xMi)(3)fixMi(4)=(2)×(3)10~2153020~42510030~113538540~2545112550~2955159560~2565162570~1475105080~68551090~100295190合计118—661021542511351475==56.68529011852x()(二)几何均数第二节集中位置1.计算方法(1)原始资料(直接法):(2)频数表资料(加权法):2.应用几何均数常用于数据呈倍数变化或对数正态分布资料的平均水平,计算几何均数时,观察值中不能有零且不能同时有正数和负数。11121ln=ln(ln)=..ln.ninxxxxGnx11lnlnlnlniMiiMiiffGxfnx(二)几何均数第二节集中位置广州市6名3岁以上儿童接种麻疹疫苗后,麻疹IgG抗体滴度水平如下:1:200,1:800,1:800,1:800,1:3200,1:12800。计算6名儿童麻疹IgG抗体滴度的几何均数。求G的倒数,得到6名儿童接种麻疹疫苗后麻疹IgG抗体滴度的几何均数为1:1270。(二)几何均数第二节集中位置下表是262名患儿体内肺炎支原体抗体滴度水平,计算其平均抗体滴度。262名患儿体内肺炎支原体抗体滴度水平抗体滴度(1)频数(2)抗体滴度倒数(3)抗体滴度倒数的对数(4)抗体滴度倒数的对数和(5)=(2)×(4)1:8097804.38424.861:160561605.08284.481:320423205.77242.341:640216406.46135.661:12804612807.15328.90合计262——1416.2411ln1416.24ln=ln=223262iMixfGn即262名患儿体内肺炎支原体抗体平均滴度水平为1:223。(三)中位数第二节集中位置(三)中位数第二节集中位置下表是成都市238名正常居民发汞含量测量结果,求发汞含量的中位数。组段(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)0.3~197.98197.980.7~6226.058134.031.1~6326.4714460.501.5~5121.4319581.931.9~229.2421791.182.3~135.4623096.642.7~41.6923498.323.1~10.4223598.743.5~20.8423799.583.9~4.310.42238100.00合计238100.00238—从第(5)列可知,累计有34.03%的观测值小于1.1,有60.50%的观测值小于1.5,故可判断P50在1.1~1.5这个组段,代入公式得:500.41.123850%=1.346381P238名居民发汞含量(μg/g)的频数分布表(三)中位数第二节集中位置2.中位数的应用(1)对任何资料(对称分布、偏态分布、分布未知或分布末端有极端值、不确定值)都适用。日常应用中,对称分布资料更常用均数。(2)与均数相比,中位数存在一些不足:①中位数未考虑大部分观测值的实际大小,而均数充分利用了全部数据的信息;②两组数据合并时,合并后的中位数不能用原来两组的中位数表达,而均数可基于两组的均数和例数用求得;③均数可通过如估计截尾均数等方法进行修正,而中位数无法进行此修正。第二节集中位置不同分布中三种指标的大小比较第三节变异程度第三节变异程度三组儿童身高特征的比较示意图仅描述数据的集中位置还不足以反映数据完整的分布特征第三节变异程度1.变异(variation)一组数据中个体值之间的差异。描述变异程度的常见指标有:(1)极差(2)四分位数间距(inter-quartilerange,IQR)(3)方差(variance)(4)标准差(standarddeviation,SD)(5)变异系数(coefficientofvariation,CV)(一)极差第三节变异程度1.极差(range,R)也称全距,为所有观测值中最大值与最小值之差。极差越大说明数据变异程度越大。可用来反映传染病、食物中毒的最短和最长潜伏期等。2.极差的不足之处(1)仅用到最大值和最小值的信息,不能反映组内其他数据的变异情况。(2)极差与样本例数有关。一般地,样本量越大,得到较大或较小变量值的可能性越大,极差就可能越大,故样本量相差较大时,不宜采用极差进行比较。(二)四分位数间距第三节变异程度四分位数间距(inter-quartilerange,IQR)IQR可看做中间一半观测值的极差R,适于偏态分布或分布未知资料,由于不受两端极大或极小数据的影响,四分位数间距比极差更为稳定,但仍未考虑每个观测值的变异。常与中位数一起使用,综合反映数据的平均水平和变异程度,写成M(P25,P75)。适于P0P25P50P75P100Min下四分位数(QL)中位数上四分位数(QU)MaxIQR=P75−P25(三)方差与标准差第三节变异程度方差(variance)是指所有观测值的离均差平方和的平均值,描述所有观测值与均数的平均偏离程度;标准差(standarddeviation,SD)是方差的平方根。方差:标准差:22()/(1)isxxn22()/(1)isxxns(三)方差与标准差第三节变异程度(四)变异系数第三节变异程度100%sCVx(四)变异系数第三节变异程度第三节变异程度特征指标应用集中位置均数对称分布几何均数对数正态、等比资料中位数偏态分布、分布不明、末端有不确定值变异程度极差偏态分布四分位间距偏态分布、分布不明、末端有不确定值方差/标准差对称分布变异系数单位不同、均数相差悬殊、评价测量精度集中位置和变异程度指标小结:第四节箱式图(一)箱式图第四节箱式图15例大骨节病患者白细胞数箱式图1.表示中位数的横线在箱体中间位置则表明数据呈对称分布。2.中间横线靠下端则提示右偏态分布。3.中间横线靠上端则提示左偏态分布。(一)箱式图第四节箱式图广州市一项关于慢性鼻窦炎患病率的横断面调查中,用SF-36量表测得所有调查对象的生活质量,所调查的1411名成年居民中有118名患有慢性鼻窦炎。以慢性鼻窦炎患者和正常人的精力评分为例,绘制箱式图。正常人与慢性鼻窦炎患者精力评分箱式图“”表示均数“〇”表示离群值(二)箱式百分位数图第四节箱式图1.箱式百分位数图(box-percentileplot)结合了箱式图和直方图的功能,不仅给出了几个关键的百分位数,还描述了整个数据的分布形态。箱体中间部分最宽,越往两端越窄。2.制作方法首先将n个观测值从小到大排列,假设箱体最中间(中位数位置)宽度为w,则将数据从小到大排列后第k个观测值xk所在位置的箱体宽度为:()1kwkxMn时(1)()1kwnkxMn时(二)箱式百分位数图第四节箱式图以下为慢性鼻窦炎患者健康评估总分同时绘制了箱式图与箱式百分位数图,箱式百分位数图呈梭型左右对称。若关于中位数上下对称则提示资料呈对称分布。慢性鼻窦炎患者健康评估总分的箱式图(A)和箱式百分位数图(B)(二)箱式百分位数图第四节箱式图慢性鼻窦炎患者精力评分的箱式图(A)和箱式百分位数图(B)慢性鼻窦炎患者精力评分呈左偏态分布。箱式图显示该组数据有两个数值特别小的离群点。箱式百分位数图从箱体往下延伸出一条又长又细的线——离群点。第五节数据核查与离群值(一)逻辑核查第五节数据核查与离群值1.逻辑核查的几种常用策略(1)检查变量类型和性质:变量可分为数值型变量与字符型变量。数值型变量只能包括数字、小数点和负号,个别情况也包括作为千位分隔符的逗号,不能含有字母或文字。(2)核查变量值范围:检查每个变量的取值范围。例如:一个人的体重不能为负数;出生月份应在1~12之间;某成年男性
本文标题:卫生统计学第八版李晓松第一章-数据分布的描述
链接地址:https://www.777doc.com/doc-5954619 .html