您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 第02章计量资料的统计描述(正式)
华中科技大学公卫学院流行病与卫生统计系1计量资料的统计描述StatisticalDescriptionofMeasurementData第2章蒋红卫Email:JHWCCC@21CN.COM2讲课内容:1.频数分布2.集中趋势的描述3.离散趋势的描述4.正态分布5.医学参考值范围的制定3第一节频数分布FrequencyDistribution4个体变异个体变异(individualvariation)是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就每个观察单位而言,其观察指标的变异是不可预测的,或者说是随机的(random)。就总体而言,个体变异是有规律的。5个体变异是统计学应用的前提个体变异抽样误差统计推断例2-1138名成年女子的红细胞数3.964.234.423.595.124.024.323.724.764.164.614.263.774.204.363.074.893.974.283.644.664.044.554.254.633.914.413.525.034.014.304.194.754.144.574.264.563.793.894.214.953.984.293.674.694.124.564.264.664.283.834.205.244.024.333.764.814.173.963.274.614.263.964.233.764.014.293.673.394.124.273.614.984.243.834.203.714.034.344.693.624.184.264.365.284.214.424.363.664.024.314.833.593.973.964.495.114.204.364.543.723.974.284.763.214.044.564.254.924.234.473.605.234.024.324.684.763.694.614.263.894.214.363.425.014.014.293.684.714.134.574.264.035.464.163.644.163.76一、频数分布表(frequencytable)7频数分布表将变量值化为若干个组段,清点并记录各组段变量值的个数,称为频数表了解变量值的分布情况表2-1138名成年女子的红细胞数的频数分布表组段频数(f)频率(%)3.07~21.453.27~32.173.47~96.523.67~1410.143.87~2215.944.07~3021.744.27~2115.224.47~1510.874.67~107.254.87~64.355.07~42.905.27~5.4721.45合计138100.00(1)求极差(range):即最大值与最小值之差,又称为全距。R=5.46–3.07=2.39(2)确定组段数和组距:根据研究目的和样本含量n确定分组组数,通常分为10~15个组。组距=极差/组数,为方便计,组距为极差的十分之一,再略加调整。2.39/12=0.199≈0.20(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。3.07~3.27~……5.07~5.27~5.47(4)分组划记并统计频数:用划记法将所有数据归纳到各组段,得到各组段的频数。频数表的编制步骤二、频数分布图(graphoffrequencydistribution)051015202530353.173.273.373.473.573.673.773.873.974.074.174.27红细胞数频数138名成年女子的红细胞数的频数分布三、频数表和频数分布图用途1.描述频数分布的类型正态分布正(右)偏态分布,负(左)偏态分布2.描述频数分布特征变异范围分布规律(集中位置、频率分布)3.便于发现资料中的可疑值4.便于计算有关指标,进一步做统计分析三、频数表和频数分布图用途1.描述频数分布的类型(对称分布、偏态分布)(1)对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布血清总胆固醇(mmol/L)05101520252.453.053.654.254.855.456.10图2-1101名正常成年女子血清总胆固醇的频数分布频数是否为对称分布?变量0510152025303540452.453.053.654.254.855.456.10频数是否为对称分布?变量051015202530354045502.453.053.654.254.855.456.10频数(2)偏态分布:1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。血清转氨酶(mmol/L)051015202513.519.525.531.537.543.5.图2-2115名正常成年女子血清转氨酶的频数分布人数转氨酶含量人数12~215~918~1421~2324~1927~1430~1133~936~739~442~453表2-2115名正常成年女子血清转氨酶(mmol/L)含量分布左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。血清肌红蛋白(μg/mL)05101520252.512.522.532.542.552.5图2-3101名正常人血清肌红蛋白的频数分布人数肌红蛋白含量g/mL人数0~25~310~715~920~1025~2230~2335~1440~945~502表2-3101名正常人的血清肌红蛋白含量分布2.描述频数分布的特征表2-1数据的频数分布特征:①数据变异(离散)的范围在57~84(次/分)②数据集中(平均)的组段在68~73(次/分)之间,尤以组段的人数71~(次/分)最多。且上下组段的频数分布基本对称。3.便于发现一些特大或特小的可疑值•组段频数f(1)(2)2.30~12.60~02.90~03.20~03.50~173.80~204.10~174.40~124.70~95.00~05.30~05.60~5.908合计1014.便于进一步做统计分析和处理21第二节集中趋势的描述DescriptionofCentralTendency22平均数(average)平均数:描述一组同质变量值中心位置或平均水平主要有:算术均数几何均数中位数一、算术均数简称均数(mean),样本均数,总体均数可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。均数的几何意义:代表每组观察值的平衡点,即重心。如1,4,7,8的均数为5.均数重要特性:X123456780)(X公式:23.413876.3...23.496.3X例:138名正常成年女子红细胞数的均数(1)直接计算法nnnXXXXX...21(2)频数表(加权法weightedmeans):公式:X本组段下限值+下组段下限值其中2k:频数表的组段数,f:频数,X:组中值。ffffffffnnnXXXXX......212211表2-2138名正常成年女子红细胞数的频数分布表组段频数(f)组中值(X)fXfX23.07~23.176.3420.103.27~33.279.8132.083.47~93.3730.33102.213.67~143.4748.58168.573.87~223.5778.54280.394.07~303.67110.10404.074.27~213.7779.17298.474.47~153.8758.05224.654.67~103.9739.70157.614.87~64.0724.4299.395.07~44.1716.6869.565.27~5.4724.278.5436.47合计138--583.062493.8623.413806.583X应用均数适用于对称分布,特别是正态分布资料。二、几何均数(geometricmean)可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。(1)直接计算法12121lg1lg(lglglg)lglgnnnGXXXXGXXXnnXGn为正值,为底的反对数表示以为底的对数;表示以010lg10lg1X几何均数:变量对数值的算术均数的反对数。其他对数(如自然对数)变换获得相同的几何均数例2-4某地5例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为,10,20,40,40,160,求几何均数。11lglg10lg20lg40lg40lg160lg()lg()34.85XGn8.34160404020105G(2)加权法公式:1lglg()fXGf例2-669例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。表2-469例RA患者血清EBV-VCA-lgG抗体测定结果抗体滴度人数f滴度倒数XlgXlgfX⑴⑵⑶⑷⑸1:101:201:401:801:1601:3201:6401:128043101011151421020408016032064012801.00001.30101.60211.90312.20412.50512.80623.10724.00003.903016.021019.031024.245137.576539.28686.2144合计69——150.2778111lg150.2778lg()lg()lg(2.1779)150.669fXGf87.280X2、应用:适用于成等比数列的资料,特别是服从对数正态分布资料。三、中位数与百分位数11个大鼠存活天数:4,10,7,50,3,15,2,9,13,60,60平均存活天数?(一)中位数(median)是将每个变量值从小到大排列,位置居于中间的那个变量值。计算公式:n为奇数时n为偶数时1()2nMX()(1)2212nnMXX例2-67名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。)(54217天XXM例2-78名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。)(4)53(21)(21)(215412828小时XXXXM应用1、各种分布类型的资料2、特别适合大样本偏态分布资料或者一端或两端无确切数值的资料。XP%X(100)%XPx是一个界值,将全部变量值分为两部分,在不包含Px的全部变量值中有X%的变量值比它小,有(100-X)%的变量值比它大。50%分位数就是中位数25%,50%,75%分位数称为四分位数(quartile)(二)百分位数(percentile)1.直接计算法设有n个原始数据从小到大排列,第X百分位数的计算公式为:当为整数时:当为带有小数位(g)时:%))1((XnXXP1%))1((%))1(()1(XnXnXgXXgP%)1(Xn%)1(Xn例对某医院细菌性痢疾治愈者的住院天数统计,119名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。患者:住院天数:(1)n+1=120,,为整数:(2),带有小数,1205%612345678911711811912012223344540404245)(365天XP12099%118.8)(6.41428.0402.08.0)8.01(11911899天XXP2.频数表法公式:(%)XXXLXiPLnXffLx:Px所在组下限ix:Px所在组组距fx:Px所在组频数∑fL:小于Px所在组的各组累计频数当时,公式(2-9)即为中位数的计算公式50505050()2LinMPLff1%50%2X例某地118名链球菌咽喉炎患者潜伏期。天数(1)人数(2)累计频数
本文标题:第02章计量资料的统计描述(正式)
链接地址:https://www.777doc.com/doc-2152655 .html