您好,欢迎访问三七文档
第四章统计描述第一节频数分布一、计量资料的频数分布表例1某年某市120名12岁健康男孩身高测量资料142.3134.5145.2151.1141.2143.5134.7150.8125.9160.9134.7129.4156.6148.8141.8144.0141.5139.2147.3144.5132.7154.2138.5142.5142.7134.4146.8145.4148.8144.7138.1137.1152.9137.9138.9141.2145.7148.8135.1146.2140.1139.3140.2147.1147.9139.9137.7148.9138.2137.9150.3143.3150.6141.9137.4142.9141.8149.7138.5154.0141.6151.3133.1156.3139.5147.8145.1134.9141.4147.5139.6147.7142.5140.8142.7141.9146.4140.5145.8143.6140.9136.9143.5152.3130.5149.8143.9140.7143.8138.9147.9142.3141.4148.1142.9146.6132.1143.6142.4145.9150.0148.9146.7143.3146.7144.0146.5139.2135.5149.0139.6144.4142.1142.4143.4140.2138.7134.4145.4139.9•找出全距即最大值与最小值之差。全距(R)=160.9-125.9=35•确定组距为相邻两组段最小值之差。通常以R的1/10进行估计。组距(i)=全距(R)/10=35/10=3.5可取i=4。•划分组段每个组段应有一个起始值作为组下限和一个终止值作为组上限;第一个组段应包括最小值,最后一个组段应包括最大值;组段数一般取8~15个;为避免相邻两组段界限互相包含,除最末一个组段外,其余组段只写下限。•整理频数分布计算各组段频数、累计频数和累计频率。组段划记频数125~1129~4133~9137~正正正正28141~35145~27149~11153~4157~1611合计120表1120名12岁健康男孩身高的频数分布表149283527114105101520253035125~129~133~137~141~145~149~153~157~161二、计数资料和等级资料的频数分布表1、计数资料的频数分布表表2100名大学生性别的频数分布表性别频数频率(%)累计频数累计频率(%)男4040.04040.0女6060.0100100.0合计100100.0——2、等级资料的频数分布表表3100名大学生性别的频数分布表视力等级频数频率(%)累计频数累计频率(%)差826.67826.67中1240.002066.67良1033.3330100.00合计30100.00——三、频数分布表的作用1、揭示资料的频数分布特征与类型(1)频数分布的特征集中趋势反映变量值平均的数量水平。离散趋势反映变量值相互之间变异的程度。(2)频数分布的类型对称分布集中位置居中,左右两侧的频数基本一致。非对称分布集中位置偏向一侧,左右两侧频数不一致。2、观察离群值便于发现一些特大、特小的可疑值。第二节计量资料的统计描述一、集中趋势的描述含义集中趋势是指计量资料中,所有观察值的中心位置。反映一组同质变量值的平均数量水平。常用指标算术平均数、几何平均数、中位数1、算术均数(arithmeticmean)简称均数(mean),用x及μ表示。适用范围变量值呈对称分布,尤其是正态分布的计量资料计算方法直接法变量值个数不多,直接相加除以变量值个数。加权法变量值较多或频数表资料。组段组中值(X0)频数(f)fx125~1271127129~1314524133~13591215137~139283892141~143355005145~147273969149~151111661153~1554620157~1611591159合计12017172表1120名12岁健康男孩身高的频数分布表2、几何均数(geometricmean,G)适用范围•变量值呈对数对称分布•等比级数资料计算方法直接法变量值个数不多,直接将其乘积开n次方。加权法变量值较多或频数表资料。抗体滴度人数(f)滴度倒数(x)lgxflgx1︰2220.30100.60201︰41140.60216.62311︰81880.903116.25581︰1636161.204143.34761︰3222321.505133.11221︰648641.806214.44961︰12831282.10726.3216合计100120.7119表4100名患者抗体滴度的频数分布表3、中位数(median,M)一组按大小顺序排列的变量值,位次居中的数值即中位数。适用范围•变量值呈偏态分布•分布类型不清•变量值的一端(或两端)无确定数值—开口型资料计算方法直接法变量值个数不多。频数表法变量值个数较多,先整理频数表。二、离散趋势的描述含义离散趋势是指计量资料所有观察值偏离中心位置的程度,反映一组同质变量值相互之间参差不齐的程度,即离散度或变异度。常用指标全距、方差、标准差、变异系数。1、全距(range,R)又称极差,是一组变量值中最大值与最小值的差。优点计算简单缺点仅考虑了资料的最大值和最小值,不能反映组内其它数据的变异程度。2、百分位数(percentile)含义又是一个位置指标,用Xp%。它表示在按照升序排列的数列中,其左侧(即小于Xp%侧)的观察值个数在整个样本中所占百分比为p%,其右侧(即大于Xp%侧)的观察值个数在整个样本中所占百分比为(100-p)%计算式中:是百分位数,L是所在组段的下限,i是该组段的组距,fp是该组段的频数,n是总频数,∑fl是该组段以前的各组段的累计频数。)%(%LppfnpfiLX四分位数(quartile)四分位间距(quartilerange,Q)含义统计学将3个特殊的分位数X25%、X50%、X75%统称为四分位数。X25%:记为Q1,称作第一四分位数;X50%:记为Q2,称作第二四分位数;X75%:记为Q3,称作第三四分位数;并且将与差值称为四分位间距(quartilerange,Q)计算Q=Q3﹣Q13、方差(variance)用σ2和s2表示。离均差的和离均差的平方和方差方差反映变量值变异程度的大小,方差越大,说明变量值的变异程度越大;方差越小,说明变异程度越小。优点全面考虑了一组变量值中的每一个数据。缺点将变量值的单位进行了平方。4、标准差(standarddeviation,SD)用σ和s表示。计算方法•直接法•加权法标准差反映变量值变异程度的大小,。标准差的应用•表示一组变量值变异程度标准差越大,说明变量值的变异程度越大,即变量值围绕均数的分布较离散,均数的代表性较差;标准差越小,表示变量值的变异程度越小,即变量值围绕均数的分布较密集,均数的代表性较好。•计算变异系数当两组变量值单位不同,或两均数相差较大时,不能直接用标准差比较其变异程度,需要用变异系数做比较。•估计变量值的频数分布•计算标准误5、变异系数(coefficientofvariation,CV)含义是一个度量相对离散程度的指标。计算例1:某地20岁男子身高均数为166.06cm,标准差为4.95cm,体重均数为53.72kg,标准差为4.96kg,试比较身高与体重的变异程度。例2:该地新生男婴的平均身高为50cm,标准差为3.0cm,试比较该地20岁男子与新生男婴的变异程度。例1:身高CV=4.95/166.06×100%=2.98%体重CV=4.96/53.72×100%=9.23%例2:新生儿CV=3/50×100%=6%第六章参数估计几种重要的连续性随机变量分布:正态分布标准正态分布t分布见P72第五章第四、五节正态分布(normaldistribution)一、正态分布的概念正态分布是一种连续性随机变量常见而重要的分布。二、正态分布的特征1、在直角坐标的横轴(X轴)上方呈钟型曲线,以X=μ为对称轴左右完全对称,但与X轴永不相交;2、在X=μ处有最大值;X越远离μ,曲线位置越低;3、取决于两个重要参数表示方式:μ:位置参数;σ:形状参数表示方式:N(μ,σ2)三、正态分布的面积规律正态分布曲线下面积分布规律μ±σ范围内的面积占正态分布曲线下总面积的68.27%,即有68.27%的变量值分布在此范围内;μ±1.96σ范围内的面积占正态分布曲线下总面积的95.00%,即有95.00%的变量值分布在此范围内;μ±2.58σ范围内的面积占正态分布曲线下总面积的99.00%,即有99.00%的变量值分布在此范围内;四、正态分布的应用估计医学正常值范围;•正常值范围的含义•正常值范围的计算公式x±us质量控制•x±2s上、下警戒值•x±3s上、下控制值表5常用的u界值表是其它许多统计方法的理论基础正常值范围(%)单侧双侧800.8421.282901.2821.645951.6451.96992.3262.576标准正态分布(standardnormaldistribution)正态分布是一个分布簇,对应于不同参数其位置和形状均不相同,为应用方便,可进行变量转换:式中的u值称为标准正态变量,其频数曲线图即为标准正态分布(u分布),一般的正态分布N(μ,σ2)即转化为标准正态分布N(0,1)。其面积分布可直接查表。Xut分布(t-distribution)一、t分布的概念由于样本均数服从总体均数为μ、总体标准差σ为的正态分布N(μ,σ2),因此可同样进行u变换(),将其转换为u分布N(0,12)。实际工作中,由于未知,用替代,则()不再服从标准正态分布,而服从t分布。XXXXSXSX1,/nnSXSXtXt分布(t-distribution)二、t分布的图形与特征1、t分布是一簇对称的、均数为0的单峰分布曲线;2、当自由度不同时,曲线的形状不同;3、越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;随着增大,t分布曲线越来越接近于标准正态分布曲线,当→∞时,t分布逼近标准正态分布。三、t分布的界值第一节抽样分布与抽样误差一、样本均数的抽样分布与抽样误差抽样误差的概念由抽样而引起的样本均数与总体均数之间的差别。(抽样研究中不可避免,有两种表现形式)样本均数的抽样分布从一个正态的总体中进行随机抽样:各样本均数未必等于总体均数;各样本均数间存在差异;样本均数的频数分布仍是以总体均数为中心的正态分布;样本均数的变异范围较原变量的变异范围小;随着样本量的增大,样本均数的变异范围逐渐缩小。标准误的意义及其计算含义样本均数的标准差即标准误。它表示样本均数间的离散程度,标准误越小,说明抽样误差越小,表示样本均数与总体均数较接近。反之,标准误越大,说明抽样误差大,表示样本均数距总体均数较远。影响抽样误差的因素样本含量总体内各个体间的离散程度即变异程度计算公式nXnsSX以上表明:1、从正态分布N(μ,σ2)的总体中随机抽取样本量为n的样本,其样本均数因样本而异,但服从正态分布N(μ,σ2/n)。即样本均数的总体均数与观察值X的总体均数相同,样本均数的标准差是观察值X的标准差的。2、在非正态分布总体中进行类似抽样,如样本量较大时(如n≥30),样本均数的分布接近正态分布,标准误仍然是X的标准差的倍。n/1n/1标准误的应用表示抽样误差的大小,说明样本均数的可靠性用以估计总体均数的可信区间应用标准误进行均数的假设检验第二节总体均数的估计样本均数推论总体均数的方法两种方法:点值估计与区间估计一、点值估计1、含义2、优缺点二、区间估计1、可信区间的含义2、可信区间的计算样本含量较
本文标题:计量资料的统计分析
链接地址:https://www.777doc.com/doc-2062087 .html