您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 投融资/租赁 > 第二章定量数据的统计描述
2020/9/15医学统计学---(马斌荣主编)供本科生用第二章定量资料的统计描述第一节频数分布一、频数分布表简称频数表(frequencytable)例2-1从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇(mmol/L)的测量结果如下,试编制频数分布表。2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.502.704.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.803.414.123.955.084.533.923.585.353.843.603.514.063.073.554.233.574.833.523.844.503.964.503.274.523.194.593.753.984.134.263.633.875.713.304.734.175.133.784.573.803.933.783.994.484.284.065.265.253.985.033.513.863.023.704.333.293.254.154.364.953.003.26试编制频数分布表。1、频数表的编制找全距(range)定组距(classinterval):一般分为10~15组,如组距约为全距/10写组段:每个组段的起点称为下限,lowerlimit;每个组段的终点称为上限,upperlimit;下限≤X上限频数表的编制--续1.计算极差:极大值-极小值5.71-2.35=3.362.组数:10组距3.36/10=0.336取0.33.分组段:最小组段2.3~最大组段5.6~5.94.列表划记:101名正常成年女子的血清总胆固醇频数分布胆固醇组段频数2.30~12.60~32.90~63.20~83.50~173.80~204.10~174.40~124.70~95.00~55.30~5.60~5.9021二、频数分布图(graphoffrequencydistribution)以各组段总胆固醇含量为横轴,频数为纵轴。血清总胆固醇(mmol/L)6.055.454.854.253.653.052.45HistogramFrequency302520151050Std.Dev=.66Mean=4.03N=101.00SPSS中的操作:1.建立数据库2.使用Frequencies命令3.先使用Recode命令,再用Frequencies命令频数分布的类型对称分布:集中位置居中,左右两边对称偏态分布:正偏态分布(右偏态)峰左尾右负偏态分布(左偏态)正偏态分布对称分布负偏态分布三、频数表和频数分布图的用途揭示变量的分布特征和分布类型;便于进一步计算指标和统计分析处理;便于发现某些特大或特小的可疑值。频数分布的两个特征集中趋势,centraltendency指变量值的中心数值或中心位置所在。离散趋势,tendencyofdispersion指变量值围绕中心数值或中心位置的分布情况。第二节集中趋势的描述平均数(average):用于观察一组同质变量值的平均水平/集中位置。亦称中心位置指标。它不但给人一个简明概括的印象,而且便于事物间的分析比较。常用的平均数算术均数(arithmeticmean/mean)几何均数(geometricmean)中位数(median)一、算术均数,简称均数(arithmeticmean/mean)均数是算术均数的简称。总体均数用希腊字母μ(缪,mu)表示样本均数(Xbar)表示。均数反映一组观察值在数量上的平均水平。X均数的应用主要用于对称性或近似对称性分布的资料;尤其是在正态分布或近似正态分布上的应用。计算方法1.直接法nXnXnXXX...21Σ:希腊字母(西格马,sigma),求和符号例9.2有8名正常人的空腹血糖值(mmol/L):6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.98.589.58.50.61.63.57.54.52.6X2.频数表法(加权法)组段频数f组中值XfXfX22.30~12.452.456.002.60~32.758.2522.692.90~63.0518.3055.823.20~83.3526.8089.783.50~173.6562.05226.483.80~203.9579.00312.054.10~174.2572.25307.064.40~124.5554.60248.434.70~94.8543.65211.705.00~55.1525.75132.615.30~25.4510.9059.415.60~5.9015.755.7533.06合计101——409.751705.09频数表计算均数:Xj为各组的组中值。组中值等于该组的上限加下限之和除以2。fj为各组的频数。101名正常成年女子的血清总胆固醇均值为:=409.75/101=4.06(mmol/L)XnfxnxfxfxfXkk...2211补充:均数的两个重要特征(1)离均差之和为零0:XXnXnXnXXXX证0XX均数的两个重要特征(2)离均差平方和为最小22222222222222ΔXa:,XXXXXXXXXXXXXXXXaXXaaXXX设证为最小2XX(二)几何均数Geometricmean,G反映一组呈倍数关系的观察值的平均水平适用:数据呈正偏态分布,经对数转换后呈正态分布。多用于观察值之间呈倍数关系,如抗体滴度计算方法直接法加权法1.直接法nlgXlgnlgX...lgXlgXlg..X.XXG1n111nn21例:有8份血清的抗体效价为为1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640。求平均效价。用直接法计算G57.567526.1lg7526.18640320160lg80lg40lg20lg10lg5lglg1GG将各效价的倒数代入公式,得该8份血清的平均抗体效价为1:56.57,近似为1:57注意:变量值不能有02.频数表法flgXflgG1式中f为频数。用频数表法计算G例30名麻疹易感儿童接种麻疹疫苗一个月后,血凝抑制抗体滴度如下表所示,试求其平均抗体滴度。30名麻疹易感儿童血凝抑制抗体滴度抗体滴度人数f滴度倒数XlgXflgX1:8280.90311.80621:166161.20417.22461:325321.50517.52551:6410641.806118.06201:12841282.10728.42881:25622562.40824.81641:51215122.70932.7093合计30∑flgX=50.58flgXflgG15.483058.50lg1flgXflgG130名麻疹易感儿童接种麻疹疫苗一个月后血凝抑制抗体滴度为1:48.5同一组资料求得的几何均数小于均数。(三)中位数Median,M21nXM2122nnXXM将一组观察值从小到大按顺序排列,位次居中的观察值,即为中位数。一半的值比M小,一半的值比M大。例:1,3,5,7,18(奇数)1,3,5,7,18,20(偶数)计算n为奇数时n为偶数时M计算方法例:9人某病潜伏期(天)分别为3,4,4,5,6,7,7,19,19,求中位数。例:6名新生儿身长(cm)分别为50.1,52.0,53.0,55.0,55.0,56.0,求中位数。)(6521dayXXMn)(542/)0.550.53(2/)(243122cmXXXXMnn中位数的应用中位数可用于任何分布的定量资料;资料的分布呈明显偏态,特别是负偏态;分布的一端或两端无确定的数值;(如:50,或10)资料的分布不清。注意:在完全对称的单峰曲线分布中,同一组资料的均数与中位数相同,Mean=Median中位数的优缺点优点:不受个别特大或特小的观察值影响;其它平均数不宜使用时,中位数就显示出它的优越性。缺点:掉失了大量信息,其敏感性不够。百分位数(Percentile,Px)百分位数位置指标;界值;分布数列的百等份分割值。有x%的比Px小,有(100-x)%的比Px大。中位数是一个特定的百分位数P50。百分位数的计算fX为PX所在组段的频数,i为该组段的组距,L为该组段的下限,fL为小于L各组段的累计频数。Lxxfx%nfiLP某传染性疾病的潜伏期(天)如下表,求其中位数和百分位数P95潜伏期(天)人数f累计频数∑f累计频率%4~262624.048~487468.5212~259991.6716~610597.2220~3108100.00)(3.10265.01084848%天LfxnfiLM)(4.189995.01086416%95天LfxnfiLP百分位数的应用描述一组观察值在某百分位置上的水平。用于确定医学正常值范围。用一组百分位数描述一组观察值的变异度,如四分位数。应用平均数时的注意事项同质的变量值才能求平均数;根据资料的分布特点,选用适应的平均数指标。平均水平SPSS统计描述命令AnalyzeDescriptiveStatisticsFrequenciesDescriptives注意:频数表资料要用weight命令使用频数表资料时SPSS操作中应注意的事项频数表资料要用weight命令;进行数据输入时要使用组中值;并且在Frequencies命令中要选择Valuesaregroupmidpoints:根据分组资料计算百分位数。SPSS操作求几何均数时有三种方法:1.是先计算对数的均数,然后求其反对数,得出几何均数;2.直接用ReportCaseSummaries命令;3.用CompareMeans命令,但要个增加分组变量。第三节变异程度的统计指标例有3组同龄男孩体重(kg)如下,其体重均数都是30(kg),试分析离散程度。甲组2628303234乙组2427303336丙组2629303134X离散程度(或变异程度)指数据参差不齐的程度,反映资料的离散趋势。将反映平均水平与离散程度的指标结合起来使用,可全面地描述数据的分布规律。一、全距(或极差,Range)全距=最大值–最小值优点:简单明了缺点:不能反映组内其他数据的变异,样本含量相差较大时,不宜用极差比较分布的离散程度。二、四分位数间距(inter-quartilerange)百分位数:指把数据从小到大排列后处于第X百分位置的数值。它将全部数据分为两部分,在不包括PX的全部数据中有X%数据小于PX,有1-X%的数据大于PX%。中位数是一个特定的百分位数P50。四分位数:下四分位数P25;上四分位数P75P0——P25——P50——P75——P100四分位数间距:P75-P25或QU-QL比极差稳定,但仍未考虑每个数据的大小。常和中位数结合使用描述数据的分布规律。三、离均差平方和(sunofsquare)、方差(variance)和标准差(standarddeviation)2X-XSS平均偏差
本文标题:第二章定量数据的统计描述
链接地址:https://www.777doc.com/doc-6950737 .html