您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 第2章定量资料的统计描述.
2019/12/201卫生统计学第二章定量资料的统计描述2019/12/202把握资料的基本特征为统计分析打下基础统计表描述性统计量统计图统计描述----从资料中获取信息最基本的方法2019/12/203第一节频率分布表与频率分布图频数分布表(frequencydistributiontable),又称频数表一、离散型定量变量的频率分布例2-11998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,72019/12/204表2-11998年某地96名妇女产前检查次数的频率分布检查次数频数频率(%)累计频数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.551212.596100.0合计961002019/12/205直条图(barchart)横坐标:产前检查次数;纵坐标:频率,检查k次的妇女所占的比例(%)等宽矩形长条:高度为检查次数的频率图2-1某地96名妇女产前检查次率分布0510152025300123455产前检查次数频率(%)2019/12/206二、连续型定量变量的频率分布例2-2抽样调查某地120名18~35岁健康男性居民血清铁含量(μmol/L),数据如下:7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.522019/12/207表2-2120名正常成年男子血清铁含量(μmol/L)频数表组段频数频率累计频数累计频率(1)(2)(3)(4)(5)6~10.8310.838~32.5043.3310~65.00108.3312~86.671815.0014~1210.003025.0016~2016.675041.6718~2722.507764.1720~1815.009579.1722~1210.0010789.1724~86.6711595.8326~43.3311999.1728~3010.83120100.00合计1201002019/12/208手工编制的步骤:(1)找出最小值=7.42最大值=29.64(2)计算全距(range,R),又称极差R=最大值-最小值=29.64-7.42=22.22(3)确定组段数与组距组段数一般在10~15之间(本例拟取10个组段)下限:组段的左端点上限:右端点组距=R/(预计的组段数)----以相等为宜本例组距22.22/10=2.22(4)列表2019/12/209直方图(频率直方图)横轴:血清铁含量纵轴:频率密度=频率/组距面积=频率注:组距相等时,矩形直条的高度与相应组段的频率成正比。2019/12/2010图2-2120例健康成年男子血清铁含量分布单峰、对称-----对称分布0246810127911131517192123252729血清铁(μmol/L)频率密度(%)2019/12/20110.020.040.060.080.012345678发汞含量(mol/kg)频率密度图2-3某地居民238人发汞含量(μmol/kg)分布单峰,不对称-----偏峰分布正偏峰分布:峰偏向左侧,数轴的正向有尾负偏峰分布:峰偏向右侧,数轴的负向有尾2019/12/2012第二节定量变量的统计指标定量地描述集中趋势与离散趋势是统计描述的重要内容一、描述集中趋势的统计指标对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和中位数。2019/12/20131.算术均数简称均数(mean),适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为nXXXXn...21nXnXnXiinii1n:样本含量X1,X2,…,Xn:观察值或:观察值之和iiXX例2-3测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。按式(2-1),算术均数为9075.3)38.342.504.426.245.308.243.620.4(81X2019/12/2014频数表基础上近似计算(样本量较大时)nfXffXX00组中值的加权平均:组段的频数:组段的中值=(组段上限+组段下限)/2f0X2019/12/2015例2-4试应用加权法近似地计算例2-2资料的算术均数表2-3加权法计算均数组段组中值(0X)f0fX(1)(2)(3)(4)=(2)(3)6~7178~932710~1166612~13810414~151218016~172034018~192751320~211837822~231227624~25820026~27410828~3029129合计12022282019/12/20162.几何均数(geometricmean,G)适用于观察值变化范围跨越多个数量级的资料频数图一般呈正偏峰分布nnXXXG...21)log(log1nXG例2-57名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。6451212864643232167G)log(log1nXG.648062.1lg7512lg128lg64lg64lg32lg32lg16lglg112019/12/2017频数表资料,可用加权法计算几何均数nXffXfG0101loglgloglog表2-452例慢性肝炎患者的HBsAg滴度资料抗体滴度频数(f)滴度倒数(X)lgXf(lgX)1:162161.204122.408241:327321.5051510.536051:6411641.8061819.867981:128131282.1072127.393731:256122562.4082428.898881:51275122.7092718.96489合计52108.0697774705.1195206977.108lg1G2019/12/20183.中位数(median,M)可用于各种分布的定量资料总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。基于样本资料将n例数据按升序排列,第i个数据记为n为奇数时n为偶数时例2-7某药厂观察9只小鼠口服高山红景天醇提取物(RSAE)后在乏氧条件下的生存时间(分钟)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.6,69.0。试求其中位数。*iX*21nXM)(21*12*2nnXXM6.63*5*21XXMn2019/12/2019组段频数频率累计频数累计频率(1)(2)(3)(4)(5)6~10.8310.838~32.5043.3310~65.00108.3312~86.671815.0014~1210.003025.0016~182016.675041.6718~202722.507764.1720~1815.009579.1722~1210.0010789.1724~86.6711595.8326~43.3311999.1728~3010.83120100.00合计120100频率50Lf60%50n77ffL区间18L??1850P20iL74.0507750602%50?ffniL2019/12/2020百分位数(percentile)总体中,数值小于它的个体恰有X%,大于它的个体恰有1-X%样本估计:按照升序排列的数列里,其左侧(即小于它)的个体数在整个样本中所占百分比为X%。XP2019/12/2021频率Lf%XnffL区间L??LPXiLffXniL%?ffXniLPLX%2019/12/20224.众数(mode)总体中出现机会最高的数值。样本估计:在样本中出现次数最多的数值。例2-11998年某山区96名孕妇产前检查次数资料:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7众数为4(次)2019/12/2023二、描述离散趋势的统计指标同一总体中不同个体之间的离散趋势又称为变异(variation)。例2-11试观察三组数据的离散状况。(均数都是30)A组:26,28,30,32,34B组:24,27,30,33,36C组:26,29,30,31,342019/12/20241.极差(range,R)R=最大值-最小值计算简便,但仅利用了两个数据的信息一般,样本量n越大R也往往会越大,不够稳定例2-12计算上述三组数据的极差A组R=34-26=8B组R=36-24=12C组R=34-26=82019/12/20252.四分位数间距(quartilerange,Q)Q=P75-P25P25与P75之间恰好包含50%的个体四分位数间距Q是总体中数值居中的50%个体散布的范围Q越大意味着数据间变异越大2019/12/2026组段频数频率累计频数累计频率(1)(2)(3)(4)(5)6~10.8310.838~32.5043.3310~65.00108.3312~86.671815.0014~1210.003025.0016~182016.675041.6718~202722.507764.1720~1815.009579.1722~1210.0010789.1724~86.6711595.8326~43.3311999.1728~3010.83120100.00合计120100)/,(1615100120251221425LolP)/;(44.2177100120751222075LmoP2019/12/20273.方差(variance)又称均方差(meansquaredeviation)NXNii122)(μ:总体均数N:总体中个体的总数分子:离均差平方和方差越大意味着数据间变异越大样本方差:或n-1称为自由度(degreesoffreedom):总体方差:1)(122nXXSnii1/)(222nnXXS2019/12/20284.标准差(standarddeviation,S)标准差是方差的算术平方根。标准差的量纲与原变量一致。标准差越大意味着个体间变异越大。标准差适合用来表达对称分布的离散趋势。2
本文标题:第2章定量资料的统计描述.
链接地址:https://www.777doc.com/doc-2154956 .html