您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 九章1节-计量统计描述
第九章数值变量资料的统计分析第一节数值变量资料的统计描述对数值变量资料进行统计分析的一般步骤,是先对观察测量得到的变量值(即观察值)进行统计描述,再在此基础上进行深入的统计推断。统计描述的工作主要是在编制频数表的基础上描述资料的集中位置和离散程度。一、数值变量资料的频数分布二、平均水平指标三、离散程度指标一、数值变量资料的频数分布频数分布表:频数:不同组别内的观察值个数称为频数,表示观察值在各组内出现的频繁程度频数表:将分组标志和相应的频数列成表格,即为频数分布表,简称频数表频数分布图:根据频数分布表可以绘制频数分布图(一)编制频数分布表和绘制频数分布图6.005.283.905.304.203.905.605.664.104.004.503.774.344.304.225.305.133.794.805.204.702.945.904.502.105.605.902.854.904.225.633.214.663.005.963.453.504.233.903.884.244.434.882.483.403.263.213.602.734.154.604.354.965.615.875.014.335.744.873.963.003.933.155.003.443.502.854.874.603.404.793.026.234.982.895.826.305.205.403.002.804.434.505.526.404.865.904.703.474.664.785.702.664.103.705.403.704.374.206.104.805.105.552.975.113.263.046.015.074.225.395.344.473.585.264.544.073.833.976.054.022.692.525.216.554.284.455.154.455.373.803.734.492.442.763.333.016.433.552.63表9-1某地140名健康成年男性血清尿素氮浓度(mmol/L)频数表的编制步骤1、求全距:R=6.55-2.10=4.45(mmol/L)2、按全距的大小决定组数,组段和组段。习惯上分10~15组,组距i=R/10=4.45/10=0.445将i取整,i=0.4(mmol/L)划分组段:第一组段(2.00~)包含最小值。最后一个组段(6.40~6.80)包含最大值。除最后一个组段外,其余各组段均不标出上限。Min=2.10Max=6.553、列表划记:统计各组段内的数据频数得出表的“频数”栏,该表称之为频数表。尿素氮浓度划记频数累计频数频率(%)累计频率(%)2.00~┳221.431.432.40~正┳795.006.432.80~正正13229.2915.713.20~正正143610.0025.713.60~正正正155110.7136.434.00~正正正197013.5750.004.40~正正正188812.8662.864.80~正正正-1610411.4374.295.20~正正1411810.0084.295.60~正正131319.2993.576.00~正-61374.2897.866.40~6.8031402.14100.00合计—140—100.00—表9-2140名健康成年男性血清尿素氮浓度(mmol/L)频数表频数分布图(直方图)图9-1140名健康成年男性血清BUN浓度频数分布图051015202.02.42.83.23.64.04.44.85.25.66.06.4BUN(mmol/l)频数(二)频数表和频数分布图用途1.揭示频数的分布特征。2.揭示频数的分布类型。3.便于发现可疑值。4.便于进一步计算统计指标和进行统计分析。(1)、集中趋势:频数向中央部分集中。(2)、离散趋势:从中央部分到两侧频数分布逐渐减少。2.描述频数分布的类型(1)对称分布:若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布图2.1150名未接触男性尿酸频数分布051015202530270.0285.0300.0315.0330.0345.0360.0375.0390.0405.0尿酸(umol/l)频数(2)偏峰分布:1)正偏峰分布(skewedpositivedistribution):频数分布的高峰向左偏移,右侧的组段数多于左侧的组段数,频数向右侧拖尾血清转氨酶(mmol/L)051015202513.519.525.531.537.543.5.图2-2115名正常成年女子血清转氨酶的频数分布人数2)负偏峰分布(negativeskewnessdistribution):频数分布的高峰向右偏移,左侧的组段数多于右侧的组段数,频数向左侧拖尾血清肌红蛋白(μg/mL)05101520252.512.522.532.542.552.5图2-3101名正常人血清肌红蛋白的频数分布人数对称分布:集中位置居中频数分布正偏峰偏峰分布负偏峰频数分布的类型3.便于发现一些特大或特小的可疑值组段频数f(1)(2)2.30~12.60~02.90~03.20~03.50~173.80~204.10~174.40~124.70~95.00~55.30~25.60~5.901合计1014.便于进一步计算统计指标和进行统计处理二、计量资料集中趋势的描述平均数(average):是一类描述数据分布集中趋势或平均水平的统计指标。平均水平指标常用的描述指标:一、算术均数(arithmeticmean),二、几何均数(geometricmean)G三、中位数(median)MX平均数(一)、算术均数算术均数简称均数(mean),描述一组同质资料的平均水平。总体均数:样本均数:应用适用于对称分布,特别是正态分布资料。计算方法(1)直接计算法:适用于观察单位较少时公式:12nXXXXXnn式中12,,,nXXX为所有观察值,n为样本含量,(希腊字母,读作sigma)为求和的符号。例:有8名正常成年女子的血清甘油三酯(mmol/L)的测定值分别为1.34,0.96,1.11,1.52,1.12,0.91,1.33,1.24,求其算术均数。)( Lmmolx/191.18/)24.196.034.1((2)加权法:频数表资料公式:iiinnnfxffffXfXfXfX212211组段频数(fi)组中值(xi)fixifixi22.00~22.204.409.682.40~72.6018.2047.322.80~133.0039.00117.003.20~143.4047.60161.843.60~153.8057.00216.604.00~194.2079.80335.164.40~184.6082.80380.884.80~165.0080.00400.005.20~145.4075.60408.245.60~135.8075.40437.326.00~66.2037.20230.646.40~6.8036.6019.80130.68合计140(∑fi)-616.80(∑fixi)2875.36(∑fixi2)140名成年男子的BUN浓度(mmol/L)均数与标准差计算用表(2)加权法(适用于大样本,频数表资料)iiinnnfxffffXfXfXfX212211)/(41.414080.616Lmmolx(二)、几何均数(geometricmean,G)适用于等比资料或对数正态分布资料,如血清抗体滴度、细菌计数等。(二)、几何均数(geometricmean,G)计算方法1.直接法:适用于样本量较小的计量资料。或例9-3有8份血清的某种抗体效价分别为1:200、1:25、1:400、1:800、1:50、1:100、1:50、1:25,求平均抗体效价。将各抗体效价取倒数,代入公式9-31002lg816lg825lg50lg100lg50lg800lg400lg25lg200lglg111G这8份血清的抗体平均效价为1:1002.加权法:适用于样本量较大的计量资料,如频数表资料。1lglg()fXGf例9-4某地对112名儿童接种某种疫苗一个月后,测定了各儿童血清抗体的滴度,结果如表9-4第(1)、(2)栏,试求平均滴度。表9-4某地112名儿童接种疫苗后血清抗体滴度的计算表抗体滴度人数f滴度倒数XlgXlgfX⑴⑵⑶⑷⑸1:41:81:161:321:641:1281:2561:512131532431152481632641282565120.60210.90311.20411.50511.80622.10722.40822.70930.60212.709318.061548.163277.666623.179212.04105.4186合计112——187.841555.471128415.187lg1G112名儿童接种疫苗后血清抗体滴度为1:48(二)几何均数的应用注意事项1.几何均数常用于等比资料或对数正态分布资料,如血清抗体滴度、细菌计数等。2.观察值中不能有0。3.观察值一般不能同时有正值和负值。若全是负值,计算时可先将负号去掉,得出结果后再加上负号。(三)、中位数(M)与百分位数1、M:是指将一组观察值从小到大排列,位次居中的观察值就是中位数。小大M计算公式:n为奇数时n为偶数时1()2nMX()(1)2212nnMXX例9-58名患者食物中毒的潜伏期分别为1,2,3,3,4,5,8,16小时,求其中位数。本例n=8,为偶数,小时5.3432121215412828XXXXM该8名食物中毒患者潜伏期的中位数为3.5小时例9-6某传染病11名患者的潜伏期(天)分别为1、2、2、3、3、4、5、6、7、7、9,求中位数。本例n=11,为奇数,天462/1XXMn该11名传染病患者潜伏期的中位数为4天中位数的应用注意事项1.中位数可用于各种分布的资料。2.中位数不受极端值的影响,因此,实际工作中主要用于:(1)偏峰分布资料(2)端点无确切值的资料(3)分布不明确的资料2.百分位数定义:百分位数(percentile)是指将观察值从小到大排列后处于第x百分位置上的数值。用符号表示为,它是个位置指标。计算公式:PXX%(100-X)%50PM308名6岁以下儿童的尿铅值中位数及百分位数的计算表P25=25+(25/54)×(308×25%-27)=48.15(mmol/L)尿铅值(mmol/L)(1)例数f(2)累计频数Σf(3)累计频率(%)(4)=(3)/n0~27278.7725~548126.3050~9517657.1475~5523175.00100~3927087.66125~2129194.48150~1230398.38175~5308100.00合计308(Σf)--求:P25、P50、P95三、计量资料离散趋势的描述三、离散趋势的指标(一)全距(二)四分位数间距(三)方差(四)标准差(五)变异系数盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500例:设甲、乙、丙三人,采某人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)420440460480500520540560580甲乙丙(一)全距(Range)minmaxXXR420440460480500520540560580优点:简便缺点:1.只利用了两个端点值2.n大,R也会大3.不稳定1204020(二)四分位数间距(quartilerange
本文标题:九章1节-计量统计描述
链接地址:https://www.777doc.com/doc-5215270 .html