您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 01第一章定量资料的统计描述2013(中英).
Thegreatendoflifeisnotknowledgebutaction.Theshortestwaytodomanythingsistodoonlyonethingatatime.1、统计工作的基本步骤:designcollectionsortinganalysis2、基本的概念:homogeneityandvariation、populationandsample、parameterandstatistic、samplingerror、variableandvariablevalue、probabilityandfrequencysmallprobabilityeventthesmallprobabilityprinciple3、资料类型quantitativedataqulititativedatarankeddatareview——分析资料(Dataanalysis)统计指标统计描述分布统计图表统计分析参数估计统计推断假设检验Statist-icalanalys-isStatisticicaldescriptionStatisticalinferenceIndexesParameterestimationHypothesistestingIntervalestimationPointestimationOnesampleTwosamplestableandChartMultisamples第一章定量资料的统计描述Chapter1DescriptionofquantitivedataForexample某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,资料如下:3293565328556745……65firstthinkabouttwoquestionswhattypedataisit?andhowtodescribethepopulation?第一节频数分布表section1frequencydistributiontable一、频数分布表离散型定量变量的频数分布表连续型定量变量的频数分布表二、频数分布表(图)的用途基本概念频数:不同组别观察单位的个数。频数分布表(frequencydistributiontable):将分组的标志和相应的频数列表。(简称为频数表)频率分布表(简称为频率表)一、频数分布表的编制Example1:某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,资料如下:32935653285565……65试编制完成次数的频数分布表。资料类型:离散型定量变量资料表12005年某市102名高中男生引体向上完成次数的频数分布完成次数频数频率%累计频数累计频率%232.9432.94376.86109.8041615.692625.4953332.355957.8462423.538381.3771413.739795.10843.9210199.02910.98102100.00合计102100.00频数分布图图12005年某市102名高中男生引体向上完成次数的频数分布0510152025303523456789资料类型:连续型定量变量资料Example2(page7)某年某市120名12岁健康男孩身高资料:142.3156.6142.7145.7138.2141.6………..154.0147.7152.3146.6139.2139.9试描述数据的分布-----频数分布表频数分布表的编制(5个步骤)(1)计算全距(极差,range)R=最大值-最小值(2)确定组数与组距(classinterval)组距i=全距/组数,(组中值)确定各组组段的上、下限(不能重叠)第一组组段包括最小值最后一组组段包括最大值(3)划分组段每个组段的起点称组下限,终点称组上限。最后一个组段应包括最大变量值。(4)统计频数(5)频率与累计频率频数(率)分布表表1-2某年某市120名12岁健康男孩身高(cm)的频数分布身高组段频数频率(%)累计频数累计频率(%)(1)(2)(3)(4)(5)125~10.8310.83129~43.3354.17133~108.341512.50137~2722.504235.00141~3529.177764.17145~2722.5010486.67149~119.1711595.83153~43.3311999.17157~16110.83120100.00合计120100.00──频数分布图(直方图histogram)图2-1某年某市120名12岁健康男孩身高(cm)的频数分布0510152025303540125~129~133~137~141~145~149~153~157~161﹡偏态分布正偏态分布表238名正常人发汞值(μg/g)发汞值频数累计频数累计频率(%)(1)(2)(3)(4)=(3)/2380.3~20208.40.7~668636.11.1~6014661.31.5~4819481.51.9~1821289.12.3~1622895.82.7~623498.33.1~123598.73.5~023598.73.9~3238100.0图x238名正常人发汞值(μg/g)0102030405060700.3~0.7~1.1~1.5~1.9~2.3~2.7~3.1~3.5~3.9~负偏态分布(应在右侧画上图)表某地某年恶性肿瘤死亡数年龄组(岁)死亡人数累计频数累计频率(%)0~550.4210~12171.4120~15322.6630~761088.9840~18929724.6950~23453144.1460~38691776.2370~2861203100.00二、频数分布表(图)的用途(1)揭示资料的分布类型;(2)描述分布的集中趋势和离散趋势;(3)便于发现某些特大和特小的可疑值;(4)便于进一步计算指标和统计分析。第二节集中趋势的描述Section2descriptionofcentraltendency均数常用平均数几何均数中位数另外不常用的有:众数,调和平均数和调整均数等。平均数(average)常用于描述一组变量值的集中趋势,是反映同质资料的平均水平或集中位置的特征值。一、算术均数arithmeticmean简称均数(mean)1、表示符号:populationmeanμsamplemean2、适用条件:对称分布,尤其是正态、近似正态分布资料3、计算方法:直接法加权法(频数表)X表1-4某年某市120名12岁健康男孩身高(cm)的频数分布身高组段组中值频数频率(%)(1)(2)(3)(4)125~12710.83129~13143.33133~135108.34137~1392722.50141~1433529.17145~1472722.50149~151119.17153~15543.33157~16115910.83合计-120100.004、均数的应用(1)均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本资料进行比较;(2)均数适用于单峰对称分布资料,特别是正态分布或近似正态分布资料,不适于偏态分布;(3)0)(XXi二、几何均数(geometricmean)1、表示符号:G2、适用条件:成等比关系的数据,正偏态分布,以上资料一般呈对数正态分布资料3、计算方法:直接法频数表法(又称加权法)抗体滴度滴度倒数XlgX频数f1:220.301041:440.602171:880.9031151:16161.2041201:32321.5051161:64641.806271:1281282.10723表xxxx抗体滴度频数分布表0510152025020406080100120140滴度倒数频数051015202500.511.522.5lgXf几何均数——直接法例1-46人的血清滴度为1:2,1:4,1:8,1:16,1:32,1:64。求平均滴度。31.11664132116181412121nXXXGn将原始数据取对数,然后利用下面公式求平均滴度。nxGlglg1几何均数——加权法表1-5儿童麻疹疫苗接种后血凝抑制抗体滴度几何均数计算表抗体滴度滴度倒数xlgx频数fflgx1:440.602121.20421:880.903165.41861:16161.204178.42871:32321.505134.51531:64641.8062916.25581:1281282.10721225.28641:2562562.4082614.44921:5125122.7093513.5465合计——5084.1047计算结果如下:1047.89lgxf55.60107821.1lg501047.89lglglg7821.1111nxfG3、几何均数的应用几何均数常用于变量值间呈倍数关系的偏态分布资料,特别是变量经过对数变换后呈正态分布或近似正态分布的资料。注意:(1)不能有0,若有,加一常数(2)同时有正负值,加一常数1、定义:将一组变量值从小到大或从大到小按顺序排列,位次居中的变量值称为中位数(median),表示符号:M。2、计算方法:直接法频数表法三、中位数(median)中位数——直接法例1-6某病患者7人的潜伏期(天)分别为5,6,6,7,9,10,20,求中位数。)(偶数)((奇数)2122121nnnXXMXM中位数——(组中值、频数表法)表1-6145例食物中毒病人潜伏期分布表潜伏期组中值频数f累计频数累计频率(%)0~3171711.76~9466343.412~153810169.618~213213391.724~27613995.930~33013995.936~39414398.642~452145100.0)%50(LmmfnfiLM中位数——频数表法表1-6145例食物中毒病人潜伏期分布表潜伏期组中值频数f累计频数累计频率(%)0~3171711.76~9466343.412~153810169.618~213213391.724~27613995.930~33013995.936~39414398.642~452145100.0中位数——频数表法(小时))5.1363%50145(38612)%50(LmmfnfiLM偏态分布资料特别是变量值分布一端或两端无确定数值分布不明资料变量值中出现个别特小或特大的数值3、中位数的应用(1)中位数不受极端值的影响;(2)可用于各种分布资料,百分位数——频数表法)%(LXXXfXnfiLP百分位数的使用条件同中位数一样。主要用途为:①描述一组资料在某百分位置上的水平;②用于确定正常值范围;③计算四分位数间距。四、众数(mode)表示符号:Mo,定义:出现次数最多的数值。例如:数据较少时2453841468频数分布表众数——(频数表法)表x219名乳腺癌患者康复期生存质量评分组段组中值频数累计频数累计频率%0~15220.9130~35241.8340~45373.2050~5511188.2260~65304821.9270~756311150.6880~856017178.0890~1009548219100.00小结:集中趋势的描述均数常用平均数几何均数中位数记住:计算公式、应用条件常用平均数(average)反映同质资料的平均水平或集中位置的特征值。GroupA:88910111212GroupB:56810121415GroupC:12510151819example三组的平均数都是10,但极差,A组=12-8=4,B组=15-5=10,C组=19-1=18为了说明数据的分布不仅要有集中指标,而且还要用离散指标,必须两者结合。全距(极差)常用变异指标方差与标准差变异系数四分位数间距第三节离散趋势的描述Sect
本文标题:01第一章定量资料的统计描述2013(中英).
链接地址:https://www.777doc.com/doc-3048557 .html