您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 统计学第2章数据的描述.
第2章统计数据的描述2.1数据的整理是统计调查的继续,统计分析的前提和基础将统计调查得到的数据进行加工整理,使其系统化、条理化,符合分析的需要。统计数据的预处理统计分组制作统计表或统计图统计整理的步骤2.1.1统计数据的分组1、统计分组含义按某个标志把总体划分为若干组,称为统计分组。分组标志是划分数据的标准或依据分组的性质来:兼有分和合双重含义。2、统计分组的原则穷尽原则互斥原则3、统计分组方法品质标志分组数量标志分组品质分组品质标志:性别、职业、所有制等。分组标志一经确定,组名和组数也随之确定品质分组所形成的数列称为品质数列如不同品牌饮料市场占有率饮料品牌人数百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119693022181218合计50100数量标志分组首先,各组数量界限的确定必须能反映事物质的差别。其次,应根据总体的数量特征,采用适当的分组形式。数量标志:年龄、产量、利润等。变量(数量标志)分组单变量值分组组距分组单变量值分组(要点)1.将一个变量值作为一组2.适合于变量值较少的离散变量组距分组(要点)1.将变量值的一个区间作为一组2.适合于连续变量和变量值较多的离散变量。3.需要遵循“不重不漏”的原则4.有等距分组和不等距分组~~~~~组距分组(几个概念)1.下限(lowlimit):2.上限(upperlimit):3.组距(classwidth):4.组中值(classmidpoint):开口组的组距:以相邻组的组距代替。常以组中值来代表各组平均水平。组距分组(步骤)1.确定组数:斯特杰斯经验公式:组数=1+3.3LgN2.确定组距:(ClassWidth)组距=(最大值-最小值)÷组数3.统计出各组的频数并整理成频数分布表2.1.2次数分配P17在分组的基础上,将所有单位归类并列出每一组的次数,称为次数分布或频数分布。次数分布数列的两个要素1)按某标志所分的组。2)各组所出现的单位数,即频数,亦称次数。一般用x表示变量;用f表示频数(次数)。2.1.3次数分配图Excel分组数据—直方图和折线图用直方形的宽度和高度来表示次数分布的图形。绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标在左方)和比率(或频率,一般标在右方)。分组数据的图示140150210直方图下的面积之和等于1某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240折线图:折线图可以在直方图的基础上,用折线将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成分组数据的图示(折线图的绘制)折线图与直方图下的面积相等!140150210某电脑公司销售量分布的折线图190200180160170220230240频数(天)25201510530曲线图:用平滑曲线连接各组次数坐标点即得分布曲线。频数分布的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布几种常见的频数分布2.1.4洛伦茨曲线与基尼系数洛伦茨曲线1.20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家巴雷特(V.Pareto)提出的收入分配公式绘制而成2.描述收入和财富分配性质的曲线3.分析该国家或地区分配的平均程度AB累积的人口百分比累积的收入百分比绝对公平线基尼系数1.20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡收入分配平均程度的指标2.A表示实际收入曲线与绝对平均线之间的面积3.B表示实际收入曲线与绝对不平均线之间的面积AB=AAB基尼系数•如果A=0,则基尼系数=0,表示收入绝对平均•如果B=0,则基尼系数=1,表示收入绝对不平均•基尼系数在0和1之间取值•一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。2.2集中趋势的测度一.众数二.中位数和分位数三.均值四.众数、中位数和均值的比较集中趋势(centraltendency)1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值2.2.1众数(mode)1.集中趋势的测度值之一2.出现次数最多的变量值3.不受极端值的影响4.可能没有众数或有几个众数众数(不唯一性)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:2528283642421、由单项数列求众数某车间工人日产情日产量(件)人数(人)11501260139014251515合计2402.由组距数列计算•首先确定次数最多的组,即众数组,然后,用公式计算。dLM2110dUM2120下限公式:上限公式:2.2.2中位数(median)1.排序后处于中间位置上的值Me50%50%2.不受极端值的影响1、由未分组资料计算中位数件)(5.122)1312(Me设有六个工人的日产量(件)依次排列为10、11、12,13、14、15、则:中位数位次=(n+1)/2=6+1/2=3.5(1)由单项数列求中位数2、由分组资料计算中位数:例10:某生产车间120名工人生产某种零件的日产量如下表所示,计算该车间工人日产量的中位数。按日产量分组(件)工人数(人)累计次数(向上)20222426303233101225301815101022477795110120合计120—fmmfLMes122.由组距数列求中位数,下限公式:L为中位数所在组下限sm1为中位数所在组以前各组的累计次数fm为中位数所在组的次数从某单位抽查800户,取得人均收入资料如下表,计算该单位人均收入的中位数。人均收入(元)户数(户)累计次数400-500500-600600-700700-800800-900900-10001000以上5451004301684210550150580748790800合计800——中位数位次=∑f/2=800/2=400,中位数组在700-800这一组中。由下限公式元)(14.75810043015040070012dfmSmfLMe中位数的性质:数据值与中位数之差的绝对值最小.2.2.3四分位数(quartile)1.排序后处于25%和75%位置上的值QLQMQU25%25%25%25%四分位数未分组数据:4)1(341nQnQUL位置位置2.2.4均值(mean)1.集中趋势的最常用的测度值简单算术平均数(simplemean)nxnxxxxniin121加权算术平均数(weightedmean)设一组数据为:x1,x2,…,xn相应的频数为:f1,f2,…,fkniikiiikkkffxffffxfxfxx11212211(例题分析)(件)67.10330311011kiikiiiffxxffxfxfx(权数对均值的影响)P34甲组:考试成绩(x):020100人数分布(f):118乙组:考试成绩(x):020100人数分布(f):811)(8210810012010分甲ffxx)(1210110012080分乙fxfx算术平均数(数学性质)1.各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小niixx12min)(niixx10)(调和平均数(harmonicmean)1.均值的另一种表现形式原来只是计算时使用了不同的数据!fxfxMMH调和平均数某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)X成交额(元)Xf成交量(公斤)f甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格(元)批发价格成交额成交额769.04800036900mH几何平均数(geometricmean)1.n个变量值乘积的n次方根2.适用于对比率数据的平均3.主要用于计算平均增长率nniinnmxxxxG121【例】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。%84.103%4.105%5.103%0.102%5.104421nnmxxxG平均收益率=103.84%-1=3.84%众数、中位数和均值的比较众数是分布最高峰的位置中位数从面积上将分布分成两等份均值由于受极端值的影响,偏向极端值。众数、中位数和均值的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值众数、中位数和均值的特点和应用1.众数不受极端值影响具有不唯一性数据分布偏斜程度较大时应用2.中位数不受极端值影响数据分布偏斜程度较大时应用3.平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用2.3分布离散程度的测度一、极差二、内距三、方差和标准差四、离散系数极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910R=max(xi)-min(xi)内距(Inter-QuartileRange,IQR)1.也称四分位差2.上四分位数与下四分位数之差内距=Q3–Q13.反映了中间50%数据的离散程度4.不受极端值的影响5.可用于衡量中位数的代表性方差和标准差方差和标准差(VarianceandStandarddeviation)1.离散程度最常用的测度值2.反映了各变量值与均值的平均差异总体方差和标准差(PopulationvarianceandStandarddeviation)未分组数据:组距分组数据:NxNii122)(NfMKiii122)(样本方差和标准差(simplevarianceandstandarddeviation)未分组数据:组距分组数据:1)(122nxxsnii1)(122nfxMskiii样本方差P34自由度(degreeoffreedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他离散系数离散系数(coefficientofvariation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较vxsvs某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度结论:计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577)(19.309)(25.53611万元万元sxv2=32.521523.09=0.710)(09.23)(5215.32
本文标题:统计学第2章数据的描述.
链接地址:https://www.777doc.com/doc-2064616 .html