您好,欢迎访问三七文档
当前位置:首页 > 建筑/环境 > 房地产 > 《统计学原理》第3章:统计整理
第三章统计整理学习目标•明确统计资料整理的涵义和作用•了解统计整理的内容和程序•掌握分布数列的编制方法第一节统计整理的一般问题统计整理的概念统计整理将统计调查得到的原始资料进行科学的分组和汇总,使其系统化、条理化,成为能够反映总体特征及其发展变化情况的综合统计资料的工作过程统计整理是统计调查的继续,统计分析的前提和基础统计整理的内容统计整理统计汇总统计分组就是在统计分组设计的基础上,根据各单位的标志归属,把总体各单位归纳到各组中,计算出各组和总体的单位数和标志值。逐级汇总集中汇总优点:满足各层次的需要缺点:费时费力优点:速度快层次少缺点:有错不易查找统计整理的程序1.设计和编制统计资料的汇总方案2.对原始资料进行审核3.对调查数据进行编码及录入4.分组汇总原始资料5.编制统计表和绘制统计图第二节统计汇总技术统计汇总的内容利用计算机进行统计汇总主要包括:审核、编码、录入、数据净化、逻辑检查运算以及编制和打印汇总表、统计图等。编码将调查表或调查问卷中的各个项目转化为数字符号的过程。编码事前编码事后编码适用封闭性问题适用开放性问题编码的常用方法又称系列编码法。只用一个标准对数据进行分类,并按照一定的顺序用连续数字或字母进行编码的方式。例如:根据某项对家庭月度消费支出的调查,对家庭月度消费支出分为四个档次:小于500元500元—1000元1000元—1500元1500元以上顺序编码法编码的常用方法又称区间编码法,是根据调查数据的属性特点和处理要求,将具有一定位数的代码单元分成若干个组,每个组的数字均代表一定的意义。例如:在某项关于社会公众保险意识调查中,对被调查者个人的基本情况进行了调查,运用分组编码法对有关信息编码如下:分组编码法性别居住地家庭人口数月收入水平回答编码编码编码编码回答回答回答男女12大城市中小城市县乡镇农村1234单身两人三口之家四人以上1234200以下200-300300-400……1000-1100010203…10编码的常用方法把调查数据分成不同的组,给以一定的组码(数字区间)来进行编码的方法.例如:对某地市场上99种商品的价格变动进行调查,在运用信息组吗编码法对调查的信息进行编码时,首先对99种商品分组,再给每个组分配一个组码:信息组码编码法组别百货组食品组家电组服装组其他组名称码01-3031-5051-6566-8081-99编码的常用方法又称助忆编码法,它用数字符号等表明编码对象的属性,并依次方式对调查数据进行编码的方法.例如:用180BXJ表示容量为180升的进口电冰箱.其中180为冰箱的容量,BX表示冰箱.J表示进口.表义式文字编码法编码手册的编制也称编码表,是用来进行数据编码的工作手册,包括四个项目:问题顺序号,每个调查项目的预置代码位置,项目名称,内容说明.1.您的职务?(1)正高级(2)副高级(3)中级(4)其他2.您的年龄_____________________3.您从事的专业__________________________4.您对自己工作情况的评价?(1)已充分发挥积极性(2)基本发挥了积极性(3)积极性有所发挥(4)完全没有发挥积极性5.目前,您是否有离开学校的想法?(1)是(2)否6.请您按投入精力的多少,将下列三项活动排序?(1)校内工作(2)校外兼职(3)生活琐事第一位____第二位____第三位_____案例:对某高等学校教师的工作,生活状况的调查,一共有32个问题,我们摘录6个问题,来说明编码手册的编制.问题序号项目名称编码位置编码意义1职务11.正高2.副高3.中级4.其他2年龄2-3答卷人回答年龄3从事专业4-6专业编码见附表4工作评价71.已充分发挥积极性2.基本发挥了积极性3.积极性有所发挥4.完全没有发挥积极性5是否打算离开学校81.是2.否6按投入精力排列9-111.校内工作2.校外兼职3.生活琐事录入数据录入就是将问卷或编码表中的每一个项目对应的代码读到磁盘中,或通过键盘直接敲入计算机中的工作过程。方式:程序录入光电扫描录入数据净化数据净化指通过计算机处理错误的或不合理的数据以及进行一致性检验。方式:统计软件:SPSS、SAS第三节统计汇总的质量控制•全面审核审核调查单位的全面性、审核调查项目的全面性•准确性审核逻辑审核、计算技术审核资料审核编码和录入的质量控制•编码工作的质量控制•录入工作的质量控制统计预处理缺省数据处理以样本统计量代替缺省值以统计模型计算的估计值代替缺省值缺省值样本删除缺省值样本保留通过对调查数据进行加权,使样本更具代表性。统计预处理加权处理•变量类型的转化•数学意义上的变量转化统计预处理原始数据或变量的转换第四节分布数列的编制次数分布次数分布:在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各单位在各组间的分布,就叫做次数分布。频数(次数):各组单位数。频率:各组单位数占与总体单位数的比率。表示各组标志值对总体标志值所起作用的强度1(2)10(1)111mimiiimiii)ff(ff次数分布的作用•反映统计总体内所有总体单位在各组间的分布。同类总体不同的分布状况差异反映了它们的性质差异。如各班成绩分布。•对某随机现象的重复观察,频率分布可以渐近反映其统计规律。分布数列分布数列:将各组组别的名称与相应的频数和频率,依次排列起来形成的数列称为次数分布数列。简称分布数列。又称分配数列,次数分配数列。作用:反映总体中所有单位在各组的分布状态和分布特征。各组名称(常用x表示)两个构成要素各组次数分布数列的构成要素绝对数也称频数,用f表示。相对数称为频率,用f/∑f表示。某地人口的性别分布按性别分组次数人数(人)比重(%)男女154349271461329751.3748.63合计30048224100.00学生的成绩分布按成绩分组次数学生数(人)比重(%)60以下60-7070-8080-9090以上2820155416403010合计50100f/∑ff/∑fff次数分布品质数列变量数列单项数列组距数列等距数列异距数列不连续组距数列连续组距数列由于分组是次数分布的基础,因此有怎样的分组就形成怎样的次数分布。综合上述各种分组类型,次数分布的类型,可归纳为:分布数列的种类按品质标志分组形成的分布数列称为属性分布数列,简称品质数列。按数量标志分组形成的分布数列称为变量分布数列,简称变量数列。某地人口的性别分布按性别分组次数人数(人)比重(%)男女154349271461329751.3748.63合计30048224100.00学生的成绩分布按成绩分组次数学生数(人)比重(%)60以下60-7070-8080-9090以上2820155416403010合计50100变量数列品质数列每个组值只用一个具体的变量值表现的数列同时具备变量是离散变量变量的不同取值个数较少编制条件:分布数列的种类单项数列【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。分布数列的种类单项数列—案例日产量(件)X工人数(人)f202122232425263564321合计24每个组的变量值用一个区间来表现的变量数列或者变量是连续变量总体单位数较多,变量不同取值个数也较多的离散变量编制条件:分布数列的种类组距数列指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限组限每组变量值变动区间的长度,为上下限之差组距每组变量取值范围的中点数值组中值2下限上限组中值分布数列的种类组距数列—相关概念某地区100个百货商店月销售额与流通费用情况销售额(万元)商店数(个)每百元商品销售额中支付的流通费(元)50以下50~100100~200200~300300以上102030251514.211.410.19.28.5上组限U下组限L组距d=U-L=100-50=50(万元)组中值x=(U+L)/2=(100+200)/2=150(万元)分布数列的种类组距数列变量值变动区间的长度相等变量值变动区间的长度不完全相等等距数列异距数列分布数列的种类变量数列适用于总体单位的标志值变动比较均匀的情况己知某地区某年50个商店商品销售额的资料如下(单位:百万元):7.412.629.02.012.47.014.817.515.018.218.715.512.826.017.38.314.712.03.56.825.019.36.44.011.98.513.214.517.115.613.44.59.520.015.76.011.423.014.216.721.016.013.610.013.95.05.810.516.322.0要求编制组距数列。分布数列的种类编制等距数列求变异全距(百万元)27229minmaxXXR确定组距及组数确定组距的原则:要能区分各组的性质差异要能反映总体资料的分布特征为方便计算,尽可能为5或10的整数倍组数不宜过多,也不宜太少R≤组距(d)×组数(m)分布数列的种类编制等距数列—步骤1dRmdRm(当R/d的结果为整数时)(当R/d的结果为小数时)确定组限对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;符合“上组限不计入”原则;首末两组可使用“××以下”及“××以上”的开口组。组限的表示方法分布数列的种类编制等距数列—步骤计算次数销售额(百万元)组中值商店数5以下5~1010~1515~2020~2525以上2.57.512.517.522.527.5410161343合计—50(5+(5-5))/2=2.5(25+(25+5))/2=27.5分布数列的种类编制等距数列—编制结果开口式组距数列组中值的计算首组假定下限=首组上限-相邻组组距末组假定上限=末组下限+相邻组组距等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况分布数列的种类等距分组与不等距分组的差异分布数列的种类频率各组单位数占总体单位总数的比重累计次数(频率)向上累计:从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。向下累计:从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。分布数列的种类销售额(百万元)商店数频率(﹪)累计次数累计频率(﹪)5以下5~1010~1515~2020~2525以上410161343820322686合计50100分布数列的种类销售额(百万元)商店数频率(﹪)累计次数累计频率(﹪)向上累计向上累计5以下5~1010~1515~2020~2525以上41016134382032268641430434750828608694100合计50100——分布数列的种类销售额(百万元)商店数频率(﹪)累计次数累计频率(﹪)向上累计向下累计向上累计向下累计5以下5~1010~1515~2020~2525以上410161343820322686414304347505046362073828608694100100927240146合计50100————分布数列的种类•117122124129139107117130122125•108131125117122133126122118108•110118123126133134127123118112•112134127123119113120123127135•137114120128124115139128124121【例】某生产车间50名工人日加工零件数如下(单位:个)。次数分布图•用矩形的宽度和高度来表示频数分布的图形,实际上是
本文标题:《统计学原理》第3章:统计整理
链接地址:https://www.777doc.com/doc-3199018 .html