您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 理论文章 > 第三章统计数据的整理与显示
《统计学》讲义第三章-1-第三章数据的整理与显示教学目的与要求:统计整理是介于统计调查与统计分析之间的一个重要环节,是从对社会经济现象个体量的观察到对社会经济现象总体量的认识的连结点。在统计工作全过程中起着承前启后的作用。通过本章的学习,要求明确统计整理的意义、内容和步骤;掌握统计分组的涵义及作用、正确选择分组标志的原则及分组方法;掌握分配数列的概念、种类、编制方法;熟悉统计表的结构及设计要求。教学重点与难点:重点为统计分组的概念、作用;正确选择分组标志的原则、方法;分配数列的编制。难点为分组标志的选择和次数分布的特征。通过各种方法或渠道将数据搜集上来之后,首先需要对这些数据进行加工处理,使之系统化、条理化,以符合分析的需要,同时用图表形式将数据展示处理,以便简化数据,使之更容易理解和分析。第一节数据的预处理一、数据审核与筛选在对统计数据进行整理时,首先需要进行审核,以保证数据的质量,为进一步的整理与分析打下基础。从不同渠道取得的统计数据,在审核的内容和方法上有所不同,不同类型的统计数据在审核内容和方法上也有所差异。1.对于通过直接调查取得的原始数据,应从完整性和准确性两个方面审核:完整性审核:主要检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确性审核:一是检查数据资料是否真实反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。逻辑检查:主要从定性角度审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象,主要用于分类数据和顺序数据的审核。如:中学文化程度的人所填的职业是大学教师。计算检查:是检查调查表中的各项数据在计算结果和计算方法上有无错误,主要用于数值型数据的审核。如,各分项数字之和是否等于相应的合计数,各结构比例之和是否等于1或100%,出现在不同表格上的同一指标数值是否相同等。《统计学》讲义第三章-2-2.对于通过其他渠道取得的第二手数据,除了对其完整性和准确性进行审核外,还应着重审核数据的适用性和时效性。对于使用者来说,首先应弄清数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要,是否需要重新加工整理等。此外,还要对数据的时效性进行审核。一般来说应尽可能使用最新的统计数据。3.调查结束后,当数据中发现的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。数据筛选:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。二、数据的排序对于定类数据,如果是字母型数据,排序有升序与降序之分,但习惯升序;如果是汉字型数据,排序方式很多,如按汉字的首位拼音字母排列,也可按笔画排序。定距和定比数据的排序只有两种,即递增和递减。设一组数据为NXXX,,,21,递增排序后可表示为:NXXX21;递减排序可表示为:NXXX21。第二节分类和顺序数据的整理与显示数据经过预处理后,可进一步做分类或分组整理。在对数据进行整理时,首先要弄清数据的类型,因为对不同类型的数据所采取的处理方式和所适用的处理方法是不同的。对品质数据主要是做分类整理,对数值型数据则主要做分组整理。适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据。一、分类数据的整理与显示分类的数据本身就是对事物的一种分类,因此在整理时除了要列出所分的类别外,还要计算出每一类别的频数、频率或比例、比率,同时选择适当的图形进行显示,以便对数据及其特征有一个初步了解。(一)频数与频数分布1.频数。“次数”,是落在各类别中的数据个数。把各个类别及其相应的频数全部列出来就是频数分布或称次数分布。将频数分布用表格的形式表现出来就是频数分布表。2.比例。是一个总体中各个部分的数值占全部数值的比重,通常用于反映总体的构成或《统计学》讲义第三章-3-结构。假定总体数量N被分成K个部分,每部分的数量分别为KNNN,,,21,则比例定义为NNi。各部分比例之和等于1。表3-1某大学在校学生的性别分布情况按性别分组学生人数(人)比例频率(%)男214200.76576.5女65800.23523.5合计280001100各组名称次数或频数比例和频率3.百分比。将比例乘以100就是百分比或百分数。4.比率。是各不同类别的数量的比值,可以是一个总体(或样本)中各不相同部分的数量对比。如男女人数比率为21420:6580。为便于理解通常将分母化为1,如男女人数比率为3.26:1。比率由于不是总体(或样本)中部分与整体之间的对比关系,因而比值可能大于1。(二)分类数据的图示1.条形图。是用宽度相同的条形的高度或长短来表示数据变动的图形。条形图可以横置或纵置,纵置时也称为柱形图,在表示分类数据的分布时,用条形图的高度来表示各类别数据的频数或频率,见P52图3-3。2.圆形图。“饼图”,是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。总体中各部分所占百分比用圆内的各个扇形角度来表示,见P52图3-4。二、顺序数据的整理与显示定类数据的整理与显示方法,如频数、比例、百分比等都适用于对定序数据的整理与显示。但有些方法适用于顺序数据,却不适用于分类数据。(一)累积频数和累积频率1.累积频数。就是将各类别的频数逐级累加起来。一为向上累积:从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型数据则从变量值小的一方向变量值大的一方累加频数);二为向下累积。《统计学》讲义第三章-4-2.累积频率或百分比。就是将各类别的百分比逐级累加起来,也有向上累积和向下累积两种方法。甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————(二)顺序数据的图示1.累积频数分布图。根据累积频数或累积频率,可以绘制累积频数分布或频率图,见P54图3-5。2.环形图。环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。环形图与圆形图类似,但又有区别:(1)圆形图只能显示一个总体各部分所占的比例;(2)环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。环形图可用于结构比较研究,主要用于展示分类和顺序数据。见P55图3-6。第三节数值型数据的整理与显示上一节介绍的分类数据和顺序数据的整理与图示方法,也都适用于数值型数据的整理与显示。但数值型数据还有一些特定的整理与图示方法,并不适用于分类数据和顺序数据。一、数据分组数值型数据表现为数字,因此在整理时通常是进行分组。分组是根据统计研究的需要,将原始数据按照某种标准分成不同的组别,形成分组数据。分组后再计算出各组中数据出现的次数或频数,就形成一张频数分布表。数据分组方法有单变量值分组和组距分组两种。单变量值分组是把每一个变量值作为一组,这种分组方法通常只适合于离散变量。《统计学》讲义第三章-5-组距分组是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。(一)单变量值分组表3-2某车间工人看管机器台数分布情况按工人看管机器台数分组工人数(人)工人比重(%)6810122024261623.2627.9130.2318.60合计86100.00各组变量值次数频率1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况(二)组距分组1.要点•将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组•适合于连续变量•适合于变量值较多的情况•需要遵循“不重不漏”的原则,“不重”指一项数据只能分在其中的一组,不能在其他组中重复出现;“不漏”是指在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。•可采用等距分组(各组的组距相等),也可采用不等距分组2.步骤(1)确定组数:组数的多少应适中,组数的确定应以能够显示数据的分布特征和规律为目的。若组数太少,数据的分布就会过于集中,而组数太多,数据的分布就会过于分散,不便于观察数据分布的特征和规律。在实际分组时,可以按斯特奇斯Sturges提出的经验公式来确定组数K对结果四舍五入取整数即为组数。这只是一个经验公式,实际应用时,可根据数据的多少和特点及分析的要求,参考这一标准灵活确定组数。(2)确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即)2lg()lg(1nK)2lg()lg(1nK《统计学》讲义第三章-6-组距=(最大值-最小值)÷组数为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。(3)统计出各组的频数并整理成频数分布表3.几个概念(1)下限(lowlimit):一个组的最小值(2)上限(upperlimit):一个组的最大值(3)组距(classwidth):上限与下限之差(4)组中值(classmidpoint):下限与上限之间的中点值,组中值=(上限+下限)/2(5)上限组不在内:当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而算在下一组内。对于离散变量,可以采用相邻两组组距间断的办法解决“不重”的问题。而对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决不重的问题。可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。(6)开口组:如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组或个别极端值被漏掉,第一组和最后一组可以采取“××以下”及“××以上”。开口组通常以相邻组的组距作为其组距。(7)频数密度=频数÷组距分类:等距分组:各组的组距相等各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征不等距分组:各组的组距不全相等各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况组距分组掩盖了各组内的数据分布状况,为反映各组数据的一般水平,通常用组中值作为该组数据的一个代表值,但这种代表值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。《统计学》讲义第三章-7-表3-3某企业工人完成生产定额情况工人按生产定额完成程度分组(%)工人数(人)工人比重(%)90—9595—100100—105105—110110以上3004807003202001524351610合计2000100各组变量值次数频率二、数值型数据的图示上一节介绍的条形图、饼图、环形图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有下面的一些图示方法,这些方法并不适用于分类和顺序数据。通过数据分组后形成的频数分布表,可以初步看出数据分布的一些特征和规律。如果用图形来表示这一分布的结果,则更形象、直观。(一)分组数据——直方图•用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布•在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图•直方图下的总面积等于1图形见书P60图3-7。(直方图与条形图的区别)•条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的•直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义•直方图的各矩形通常是连续排列,条形图则是分开排列•条形图主要用于展示分类数据,直方图则主要用
本文标题:第三章统计数据的整理与显示
链接地址:https://www.777doc.com/doc-2182845 .html