您好,欢迎访问三七文档
第2章数据的描述2.1数据的计量与分类对不同事物能够给予计量或测度的程度是不同的。有的现象能够用数值计量和描述,而有的现象却只能用文字进行分类描述。按照对现象计量程度的不同,可以将数据计量尺度分为四种。数据的计量尺度:定类尺度、定序尺度、定距尺度、定比尺度一、定类尺度1.也称类别尺度或列名尺度,是把事物按属性或类别分组;2.计量结果表现为某种类别,对各类间其他差别无法测度;3.各类是平等的、并列的,没有先后顺序;4.计量结果形成分类数据。[例]人口按性别分为男、女;企业按经济类型分为国有企业、集体企业、独资企业等。二、定序尺度1.也称顺序尺度,是对事物之间等级差别或顺序差别的测度;2.对事物分类的同时给出各类的顺序或优劣;3.计量结果形成顺序数据;[例]学生的考试成绩分为优、良、中、及格、不及格;人的受教育程度分为小学、初中、高中、大学及以上。三、定距尺度1、也称间隔尺度,是对事物间的类别或次序间的间距的测度;2、计量结果表现为数值;3、可以具体计算各类的差值,并进行加减运算;4、“零”值是有意义的,表示一个具体数值。【例】学生成绩可以表现为0-100之间的任意一个整数。四、定比尺度1、也称比率尺度,与定距尺度处于同一层次;2、计量结果表现为数值;3、不仅可以计算各类的差值,还可以进行加减乘除运算;4、“零”值无意义,表示没有或无。【例】甲乙丙三人的日工资分别为20、30、40元,则丙比甲日收入多20元,是甲的2倍。不同尺度的计量结果是不同的,形成了三种数据:◆分类数据◆顺序数据◆数值型数据分类数据和顺序数据合称为定性数据。数值型数据通常称为定量数据2.2数据的收集一、间接获取的数据在科学研究和管理决策中,要善于利用各种“现成的数据”。这种数据既可以从报刊、图书、杂志、统计年鉴、网络等渠道获得,也可以从调查公司或数据库公司等处购买。近年来,互联网已经成为“数据来源”的重要渠道,几乎所有的政府机构和大公司都有自己的网站并提供公共访问端口,访问者可以从中获得有用的数据。二、直接获取的数据在进行科学研究和管理决策时,如果没有现成的数据可以利用,就必须专门组织调查或进行科学试验获取。对于社会经济管理和决策而言,主要是通过“统计调查”的方式直接获取数据,如:电视收视率调查、家庭收支情况调查、居民闲暇时间利用调查等。1、统计报表统计报表——是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。但统计报表中间环节多,易受人为因素干扰,因此目前是一种搜集数据的重要方式,但已不是主要方式。2、普查普查——是为某一特定目的而专门组织的一次性全面调查。普查是一种摸清国情、国力的重要调查方法。比如人口普查、工业普查、农业普查等。普查比统计报表所提供的资料更详细,主要是表明现象在某一时点上的情况,时间要求间接的数据或第二手数据称之为已有的数据间接来源直接的数据或第一手数据称之为观察和科学试验直接组织的调查直接来源统计数据的来源一次性调查经常性调查按登记事物的连续性典型调查重点调查抽样调查普查专门调查统计报表按组织方式非全面调查全面调查围按调查对象所包含的范统计调查很强。◆通常是一次性或周期性的,即只能间隔较长时间进行一次;◆需要规定统一的标准时间,以避免调查数据的重复或遗漏;◆普查的数据一般较为准确,规范化程度较高;◆适用对象较窄,只能调查一些最基本、最一般及特定的现象。3、抽样调查抽样调查——是从研究对象的总体中随机抽取一部分个体作为样本进行调查,并根据调查结果来推断总体数量特征的一种非全面调查方法。抽样调查是实际中应用最为广泛的一种调查方法。因为它是非全面调查中最完善、最有科学根据的方法。4、重点调查重点调查——是从调查对象的全部单位中选择少数重点单位进行调查。这里的重点单位是指在所要调查的数量特征上占有较大比重的单位。5、典型调查典型调查——是从调查对象的全部单位中选择一个或几个有代表性的单位进行全面深入的调查。典型调查的目的是通过典型单位来描述或揭示事物的本质和规律2.3统计数据的整理一、分类数据和顺序数据的整理对分类数据和顺序数据,我们可以计算出每一类别出现的频数或频率,通过频数分布表和图形来展示。频数分布表——又称次数分布表,是用表格的形式将分类数据或顺序数据各分组及其相应的频数全部罗列出来。◆频数——也叫次数,是分布在各组的单位数◆频率——也叫比重,是各组次数与总次数之比◆一组资料中,各组频率之和等于100%(或1)将分类数据和顺序数据通过图形来展示会更形象、直观。适合分类数据和顺序数据的图形有条形图、饼图、环形图等。◆条形图——是用相同宽度条形的高度来表示数据多少的图形。◆饼图——又称圆图,是以整个圆代表总体,按总体各部分占总体比重的大小将圆面积分割成若干扇形,从而用圆内扇形面积来直观反映各部分在总体中的比例。◆环形图——是指图中间有一个空洞,总体或样本中的每一部分数据用环中的一段来表示的图形。二、数值型数据的整理对数值型数据,不仅可以计算出每一组的数据出现的频数或频率,还可以计算其特征值,如均值、方差、标准差等。因此,数值型数据的整理方法除了有频数分布表、各种图形等,还可以计算相应的特征值。1、用频数分布表展示数值型数据数值型数据通过统计分组,就可以形成频数分布表。◆单变量值分组——把一个变量值作为一组。适用于离散型变量,且变量值变动幅度不大时;◆组距式分组——将全部变量值一次划分为若干个区间,把每个区间的变量值作为一组。适用于变量值较多、且变动范围较大的离散型或连续型变量。(1)组距分组中的几个基本概念◆组限——每个组两端的数值。可以分为上限和下限。◆组距:一个组的上限与下限两端的距离。◆全距:所有变量值中最大值与最小值之差。◆组中值:每个组的上限与下限的中点值。(2)组距分组的步骤第一步:确定组数。组数是分组的个数。组数的确定应以能够显示数据的分布特征和规律为目的。◆斯特格斯经验公式:对结果用四舍五入的办法取整数即为组数。这只是一个经验公式,实际应用时,可根据数据的多少和分析的要求,灵活确定组数。第二步:确定各组的组距。可根据全部数据的最大值和最小值及所分的组数来确定。为便于计算,组距宜取5或10的倍数;第三步:根据分组整理成次数分布表(3)组距分组的六条原则(A)分组时,需要保证“不重不漏”的原则,即任一个变量值应分在且只能分在一个组中;为了保证所有数据不被遗漏,应使第一组的下限低于全部数据的最小变量值,最后一组的上限大于全部数据的最大变量值;(B)组距分组时,组数既不能太多,也不能太少。如果组数太少,数据太集中,其规律性反映不出来;如果组数太多,特别是当数据并不是很多时,反映出来的大多是偶然性差异(C)若全部数据的最大值和最小值悬殊较大,且数量又较少时,为避免出现空白组或某个极端值被遗漏,一般应采用“××以下”或“××以上”;开口组——是指只有上限而无下限或只有下限而无上限的组。(D)当第一组上限与第二组下限相同时,应遵循“上组限不在内”的原则。即当相邻两组的上下限相叠时,上组限数值不算在该组内。当所有数据都不存在小数点的问题时,为了解决“不重”问题,组限也可以这样确定,即70—79分,80—89分,等等。(E)在组距分组时,如果各组的组距相等,则称为等距分组。有时对于某些特殊现象或为了特定研究的需要,各组的组距也可以不相等,称为不等距分组。等距分组由于各组的组距相等,各组频数的分布不受组距大小的影响,因此可以直接根据绝对频数来观察频数分布的特征和规律。不等距分组因各组组距不同,各组频数的分布受组距大小的影响也不同,因此,各组绝对频数的多少并不能反映频数分布的实际状况。为了消除组距不同对频数分布的影响,需要计算频数密度,才能准确的反映频数分布的实际状况。2lglg1n组数组数全部数据最小值全部数据最大值组距组距频数频数密度(F)组距分组掩盖了各组内的数据分布状况,为了反映各组数据的一般水平,我们通常用组中值作为该组数据的一个代表值。(4)累积次数分配表为了统计分析的需要,有时需要观察某一数值以下或以上的次数之和,这就需要在分组的基础上计算出累积次数。包括:◆向上累积——把各频率数或频率由变量值小的组向变量值大的组顺序逐组累积,截至各组的累积次数或频率表示小于该组变量值上限的次数或频率合计有多少;◆向下累积——把各频率数或频率由变量值大的组向变量值小的组顺序逐组累积,截至各组的累积次数或频率表示大于该组变量值下限的次数或频率合计有多少。2、用图示展示数值型数据数值型数据通过分组后形成频数分布表,可以更加形象和直观的反映出数据分布的特征和规律。适合数值型数据的图形有直方图、箱线图、线图、茎叶图等。(1)直方图直方图——用矩形的宽度和高度来表示频数分布的图形。◆若是等距数列,用横坐标表示数据分组,用纵坐标表示各组次数;◆若是不等距数列,按频数密度绘制直方图。条形图和直方图的区别:◆条形图是用条形的长度表示各类别频数的多少,其宽度通常是固定的;条形图一般是分开排列的;◆直方图是用高度和宽度一起来表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距,因此其高度和宽度均有意义;直方图的各矩形通常是连续排列的。(2)折线图折线图——也称为频数多边形图,是指在直方图的基础上,把直方图顶部的中点用直线连接起来,再把原来的直方图抹掉所形成的图形。在实际画图时,折线图的两个终点要与横轴相交,具体做法:将第一个矩形的顶部中点通过竖边中点连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。(3)频数分布曲线当我们对数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条光滑的曲线,这就是频数分布曲线。分布曲线在统计学中有着十分广泛的应用,是描述各种统计量和分布规律的有效方法。1)钟形分布钟形分布——是一种“两头小,中间大”的形状,即靠近中间变量值分布的次数多,靠近两端的变量值分布的次数少。钟形分布又分为正态分布、右偏分布、左偏分布。如农作物的单位面积产量、学生的考试成绩、零件的公差、纤维的强度、人的身高、体重、智商等均服从正态分布。2上限下限闭口组组中值22相邻组组距上限只有上限组的组中值相邻组组距下限只有下限组的组中值◆右偏分布右偏分布——又称为正偏分布,分布曲线尾巴向右延伸。如人均收入分配,低收入的人多,高收入人少,且越高越少。◆左偏分布左偏分布——又称为负偏分布,分布曲线尾巴向左延伸。如学生的考试成绩,中等偏高分数的人数较多,低分数人数较少,且分数越低人数越少。2)J形分布J形分布图象像英文字母J,包括正J形分布和反J形分布两种类型。◆正J形分布——是指随着横轴的增加,纵轴相应增加的分布。如供给曲线,随着价格的提高,供给量相应增加。◆反J形分布——是指随着横轴的增加,纵轴相应减少的分布。如需求曲线,随着价格的上升,需求量相应减少。3)U形分布U形分布——特征是两头大,中间小,即靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多。如人和动物按不同年龄的死亡率分布就属于U型分布,婴幼儿时期和老年时期死亡率最高,而中青年时期的死亡率较低。(4)箱线图箱线图——是由一组数据的最大值、最小值、中位数和两个四分位数共五个特征值绘制而成的,用以反映原始数据分布的图形。◆对于未分组数据,可以绘制简单箱线图。◆对于分组数据,可以绘制批比较箱线图。通过箱线图,不仅可以反映一组数据的分布特征,还可以进行多组数据分布特征的比较。形象地说,箱线图是由一个箱子和两条线段组成的。其绘制方法是:①找出一组数据的最大值、最小值、中位数、两个四分位数等5个特征值。②连接两个四分位数画出箱子。③将两个极端点(最大值和最小值)与箱子相联接。(5)线图线图——是用线条的延伸和波动来表明现象变动情况的图形。它主要适用用于表示现象在不同时间上的变化趋势。(6)茎叶图茎叶图——又称为枝叶图,是将数组中的数按位数进行比较,将变化不
本文标题:第2章数据的描述
链接地址:https://www.777doc.com/doc-2247136 .html