您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第2章统计数据的描述(1)分析解析
第2章统计数据的描述(1)第一节数据的计量尺度计量尺度由低级到高级、由粗略到精确分为四个层次:列名尺度、顺序尺度、间隔尺度和比例尺度。一、列名尺度它能按事物的某种属性对其进行平行分组。特点:其测量的数据(即各类别)是文字并且是平等并列的,各类之间顺序可以改变。二、顺序尺度它能根据事物的某种属性将事物区分为不同的类别,这些类别也是文字。与列名尺度不同的是,这些类别可以排序。三、间隔尺度它能用自然的或物理单位测量出事物的具体数值。特点:该类尺度测量的数据是数值,根据这些数值可以对事物进行分类、排序和加减运算,但这些数值不能进行乘除运算。四、比例尺度其测量的数据是也是事物的具体数值。根据这些数值可以对事物进行分类、排序和加减运算,但与间隔尺度不同的是这些数值还可以进行乘除运算。间隔尺度和比例尺度的区别在间隔尺度中没有绝对零点,即在该尺度中“0”是表示一个数值,而不表示“没有”或“不存在”;而比例尺度有一个绝对零点,即在该尺度中“0”表示“没有”或“不存在”。第二节统计数据的搜集一次失败的统计调查在1936年的美国总统选举前,一份名为LiteraryDigest杂志进行了一次民意调查。调查的焦点是谁将成为下一届总统—是挑战者,堪萨斯州州长AlfLandon,还是现任总统FranklinDelanoRoosevelt。为了解选民意向,民意调查专家们根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表(电话和汽车在1936年并不像现在那样普及,但是这些名单比较容易得到)。尽管发出的调查表大约有一千万张,但收回的比例并不高。在收回的调查表中,AlfLandon非常受欢迎。于是该杂志预测Landon将赢得选举。但事实上是FranklinRoosevelt赢得了这次选举。在经济大萧条时期调查有电话和汽车的人们,并不能够反映全体选民的观点。此外,只有少数的问卷被收回。这些都是值得怀疑的。统计数据的来源主要有两个:一是直接来源,即来源于直接的调查和科学试验,得到第一手数据。二是间接来源,即来源于别人调查或试验的数据,得到第二手数据。见第8-9页一、统计数据的直接来源1、普查(1)概念为了某一特定目的而专门组织的一次性全面调查。(2)特点①具有一次性和周期性。“一次性”是指调查现象在某一时点上的数据。②规定统一的标准时点。③仅用于反映国情国力的重大问题的调查。我国通过普查进行的统计调查内容和时间周期已经规范化、制度化,具体包括:1、人口普查,每10年进行一次,逢“0”的年份进行,如2010年进行了中国第六次人口普查。人口普查对象:指普查标准时点在中华人民共和国境内的自然人以及在中华人民共和国境外但未定居的中国公民,不包括在中华人民共和国境内短期停留的境外人员。2、经济普查,每5年进行一次,逢“3”和“8”的年份进行。如2013年中国将进行第三次全国经济普查,普查标准时点是2013年12月31日。普查的对象:在中国境内从事第二产业和第三产业的全部法人单位、产业活动单位和个体经营户。3、工业普查,每10年进行一次,逢“5”的年份进行。普查对象为全部工业企业,重点是国有企业、乡镇企业和外商投资企业。4、农业普查,每10年进行一次,逢“7”的年份进行,如2007年进行了中国第二次农业普查。农业普查的普查范围和对象:在中华人民共和国境内从事农业生产经营和服务的单位、农村住户、从事农业生产经营活动的非农村住户、行政村和乡镇。5、基本单位普查,每5年进行一次,逢“1”和“6”的年份进行,如2011年进行了中国第四次基本单位普查。普查对象:我国境内除农户和个体经济以外所有法人单位和产业活动单位,包括各类企业法人、事业单位法人、机关法人、社会团体法人和基层群众自治组织以及从事农业、工业、建筑业、交通运输业、批发零售贸易业、餐饮业、服务业等社会经济活动的产业活动单位。2、抽样调查(随机抽样调查,即概率抽样)从调查对象的总体中随机地抽取部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查。总体随机样本二、统计数据的间接来源Internethttp//、统计部门和政府部门公布的有关资料,如各类统计年鉴。2、各类经济信息中心、信息咨询机构、专业调查机构等提供的数据。3、各类专业期刊、报纸、书籍所提供的资料。4、各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料。5、从互联网或图书馆查阅到的相关资料。提供统计数据的部分政府网站中国政府及相关机构网址数据内容国家统计局统计年鉴、统计月报等国务院发展研究中心信息网宏观经济、财经、货币金融等中国经济信息网国家统计局授权的数据中心中国决策信息网三农信息、论坛及相关网站提供统计数据的部分政府网站美国政府机构网址数据内容人口普查局货币供应、信誉、汇率等预算编制办公室财政收入、支出、债券等商务部商业、工业等第三节统计整理一、统计整理的概念和步骤概念:统计整理是根据统计研究的目的和要求,把统计调查所取得的各项资料进行科学地综合加工,使之系统化、条理化,从而得到反映事物总体特征资料的过程。步骤:第一,统计资料审核。包括及时性(整个工作期限、搜集资料的时间、资料所属的时间);准确性(事实求地反映实际情况、计算正确);完整性(规定应调查的总体单位、每个调查单位应调查的内容)等方面的审核。第二,统计分组第三,统计汇总第四,编制统计表或绘制统计图二、统计分组与统计汇总(一)概念统计分组:按照某一个标志将总体中所有单位划分为若干个性质不同的组成部分就叫统计分组。见第16、18页的表2.3、2.5、2.7统计汇总:在统计分组的基础上,将统计资料归并到各组中去,并计算出各组和总体的单位合计数的工作过程。(二)分布数列1、概念:统计分组和统计汇总后所形成的总体单位数在各组分布情况的数列。各组单位数叫频数或次数,各组次数在总次数所占的比重叫频率。见第16、18页的表2.3、2.5、2.72、分布数列的分类(1)品质数列:按品质标志分组后所形成的分布数列。(2)变量数列:按数量标志分组后所形成的分布数列。又分为:①单项式变量数列:用一个数值代表一个组形成的数列。②组距式变量数列:用变量值变动的一定范围来代表一个组所形成的数列。3、组距式变量数列中的几个概念(1)组限:表示各组界限的变量值。大的叫上限,小的叫下限。(2)组距:各组上下限之间的距离。组距=上限-下限(3)等距数列:各组组距均相等的数列。异距数列:各组组距不完全相等的数列。(4)组中值:上下限之间中点的值。组中值=(上限+下限)/2=上限-组距/2=下限+组距/2“××以上”、“××以下”这样的组叫开口组。一般假定开口组的组距与其相邻组的组距相等。其组中值计算如下:缺下限最小组的组中值=上限-相邻组组距/2缺上限最大组的组中值=下限+相邻组组距/2见第37页的表2.15见第27页的表2.11注意:(1)开口组的组中值是在假设开口组的组距与其相邻组的组距相同时计算出来的,所以开口组的组中值是近似值。(2)计算组中值的目的是为了用组中值来代表该组中的每一个值。因为我们只知道各组中有多少个值,而这些值具体是多少并不知道,但有时又需要算出各组中所有值的总和,这时我们就假定该组中的每一个值等于该组的组中值。但要用组中值来代表该组中的每一个值,必须假定该组中各数是呈均匀分布的。见第27页的表2.11(5)全距:全体数据中最大标志值与最小标志值之差。(6)累计次数:向上累计:从表的下方向表的上方依次对各组次数累计相加。向下累计:从表的上方向表的下方依次对各组次数累计相加。见第19页的表2.9三、组距式变量数列的编制(以等距数列为例)步骤:(以第17页的【例2.1】为例)1、排序2、确定组距(1)组距最好是5、10的倍数。(2)组距先取小一点不断地试,直到各组的次数表现出一定的分布特征为止。3、确定组限注意:(1)组限最好是5、10的倍数;(2)最小组的下限应比最小的变量值略小;最大组的上限应比最大的变量值略大。(3)相邻组的组限应重合。4、统计汇总注意:应坚持“上限不在组内”的原则。(EXCEL软件是坚持“下限不在组内”的原则)次数分配表的编制【例】某车间30名工人每周加工某种零件件数如右表试对数据进行分组。次数分配表四、次数分布曲线图的绘制(一)直方图(等距数列)步骤:第一、在横轴上描出各组组限;在纵轴上描出各组次数(或频率);第二,以各组组距为宽度,以各组次数(或频率)为高度绘出一组矩形。809010011012013004812某车间工人周加工零件直方图我一眼就看出来了,周加工零件在100~110之间的人数最多!(二)折线图把直方图中各矩形顶边中点连接起来,形成一条折线,然后把折线两端分别与其所在组竖边中点相连并延长至横轴上。某车间工人周加工零件折线图809010011012013004812折线图与直方图下的面积相等!(三)次数分布的类型1、钟形分布。越靠近变量值中点的变量值,其次数越多。(1)对称分布:以变量值的中点为对称轴的对称分布。(2)偏态分布:①左偏分布:左边的线比较长比较低,意味着出现了极小值,而这些极小值个数又比较少。②右偏分布:右边的线比较长比较低,意味着出现了极大值,而这些极大值个数又比较少。2、U形分布(又称生命曲线或浴盆曲线)越靠近变量值中点的变量值,其次数越少。3、J形分布①正J形分布:变量值越大,次数越大。②反J形分布:变量值越大,次数越小。1、20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家巴雷特(V.Pareto)提出的收入分配公式绘制而成。2、描述收入和财富分配性质的曲线分析该国家或地区分配的平均程度。第四节洛伦次曲线与基尼系数AB累积的人口百分比累积的收入百分比绝对公平线绝对不公平线0100%100%基尼系数1、20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标。2、A表示实际收入曲线与绝对平均线之间的面积。3、B表示实际收入曲线与绝对不平均线之间的面积。4、如果A=0,则基尼系数=0,表示收入绝对平均。5、如果B=0,则基尼系数=1,表示收入绝对不平均。6、基尼系数在0和1之间取值。7、一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。ABBAA基尼系数结束
本文标题:第2章统计数据的描述(1)分析解析
链接地址:https://www.777doc.com/doc-3193519 .html