您好,欢迎访问三七文档
统计学第2章统计数据的描述第1章回顾知识点统计学内涵统计学概念及含义要求掌握统计学的涵义了解统计学产生与发展掌握统计学几个概念是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的规律性。•总体•变量•样本•参数•统计量第2章统计数据的描述2.1数据的计量尺度2.2统计数据的来源2.3统计数据的质量2.4统计数据的整理2.5分布集中趋势的测度2.6分布离散程度的测度2.7分布偏态与峰度的测度2.8茎叶图与箱线图2.9统计表与统计图数据整理数据分析数据显示结果2.1数据的计量尺度一、列名尺度二、顺序尺度三、间隔尺度四、比率尺度2.1数据的计量尺度分类方法(4种计量尺度):列名尺度、顺序尺度、间隔尺度和比例(率)尺度。列名尺度顺序尺度间隔尺度比例尺度精确程度良好1980134公斤休斯顿火箭俱乐部:健康状况:出生年份:体重:1、列名尺度(NominalScale)例如:性别、民族、职业数据表现为“类别”各类之间无等级次序各类别可以用数字代码表示根据列名尺度得到的数据为分类数据。2、顺序尺度(OrdinalScale)例如健康状况、质量等级数据表现为“类别”可对等级、大小等排序未测量出类别之间的准确差值根据顺序尺度得到的数据为顺序数据。3、间隔尺度IntervalScale例如年份、摄氏温度数据表现为“数值”可以进行加减运算“0”是只是尺度上的一个点,不代表“不存在”根据间隔尺度得到的数据为间隔数据。4、比例尺度RatioScale例如体重、身高数据表现为“数值”可以进行加减、乘除运算“0”表示“没有”或“不存在”根据比例尺度得到的数据为比例数据。间隔尺度与比例尺度的区别间隔尺度中“0”表示一个具体数值,不表示“没有”或“不存在”,比例尺度中“0”表示“没有”或“不存在”。间隔尺度-273.15℃-123.15℃0℃26.85℃比例尺度0KM150KM300KM课堂练习下列数据中哪些采用了间隔尺度?海拔8848米960万平方公里100元北纬38度四种计量尺度的比较1、四种尺度所包含的信息量是依次递增的。2、根据较高层次的计量尺度可以获得较低层次的计量尺度。四种计量尺度的比较:数学性质“√”表示该尺度所具有的特性四种计量尺度的比较列名尺度顺序尺度间隔尺度比例尺度分类(=,≠)排序(,)间距(+,-)比值(×,÷)√√√√√√√√√√数据和变量类型数据的类型分类数据顺序数据定性数据定量数据间隔数据比例数据品质变量AttributeCategorical数量变量Numerical变量类型变量的类型变量是用来描述现象某种令人感兴趣的特征的概念。品质变量是描述现象有关属性特征的变量,本质上不能用数字来表示。例如性别。数量变量是描述现象有关数量特征的变量,都是用数字来表示的。例如人数,年龄等。离散型变量指的是有限个数值或诸如0,1,2……之类无限可列值的变量。如果某一变量可以取某一区间或多个区间中任意数值,则该变量称为连续型变量。2.1例子请判断下列数据分别属于什么类型?灯炮使用寿命将产业划分为三类广州市8月份各天的气温记录将服务质量分为五个等级:好、较好、一般、差、较差。分类数据顺序数据比例数据间隔数据2.2统计数据的来源一、间接获取的数据二、直接获取的数据间接取得的数据间接取得的数据Internethttp//统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料提供统计数据的部分政府网站中国政府及相关机构网址数据内容国家统计局统计年鉴、统计月报等国务院发展研究中心信息网宏观经济、财经、货币金融等中国经济信息网国家统计局授权的数据中心中国决策信息网三农信息、论坛及相关网站提供统计数据的部分政府网站美国政府机构网址数据内容人口普查局货币供应、信誉、汇率等预算编制办公室财政收入、支出、债券等商务部商业、工业等直接取得的数据普查(census)1.为特定目的专门组织的非经常性全面调查2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄总体抽样调查(samplingsurvey)1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法总体随机样本2.具有经济性、时效性强、适应面广、准确性高等特点2.3数据的质量非抽样误差:由于调查过程中各有关环节工作失误造成的。调查方案有关规定或解释不明确导致填报错误、抄录错误、汇总错误、不完整抽样框导致的误差,调查中不回答产生的误差。人为干扰:隐瞒、虚报。从理论上看,这类误差可以避免。加强培训掌握获取完整抽样框的方法,科学抽样的方法与技术。抽样误差:利用样本推断总体时产生的误差。不可避免可以计量、可以控制抽样框全部总体单元或范围。1抽样误差样本容量2.3统计数据的质量数据的误差抽样误差抽样框误差回答误差无回答误差调查员误差非抽样误差数据的误差抽样误差(samplingerror)1.由于抽样的随机性所带来的误差2.所有样本可能的结果与总体真值之间的平均性差异3.影响抽样误差大小的因素样本容量的大小总体的变异性非抽样误差(non-samplingerror)1.相对于抽样误差而言2.除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差数据来源与数据质量1936年,罗斯福和兰登竞选总统。《文学摘要》调查了240万人,预测兰登以57%对43%获胜;Gallup(盖洛普)调查了50000人,结论是罗斯福以56%获胜。实际结果是罗斯福以62%获胜。1952年至1988年,Gallup公司在每次调查中只抽取3439至8144人,实际预测误差在0.2至4.4个百分点之间。数据来源与数据质量第二次世界大战期间,美国国家民意调查中心(TheNationalOpinionResearchCenter)派两组调查人员对一个南方城市的500名黑人进行提问,一组调查人员由白人组成,另一组由黑人组成。3个问题:问题一:“如果日本占领美国,你认为黑人的境况会得到改善还是变得更糟?”黑人调查组中,9%的被调查者回答“变好”,25%回答“变坏”;白人调查组中,2%回答“变好”,45%回答变坏。问题二:用“纳粹分子”代替“日本”,两组的结果大体相同。问题三:“你认为目前致力于打败轴心国比在本国内进一步推进民主更重要吗?”黑人调查组中,选择“打败轴心国”的比例是39%,而白人调查组则是62%。是什么原因造成了调查结果的差异呢?误差的控制1.抽样误差可计算和控制2.非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度2.4统计数据的整理一、统计数据的分组二、次数分配三、次数分配直方图四、洛伦茨曲线统计数据的分组2.4数据的整理——统计数据的分组按照统计研究目的,将数据分别列入不同的组内。按品质标志分组:列名尺度和顺序尺度。按数量标志分组:间隔尺度和比例尺度。2.4数据的整理——次数分配次数分配是观察值按其分组标志分配在各组内的次数。分组目的:找出数据分布的规律。步骤:分多少组?确定组数每一组的范围?确定组距=(Max.-Min.)/组数等组距分组、不等组距分组开口组经验:组数不少于5组,也不应多于15组原则:“不重不漏”、上组限(一个组的最大值)不在内累积次数分配向下累积:由表的上方向表的下方累加向上累积:由表的下方向表的上方累加组距分组(步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的2.确定组距:组距(classwidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数3.统计出各组的频数并整理成频数分布表频数(frequency):每个组中的数据个数,也称次数。频率(relativefrequency):频数/总数据个数。补充Sturges提出的经验公式:分组组数K应满足)2ln()ln(1nK其中n为数据的个数(总体单位数或样本数),一般对结果取整数。组距分组(几个概念)1.下限(lowlimit):一个组的最小值2.上限(upperlimit):一个组的最大值3.组距(classwidth):上限与下限之差4.组中值(classmidpoint):下限与上限之间的中点值下限值+上限值2组中值=次数分配表的编制(例题分析)【例】某车间30名工人每周加工某种零件件数如右表试对数据进行分组。Max=128Min=84频数分布表Max=128Min=84(Max-Min)/5=(128-84)/5=8.8≈10上组限(一个组的最大值)不在内。90、100、110、120这几个数究竟属于哪一组?课堂练习:某月啤酒公司60个销售点的销量487152533641695847605329417281374358684273625944515347665952344973294716395843294652384680585167545758634940546158664750单位:桶Max=81Min=16(Max-Min)/8=(81-16)/8=8.125≈9啤酒销售量的频数分布•销售桶数销售点数频率(%)•10—1911.7•20—2935.0•30—3958.3•40—491626.7•50—592033.3•60—69915.0•70—7946.7•80—8923.3•合计60100.0频数/次数啤酒销售量的累计次数(频率)表销售桶数频数相对频数向下累计向上累计(%)次数频率次数频率10—1911.711.76010020—293546.75998.330—3958.39155693.340—491626.72541.7518550—592033.345753558.360—699155490152570—7946.75896.761080—8923.36010023.3合计60100————————————————次数分配直方图Excel直方图(histogram)1.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图2.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布分组数据的图示(直方图的绘制)某车间工人周加工零件直方图我一眼就看出来了,周加工零件在100~110之间的人数最多!809010011012013004812折线图(frequencypolygon)1.折线图也称次数多边形图2.折线图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉3.折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩
本文标题:统计数据的描述
链接地址:https://www.777doc.com/doc-3489130 .html