您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 管理数量方法与分析 第一章 数据分析1
管理数量方法与分析第一章数据分析的基础第一章数据分析的基础1.1数据分组与变量数列1.2分布中心的测度1.3离散程度的测度1.4偏度与峰度1.5两个变量之间的相关关系1.1数据分组与变量数列1.1.1数据分组1.1.2变量数列1.1.1数据分组•统计数据——对现象进行测量的结果;不是指单个的数据,而是由多个数据构成的数据集;不仅仅是指数字,它可以是数字的,也可以是文字的。•统计数据的分类——按照计量的层次分为品质型数据与数值型数据。在这里主要讨论数值型数据。统计数据的分类按计量层次分类型数据顺序型数据数值型数据按时间状况截面的数据时序的数据按收集方法观察的数据试验的数据统计数据的分类(按计量尺度分)1.分类数据只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字来表述例如,人口按性别分为男、女两类,民族分为56类。2.顺序数据只能归于某一有序类别的非数字型数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等3.数值型数据按数字尺度测量的观察值结果表现为具体的数值,对事物的精确测度例如:身高为175cm、168cm、183cm统计数据的分类(按收集方法分)1.观测的数据通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据2.试验的数据在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据统计数据的分类(按时间状况分)1.截面数据在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况2.时间序列数据(第三章讨论)在不同时间上收集到的数据描述现象随时间变化的情况P77表3-13.混合数据数据中含有时间序列与截面数据成分的数据描述现象随时间与空间变化的情况变量说明现象某种特征的概念,可以取不同值的量可变的数量标志就是变量。如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据变量可以分为分类变量说明事物类别的名称顺序变量说明事物有序类别的名称数值型变量说明事物数字特征的名称•离散变量:取有限个值•连续变量:可以取无穷多个值变量也可分为确定性变量与随机变量收集的统计数据往往是杂乱无章的,需要进行整理,常用的方法是分组。根据变量自身变动的特点和研究问题的需要,可以将变量的取值分组,以便更好的研究变量取值(数据)分布的特征与变动规律。分组方法等距分组异距分组单项式分组组距分组单项式分组若变量是离散型变量,变量取值的个数较少时,采取单项式分组。每一个变量值为一组。见书P2表1-1组距分组若变量是离散型变量或连续型变量,变量取值的个数较多时,采取组距分组.将变量值的一个区间作为一组。组距分组需遵循“不重不漏”的原则。见书P2表1-2组距分组可采用等距分组,也可采用不等距分组1.1.2变量数列变量数列---在对变量值进行分组的基础上,将各组不同的变量值与其变量值出现的次数排列成的数列称为变量数列.分为单项式数列与组距数列.见书P2表1-1,1-2。构成变量数列两要素组别、频数或频率频数变量值在该组出现的次数.是一个绝对量频率变量值在该组出现的次数与变量值的总次数之比,称为比率也称频率.是一个相对量频数与频率在进行数据分析时起到权数的作用变量数列的编制1.单项式变量数列的编制例1.1.1某市场调查公司在某个城市居民区的20户居民进行一项调查,调查项目是每套住宅的房间数,结果如下:32441636665752754684试根据上述资料对其原始数据按单项式数列进行编制房间数12345678频数12243521频率1/202/202/204/203/205/202/201/201)将变量的取值按上升(下降)顺序排列,找出最大值max,最小值min.2)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的.2.组距数列的编制在实际进行等距分组时,可以按Sturges提出的经验公式来确定组数mnnmlg322.312lglg1说明若每组组距相等称等距分组,否则称为异距分组。一个组的最大值一个组的最小值3)确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即4)统计出各组的上限、下限、组中值、频数并编制变量数列.组距=(最大值-最小值)÷组数下限与上限之间的中点值即组中值=(上限+下限)/2说明按上述方法进行组距的计算,会有一定的问题,比如各组上下限与组中值不是整数,为下面数据分析造成麻烦,故可以适当调整,使组距为整数,通常用5或者10的倍数作为组距等;各组的上下限尽量取整数。组限的表示方法若离散型变量,相邻两组中数值小的组上限与数值大的组下限分别取相邻的两个整数;若是连续型变量或可取整数也可取小数的离散型变量,相邻两组中数值小的组上限与数值大的组下限用同一个值。但不违反互斥性原则.一般规定上限不包含在本组内,即()。组中值的计算1.闭口组的组中值=(下限+上限)/22.缺下限开口组的组中值=上限值-相邻组组距/23.缺上限开口组的组中值=下限值+相邻组组距/2例1.1.2书P4例题1.1解将60位顾客的购物金额按从小到大的顺序排列(略)min=12.0,max=151.0n=60,利用Sturges的经验公式来确定组数m760lg322.31m根据最大值、最小值与分组组数确定组距19.86712.0-151.0-组数最小值最大值d适当放大最大值或缩小最小值与分组组数使组距为20a=10≤min=12,将最大值151.0归到最大组,此组是开口组即无上限。计算各组上下限、组中值。再计算各组的频数与频率,编制变量数列。购物金额顾客数(频数)比率(频率)%组中值10—30711.72030—501525.04050—701220.06070—90813.38090—110915.0100110—13058.3120130以上46.7140合计60100例1.1.3某电脑公司2002年前四个月各天的销售量数据(单位:台)。试编制变量数列。(等距分组)解将120天的电脑销售量按从小到大的顺序排列(略)min=141,max=237n=120,利用Sturges的经验公式来确定组数m10120lg322.31m根据最大值、最小值与分组组数确定组距1069.10141-237-组数最小值最大值d适当放大最大值或缩小最小值与分组组数使组距为10。a=140≤min=141,b=240≥max=237.计算各组上下限、组中值。再计算各组的频数与频率,编制变量数列。说明等距分组与不等距分组在表现频数分布上的差异1.等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征2.不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况累计频数与累计频率1.累计频数(频率)分布数列累积频数各组频数的逐级累计累积频率各组频率(比率)的逐级累计向下累计频数(频率)由变量值高的组向变量值低的组依次累计频数(频率)。常用此。累计频数与累计频率有向上与向下累计频数(频率)向上累计频数(频率)由变量值低的组向变量值高的组依次累计频数(频率)。例1.1.4续例题1.1,编制累计频数频率分布表房间数12345678频数12243521频率1/202/202/204/203/205/202/201/20向下累计频数2019171511831向下累计频率20/2019/2017/2015/2011/208/203/201/20购物金额顾客数(频数)比率(频率)%向下累计向上累计频数频率频数频率10—30711.760100711.730—501525.05388.32236.750—701220.03863.33456.770—90813.32643.3427090—110915.01830.05185110—13058.3915.05693.8130以上46.746.760100合计60100例1.1.5书P7续例题1.22.累计频数(频率)分布曲线累积频数与累积频率可以用分布表表示,也可以用图表示,即分布曲线。累积分布曲线分为向下累计频数(频率)分布图与向上累计频数(频率)分布图。横轴表示变量,纵轴表示累计频数与累计频率。见书P8图1-1表示例题1.5的累计频数分布图.3.变量数列的常用分布图变量分布可以用频数频率分布表表示,也可以用频数频率分布图表示。常用的分布图有柱形图、直方图、折线图(1)柱形图横轴表示变量,纵轴表示频数或频率。用顺序排列的柱状(线段、长方形、长方体)的高低显示各组变量值的频数、频率的大小。见书P10图1-3表示频数柱形分布图.不同品牌饮料的频数分布图05101520旭日升冰茶可口可乐汇源果珍白事可乐露露类别频数频数不同品牌饮料的频率分布图0.000.100.200.300.40旭日升冰茶可口可乐汇源果珍白事可乐露露类别频率(2)直方图横轴表示变量,纵轴表示各组频数或频率,或各组频数密度、频率密度。用顺序排列的各区间上的直方条表示变量在各区间内取值的频数、频率的大小的图形。常用于组距分组的频数、频率分布图。频数密度=频数/组距频率密度=频率/组距指各组距内单位区间上的频数与频率,两者常用于绘制异距分组的分布图。见书P11图1-4表示频数直方图.直方图与条形图的区别1.条形图是用条形的长度(横置时)表示各组频数的多少,其宽度(表示组)则是固定的。2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,其高度与宽度均有意义。3.直方图的各矩形通常是连续排列,条形图则是分开排列4.条形图主要用于展示品质数据,直方图则主要用于展示数值型数据续例题1.1.3(直方图的绘制)140150210直方图下的面积之和等于1某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240(3)折线图也称频数多边形图具体的做法是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来;第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴,折线图的两个终点要与横轴相交,再把原来的直方图抹掉。折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。与直方图类似用于组距分组的频数、频率分布图。常用的是纵轴为频率密度的折线图。见书P12图1-5表示频数折线图。折线图与直方图下的面积相等!140150210某电脑公司销售量分布的折线图190200180160170220230240频数(天)25201510530续例题1.1.3(直方图的绘制)4.洛伦兹曲线洛伦兹曲线—为了研究国民收入在国民之间的分配问题,美国统计学家M.O.洛伦兹(MaxOttoLorenz,1905年提出的。洛伦兹曲线用以比较和分析一个国家在不同时代或者不同国家在同一时代的财富不平等,该曲线作为一个总结收入和财富分配信息的便利的图形方法得到广泛应用。它先将一国(地区)人口按收入由低到高排队,然后考虑收入最低的任意百分比人口所得到的收入百分比。将这样的人口累计百分比和收入累计百分比的对应关系描绘在图形上,即得到洛伦兹曲线。横轴OH表示人口(按收入由低到高分组)的累积百分比,纵轴OM表示收入的累积百分比,弧线OL为洛伦兹曲线。洛伦兹曲线的弯曲程度反映了收入分配的不平等程度。弯曲程度越大,收入分配越不平等;反之亦然。洛伦仑兹曲线的一般形式如图中这样向横轴突出的弧线OL,尽管突出的程度有所不同。将洛伦兹曲线与45度线之间的部分A叫做“不平等面积”。将社会总财富(收入)分为五等份,每一等分为20%的社会总财富(收入);将100的家庭从最贫者到最富者至左向右排列,也分为5等分,第一个等份代表收入最低的20的家庭
本文标题:管理数量方法与分析 第一章 数据分析1
链接地址:https://www.777doc.com/doc-4007118 .html