您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 《统计学思想方法与应用》第3章分类数据的描述分析
一张好图胜过千言万语10:221第3章分类数据的描述分析3.1数据的预处理3.2频数表3.3统计图3.4列联表10:222学习目标用频数表描述数据的分布;用条形图、饼图、百分条图等图形来展示数据;用列联表分析两个分类指标之间的关系;相关理论在统计软件中的应用;相应统计分析结果的解读。10:223用哪些图形展示奖牌?在2012年伦敦奥运会上,中国队以38金27银22铜位列奥运金牌榜和奖牌榜第二位,这也是中国境外参赛以来取得的最好成绩,美国队以46金29银29铜104奖牌高居榜首。东道主英国位居第三10:224用哪些图形展示奖牌?根据上面的数据,你认为可以选择哪些图形来展示三个国家所获得的奖牌情况?学完本章的图表展示技术,这样的问题就会迎刃而解排名国家及地区男子女子混合金银铜金银铜金银铜1美国1715132914150012中国178112018121103英国1791396532110:225数据分析包括三种形式为数据画一个图制作一个表计算一些我们感兴趣的东西10:2263.1数据的预处理主要包括:数据的审核、筛选、排队(1)数据的审核与筛选a、审核:对第一手资料(直接调查或试验取得):审核其完整性与准确性完整性审核:应调查的单位或个体是否有遗漏;所调查的项目是否填齐全。准确性审核:内容是否符合实际;计算是否正确。如:文化程度:小学职业:大学教师对第二手资料(获取他人的资料):审核其完整性、准确性、适用性、时效性10:227b、筛选:剔除不符合要求的数据或有明显错误的数据;将符合特定条件的数据筛选出来。10:228(2)数据的排序数据排序是按一定顺序将数据排列。排序方式:数字型数据/字母型数据升序或降序汉字型数据多种排序目的:a、通过浏览数据发现一些明显的特征趋势或解决问题的线索;b、有助于数据的检查纠错;c、为分组提供依据。10:229统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。统计分组变量:分组时所依据的特征或标准,有定性变量和定量变量。频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。预处理数据分组计算频数描述统计3.2频数分布表10:22103.2频数分布表(定性数据)1.列出各类别3.计算各类别的频数3.生成频数分布表不重不漏搜索引擎访问量访问比例Google5062954.34%Direct2217323.80%Yahoo72727.80%MSN31663.40%SnapLink9461.02%其他89879.65%总计93173100%定义:选择一个变量对总体分组,并计算落在各组中的频数所形成的分布。分组频数10:2211频数分布表1.频数(frequency):落在各类别中的数据个数2.比例(proportion):某一类别数据个数占全部数据个数的比值3.百分比(percentage):将对比的基数作为100而计算的比值10:2212用Excel生成频数分布表态度频数不知道9既不反对也不赞成173完全不赞成50完全赞成235有些不赞成82有些赞成223总计77210:2213使用数据透视表(实例)3.3统计图如果想获得更生动的展示,我们可以使用统计图。统计图是用几何图形或具体事物的形象来表现统计数据的一种形式。统计图既可以节省大量文字叙述,又可便于数据的对比分析与积累。利用统计图表现统计数据,能更为鲜明醒目、一目了然、形象具体地显示现象之间的相互关系。按照图形的形式,统计图大体上可以分为几何图、象形图和统计地图三种。10:22143.3统计图(1)几何图。几何图是利用几何的形和线来表明统计数据的图形,包括条形图、饼图等。(2)象形图。象形图是以表示现象本身形象的长度、大小、多少来表示数值大小的一种图形。(3)统计地图。统计地图是用不同的颜色或纹理表示变量或某种指标在地域上的分布特征及规律,用以显示不同地域事物数量的分布情况。例如可以利用颜色的深浅来表示某地区各县某种产品的生产情况。如右图所示:10:2215条形图1.用宽度相同的条形的高度或长短来表示各类别数据2.各类别可放在纵轴,称为条形图,可以放在横轴,称为柱形图(columnchart)0.00%10.00%20.00%30.00%40.00%50.00%60.00%GoogleDirectYahooMSNSnapLink其他搜索引擎访问量050100150200250不知道既不反对也不赞成完全不赞成完全赞成有些不赞成有些赞成10:2216帕累托图--关键的少数和次要的多数1.按各类别数据出现的频数多少排序后绘制的柱形图2.用于展示分类数据的分布该帕累托图表明:对网站的访问主要途径依靠Google和Direct,KEEN公司需要在这两个途径上进行加强和改进。图3.8不同类型搜索引擎的频数分布表绘制的帕累托图10:2219关键的少数次要的多数简单饼图用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例用于研究结构问题54%24%8%3%1%10%GoogleDirectYahooMSNSnapLink其他10:2220复合饼图(示例)环形图1.环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示2.与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环3.用于结构比较研究10:2221环形图—多个总体的结构54%24%8%3%1%10%47%30%9%3%1%10%GoogleDirectYahooMSNSnapLink其他10:2222多变量数据—雷达图(实例)【例】甲乙两班成绩如下。试绘制雷达图。成绩甲班人数乙班人数优36良615中189及98不及格4210:2223多变量数据—雷达图05101520优良中及不及格甲班人数乙班人数10:22243.4列联表之初始数据一般,若总体中的个体可按两个属性A与B分类,A有r个等级A1,A2,…,Ar;B有с个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个属于等级Ai和Bj,nij称为频数,将r×с个nij(i=1,2,…,r;j=1,2,…,с)排列为一个r行с列的二维列联表,简称r×с表10:22253.4列联表之初始数据为了解不同地区或市场对一款新凉鞋款式的接受程度,调查了5个国家772名顾客收集两个变量:态度和国家态度有“完全赞成、有些赞成、既不反对也不赞成、有些不赞成、完全不赞成、不知道”6个水平国家类别有5个国家,表示该变量有5个水平10:2226见练习(初始数据)【例2-1】对初始数据前面数据生成频数分布表,观察不同国家的顾客及态度分布状况,并进行描述性分析3.4列联表之频数分布表10:2227态度汇总比例累积比例不知道91.2%100.0%既不反对也不赞成17323.4%98.8%完全不赞成506.5%76.4%完全赞成23530.4%69.9%有些不赞成8210.6%39.5%有些赞成22328.9%28.9%能否看出不同国家的人态度是否不同?使用数据透视表(例)3.4列联表表3.7对新凉鞋的接受态度的调查数据表(列联表)对新凉鞋的态度完全赞成有些赞成既不反对也不赞成有些不赞成完全不赞成不知道总计国家中国5258251231151法国3548402192154印度9628137100154英国21415023183156美国31484519103156总计23522317382509772列联表(contingencytable)是由两个或两个以上变量进行交叉分类得到的频数分布表。列联表中间的各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。构成列联表的变量都是分类变量或顺序变量。一个r行c列的列联表称为r×c列联表,一般的把2×2的二维列联表又称为交叉表。列联表可以有很多维。维数多的叫做高维列联表。10:2228能否看出不同国家的人态度是否不同?3.4列联表之总的百分数为了更便于理解,我们可以把对应于总的百分数的这部分数据单独拿出来,见表3.9。表3.9展示总的百分数的列联表对新凉鞋的态度完全赞成有些赞成既不反对也不赞成有些不赞成完全不赞成不知道总计国家中国6.74%7.51%3.24%1.55%0.39%0.13%19.56%法国4.53%6.22%5.18%3.72%1.17%0.26%19.95%印度13.44%3.63%1.68%0.91%1.30%0.00%19.95%英国3.72%5.31%6.48%3.98%3.33%0.39%20.21%美国4.02%6.22%5.83%3.46%1.30%0.39%20.21%总计30.44%28.89%23.41%10.62%6.48%1.17%100%3.4列联表使用列联表更感兴趣的问题是了解变量之间有没有关联。比如,我们希望知道中国人完全赞成新款式的比例与美国人完全赞成新款式的比例有没有区别,换句话说,被调查者对新款式的赞成是否依赖于被调查者所在的国家。可以从两方面看这个问题。首先,每个国家的对新凉鞋态度的分布是怎样的,这需要看表3.8的行百分数,于是得到表3.10。10:22313.4列联表之条件分布表3.10两个国家对新凉鞋态度的条件分布态度合计完全赞成有些赞成既不反对也不赞成有些不赞成完全不赞成不知道中国占比%525825123115134.4%38.4%16.6%7.9%3.0%.7%100%美国占比%3148451910315519.9%30.8%28.8%13.2%6.4%1.9%100%10:2232中国34%38%17%8%2%1%完全赞成有些赞成既不反对也不赞成有些不赞成完全不赞成不知道美国20%31%29%12%6%2%完全赞成有些赞成既不反对也不赞成有些不赞成完全不赞成不知道10:2233中美态度条形对比图010203040506070完全赞成有些赞成既不反对也不赞成有些不赞成完全不赞成不知道中国美国10:223434%38%17%8%2%1%20%31%29%12%6%2%完全赞成有些赞成既不反对也不赞成有些不赞成完全不赞成不知道10:2235哪个环代表中国/美国?中美态度环形对比图3.4列联表之案例列联表中的一个经典例子就是著名的泰坦尼克号邮轮的海难数据。该数据有4个定性变量:(1)仓位等级(Class):分一等舱(1st)、二等舱(2nd)、三等舱(3rd)、船员(Crew)四个水平;(2)性别(Sex):有男(Male)、女(Female)两个水平;(3)年龄:有儿童(Child)、成年人(Adult)两个水平;(4)是否生还(Survived):分否(No)、是(Yes)两个水平。10:2236该数据最简单的表格是两维的表格。下面是基于性别与否生还两个变量得到的2×2表格。从表中可以看出男性生还的人数比女性多23个,但男性死亡的比女性多1138个。是否生还否是性别男性1364367女性12634410:22373.4列联表之案例如果把四个变量都选入,就得到4×2×2×2表。显然这样的表格看起来就罗唆多了。仓位登记一等舱二等舱三等舱四等舱性别年龄是否生还否是否是否是否是男性儿童05011351300成年人118571541438775670192女性儿童01012171400成年人41401380897632010:22383.4列联表之案例辛普森悖论女生男生商学院法学院合计商学院法学院合计录取人数(人)49150151025报考人数(人)1002012020100120录取率(%)49%5%42%75%10%21%10:2239在某些情况下分组占优势的一方,在总评中反而失势总结1、频数分布表2、条形图—用于描述已经用频数或频率汇总了的定性变量。复式条形图3、饼图:适用于显示总体各组成部分的个体数量占总体的比例。圆环图4、百分条图:适用于多组百
本文标题:《统计学思想方法与应用》第3章分类数据的描述分析
链接地址:https://www.777doc.com/doc-2801845 .html