您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > R语言入门数据特征的描述
实验目的实验内容学习如何应用R软件描述数据特征1、方法简介2、应用实例3、实验作业第八讲数据特征的描述§3数据分布特征的测度§3.1集中趋势的测度§3.2离散程度的测度§3.3偏态与峰态的测度学习目标1.集中趋势各测度值的计算方法2.集中趋势各测度值的特点及应用场合3.离散程度各测度值的计算方法4.离散程度各测度值的特点及应用场合5.偏态与峰态的测度方法6.用R计算描述统计量并进行分析数据分布的特征集中趋势(位置)偏态和峰态(形状)离中趋势(分散程度)数据分布特征的测度数据特征的测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰态四分位差异众比率偏态§3.1集中趋势的测度一.分类数据:众数二.顺序数据:中位数和分位数三.数值型数据:均值四.众数、中位数和均值的比较集中趋势(Centraltendency)1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据众数(mode)1.出现次数最多的变量值2.不受极端值的影响3.一组数据可能没有众数或有几个众数4.主要用于分类数据,也可用于顺序数据和数值型数据众数(不唯一性)•无众数原始数据:10591268一个众数原始数据:679877多于一个众数原始数据:252828423636分类数据的众数(例题分析)不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值在所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即Mo=可口可乐顺序数据的众数(例题分析)解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.0中位数(median)1.排序后处于中间位置上的值Me50%50%2.不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能用于分类数据4.各变量值与中位数的离差绝对值之和最小,即min1nieiMx中位数(位置的确定)原始数据:顺序数据:21n中位数位置2n中位数位置顺序数据的中位数(例题分析)解:中位数的位置为300/2=150从累计频数看,中位数在“一般”这一组别中。因此Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—数值型数据的中位数(9个数据的算例)•【例】:9个家庭的人均月收入数据•原始数据:15007507801080850960200012501630•排序:75078085096010801250150016302000•位置:123456789中位数1080521921n位置数值型数据的中位数(10个数据的算例)•【例】:10个家庭的人均月收入数据•排序:66075078085096010801250150016302000•位置:123456789105.5211021n位置102021080960中位数四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%四分位数(位置的确定)原始数据:4)1(341nQnQUL位置位置顺序数据:434nQnQUL位置位置顺序数据的四分位数(例题分析)解:QL位置=(300)/4=75QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此QL=不满意QU=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—数值型数据的四分位数(9个数据的算例)•【例】:9个家庭的人均月收入数据•原始数据:15007507801080850960200012501630•排序:75078085096010801250150016302000•位置:1234567895.74)19(35.2419位置位置ULQQ15652163015008152850780ULQQ数值型数据的四分位数(10个数据的算例)•【例】:10个家庭的人均月收入数据•排序:66075078085096010801250150016302000•位置:1234567891025.84)110(375.24110位置位置ULQQ5.1532)15001630(25.015005.772)750780(75.0750ULQQ均值(mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据简单均值与加权均值(simplemean/weightedmean)设一组数据为:x1,x2,…,xn或各组的组中值为:M1,M2,…,Mk相应的频数为:f1,f2,…,fk简单均值nxnxxxxniin121nfMffffMfMfMxkiiikkk1212211加权均值已改至此!!某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)Mifi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—12022200185120222001nfMxkiii加权均值(例题分析)加权均值(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下•甲组:考试成绩(x):020100•人数分布(f):118•乙组:考试成绩(x):020100•人数分布(f):811)(82108100120101分甲nxxnii)(12101100120801分乙nxxnii均值(数学性质)•1.各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小niixx12min)(niixx10)(调和平均数(harmonicmean)1.均值的另一种表现形式2.易受极端值的影响3.计算公式为iiiiiiiimffMMfMfMH调和平均数(例题分析)某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)Mi成交额(元)Mifi成交量(公斤)fi甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格(元)批发价格成交额成交额769.04800036900mH几何平均数(geometricmean)1.n个变量值乘积的n次方根2.适用于对比率数据的平均3.主要用于计算平均增长率4.计算公式为5.可看作是均值的一种变形nniinnmxxxxG121nxxxxnGniinm121lg)lglg(lg1lg几何平均数(例题分析)【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。%91.114%120%116%109321nnmxxxG年平均增长率=114.91%-1=14.91%001(1)(1)nnniiPxPPx几何平均数(例题分析)【例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率%0787.81%9.101%5.125%1.102%5.1044G算术平均:%5.84%9.1%5.25%1.2%5.4G几何平均:众数、中位数和均值的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值众数、中位数和均值的特点和应用1.众数–不受极端值影响–具有不唯一性–数据分布偏斜程度较大时应用2.中位数–不受极端值影响–数据分布偏斜程度较大时应用3.均值–易受极端值影响–数学性质优良–数据对称分布或接近对称分布时应用数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型分类数据顺序数据间隔数据比率数据适用的测度值※众数※中位数※均值※均值—四分位数众数调和平均数—众数中位数几何平均数——四分位数中位数———四分位数———众数§3.2离散程度的测度一.分类数据:异众比率二.顺序数据:四分位差三.数值型数据:方差及标准差四.相对位置的测量:标准分数五.相对离散程度:离散系数离中趋势1.数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值异众比率(variationratio)•1.对分类数据离散程度的测度•2.非众数组的频数占总频数的比率•3.计算公式为4.用于衡量众数的代表性imimirfffffv1异众比率(例题分析)解:在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好%707.050151501550rv不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100四分位差(quartiledeviation)1.对顺序数据离散程度的测度2.也称为四分间距(inter-quantilerange)3.上四分位数与下四分位数之差QD=QU–QL反映了中间50%数据的离散程度4.不受极端值的影响5.用于衡量中位数的代表性四分位差(例题分析)解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5已知QL=不满意=2QU=一般=3四分位差:QD=QU-QL=3–2=1甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910R=max(xi)-min(xi)5.计算公式为平均差(meandeviation)1.各变量值与其均值离差绝对值的平均数2.能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少4.计算公式为未分组数据组距分组数据nxxMniid1nfxMMkiiid1平均差(例题分析)某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140—150150—160160—170170
本文标题:R语言入门数据特征的描述
链接地址:https://www.777doc.com/doc-2856383 .html