您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第3章-描述统计-数值方法2
本章要点:单变量数据的集中测度平均数、中位数、众数、百分位数单变量数据的变异指标极差、四分位距、方差、标准差、变异系数数据分布形态及异常值的检测双变量数据之间关联程度指标协方差、相关系数第3章描述性统计:数值方法统计图表3统计图表4数值方法说明:•根据样本的数据计算得到样本统计量;根据总体的数据计算得到总体参数。•在统计推断中,样本统计量被认为是相应的总体参数的点估计统计图表6统计图表7一、平均数平均数(mean)/平均值(averagevalue):对数据的中心位置进行度量。如果一组数据是样本,则平均数用𝑥表示,如果是总体,则平均数用希腊字母𝜇表示样本平均数:𝑥=∑𝑥𝑖𝑛上述公式中,分子是𝑛个观察值的和∑𝑥𝑖=𝑥1+𝑥2+⋯+𝑥𝑛希腊字母∑代表求和符号总体平均数:假设总体观察值的个数是N,则总体平均𝜇=∑𝑥𝑖𝑁1、位置指标(平均指标)例子:商学院毕业生数据假设某大学就业指导中心对一个商学院的毕业生进行了一次问卷调研,以获取毕业生起始月薪的有关信息,下表列出了相关信息,样本中12名商学院毕业生的起始月薪的平均值计算如下:平均数一组数据的重要特征受到极端数据的影响如果数据分布非常集中,平均数可以比较好地反映数据集中趋势(位置)统计图表14二、中位数例子:商学院毕业生数据将月薪按照升序排列如下:331033353450348034803490352035403550365037303925由于12是偶数,找出最中间的两个数,3490和3520,中位数就是他们的平均值3490+35202=3505顺序数据的中位数(例题分析)解:中位数的位置为301/2=150.5从累计频数看,中位数在“一般”这一组别中。因此Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—4-18数值型数据的中位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080521921n位置平均数/中位数?平均数是一个被普遍采用的指标有些场合倾向于使用中位数(平均数往往会受到一些异常小或异常大的数的干扰)例子:商学院毕业生数据某位毕业生起薪为每月10000美元,如果我们将表中的最高起始月薪3925美元改为10000美元,再重新计算平均数和中位数:样本平均数:3540美元4046美元样本中位数:3505美元不变当数据中含有异常值时,我们更倾向于使用中位数作为对数据中心趋势的度量三、众数众数(mode):出现频率最高的数例子:大学班级规模数据考虑一个由5个大学班级的学生数组成的样本:3242464654众数:46(这个数字出现了两次)出现频率最大的数据可能有两个或者更多时:双众数、多众数,在多众数的场合,众数一般不再被报告出来4-21众数(不唯一性)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:252828364242众数主要适用于分类数据不同品牌饮料的频数分布饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解释:在所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,显然,此时计算平均数或中位数都没那么意义统计图表23四、百分位数第p百分位:至少有p%的观察值小于或等于该值,并且至少有(100-p)%的观察值大于或等于该值例子某个考生在入学考试的口头表达部分得到的原始分是54分,那么这名学生的表现与其他参加考试的学生相对比,孰优孰劣并不能一下子清楚看出来,但如果报告中,54分与70%分位数向对应,意味着70%的学生成绩低于该考生,而大约30%的学生的成绩高于该考生。百分位数如何计算第p个百分位数将数据从小到大排列计算第p个百分位数的位置i𝑖=𝑝100𝑛如果i不是整数,向上取整,即比i大的下一个整数就是第p个百分位数的位置如果i是整数,第i和第i+1个数的平均数就是第p个百分位数百分位数例:例子:起薪数据1、将数据按照升序排列:3310333534503480348034903520354035503650373039252、𝑖=𝑝100𝑛=85100×12=10.23、因为i不是一个整数,所以向上取证,85%分位数是位置大于10.2的下一个整数,即第11个位置4、回到数据:85%分位数是第11个数字,即3730Question:数据的50%分位数?五、四分位数四分位数实际上就是几个特殊的百分位数第一个四分位数=第25个百分位数第二个四分位数=第50个百分位数=中位数第三个四分位数=第75个百分位数28对于3Q:(/100)(75/100)129ipn同样,因为i是整数,所以3Q第9个和第10个数据值的平均数。即3(35503650)/23600Q。例考虑表3-1中的起薪数据,还是以升序排列。2Q,即第2个四分位数(中位数),已经确定为3505。对于1Q:(/100)(25/100)123ipn因为i是整数,所以1Q是第3个和第4个数据值的平均数。即1(34503480)/23465Q。四分位数1Q和3Q的计算需要使用计算第25个和第75个百分位数的规则:四分位数例331033353450348034803490352035403550365037303925【例】:如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,两家供应商均表示能在大约10个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所需天数的分布情况却是不同的(图)。相对频数相对频数5A供货商B供货商43211111191011天789101112131415天问:两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择哪家供货商供货呢?2、变异指标一、极差极差是测度数据变异性的最简单的方法极差=最大值–最小值极差很容易受到极端值的影响例子:商学院毕业生数据最高起薪3925美元,最低起薪3310美元,极差为3925-3310=615美元如果有一个毕业生的起薪是10000美元,极差变为:10000-3310=6690美元二、四分位距四分位数间距等于第三个四分位数减去第一个四分位数,反映的是位于中间的50%的数据间距四分位数克服了全距容易受极端值影响的缺点例子:商学院毕业生数据𝑄3−𝑄1=3600−3465=135三、方差方差利用了数据集中的所有数据对数据的离散度和变异性进行测度方差考察所有的数据(xi)与平均值之间的差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差总体方差用𝜎2,计算公式如下:𝜎2=∑𝑥𝑖−𝜇2𝑁样本方差用𝑠2表示,计算公式如下:𝑠2=∑(𝑥𝑖−𝑥)2𝒏−𝟏例子:大学班级规模数据:3242464654离差平方和∑(𝑥𝑖−𝑥)2=256,样本方差为𝑠2=∑𝑥𝑖−𝑥2𝑛−1=2564=64方差的计算公式方差计算过程四、标准差标准差:方差的正平方根样本标准差𝑠=𝑠2总体标准差𝜎=𝜎2标准差比方差更容易解释,因为标准差与原始的单位是一致的统计图表362、变异指标【例】现有下列三组学生的成绩A:508095100100B:7582858895C:8585858585试比较这三组学生成绩水平.五、变异系数【引例1】已知以下资料,试比较哪组数据更集中.___73,1.41xs幼儿组身高(cm)成人组身高(cm)王甜张琴李朋英洁伍平7172737475张红李兵王云陈明梁东164166168170172幼儿组成人组问:是否幼儿组的身高数据更集中?波动性更小?___168,2.83xs变异系数衡量标准差与平均数的相对大小的描述性统计量标准差平均数×100变异系数是对波动程度的一种相对衡量指标,它衡量了标准差对平均数的相对大小幼儿组身高:样本均值是73,标准差是1.41,变异系数是1.4173×100%=1.93%成人组身高:样本均值是168,标准差是2.83,变异系数是2.83168×100%=1.7%3、分布形态、相对位置的度量以及异常值的检测分布形态偏度=𝑛𝑛−1𝑛−2∑𝑥𝑖−𝑥𝑠34-41众数、中位数和均值的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值Z-分数(标准分)数据集中的相对位置:帮助我们确定一个特定数据与整体平均值的距离利用平均数和标准差来确定相对位置例子:假设我们有一个包含𝑛个观察值的样本,其数值用𝑥1,…,𝑥𝑛表示。样本平均数𝑥和标准差𝑠已知,对任何一个数值𝑥𝑖都有一个Z-分数𝑧𝑖𝑧𝑖=𝑥𝑖−𝑥𝑠Z-分数特点z分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。Z-分计算例9个家庭人均月收入标准化值计算表家庭编号人均月收入(元)标准化值z123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996学号高数成绩成绩8034001888980340027175803400384948034004805280340054224803400654488034007777080340088466803400963248034010767380340118272803401280688034013665280340147455803401564568034016726080340177862803401846618034019827980340388974数据标准化的应用标准化高数成绩标准化成绩1.1655687071.473100729-0.1210980470.6889406450.8628235881.7531579020.560078469-0.59932235-2.316000157-2.167642518-1.407764802-0.8233680880.333019630.4088834720.8628235880.184837734-0.726588285-2.1676425180.2573333510.5769177760.7114510290.5209063420.5600784690.296860603-0.499529446-0.599322350.105960792-0.431288046-0.650902005-0.375276612-0.045411768-0.1512308730.40870591-0.039208004-2.013255039-0.0952194390.7114510290.9129863841.2412549860.632929211对于服从钟形分布的数据:大约68%的数据在平均值+一倍标准差的范围内大约95%的数据在平均值+两倍标准差的范围内几乎所有(99.7%)数据在平均值+三倍标准差的范围内.经验法则47例液体清洁剂在生产线上被填充的重量通常呈铃形分布。填充重量均值是16盎司,标准差是0.25盎司,利用经验法则可以得出下列结论:大约68%的填充重量为15.75-16.25盎司(即在均值l倍标准差范围内)大约95%的填充重量为15.50-16.50盎司(即在均值2倍标准差范围内)几乎所有的已填充重量为15.25-16.75盎司(即在均值3倍标准差范围内)经验法则异常值的检验异常值(outl
本文标题:第3章-描述统计-数值方法2
链接地址:https://www.777doc.com/doc-4706690 .html