您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > ch05如何描述数据――数值方法
心理统计黄华hhsky@126.comCh05:如何描述数据——数值方法date20090905如何描述数据——数值方法集中趋势的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析附录:应用spss获得位置和变异的度量平均数(均值)•平均数(Mean):衡量数据集中心位置的量度。用所有数据值相加的和除以项数计算。•如果数据来自某个样本,则平均数以表示;如果数据来自某个总体,则其平均数以希腊字母μ表示。样本平均数总体平均数•Review:–总体参数:用来概括总体数据的量度的数值。–样本统计量:用来概括样本数据的量度的数值。x关于均值•Q:中国妇女平均生1.5个小孩。你的5岁的小侄子问你“可能吗?怎么有半个小孩?”你该如何跟他解释?•均值的一些特质–对极值敏感–各变量值与其均值离差之和等于零。即–各变量值与其均值的离差平方和最小,即练习0)(1NiiXXNiXX1i2)min()(最小中位数(中数)•中位数(Median):衡量数据集中心位置的量度。中位数的值将所有的数据分为两个相等部分,一部分的值都大于或等于它,而另一部分的值都小于或等于它。奇数项:以递增顺序排列的所有数据项的正中央的那一项的数值。偶数项:以递增顺序排列的所有数据项的正中央的两项的平均值。•衡量数据中心位置时,平均数的应用要更加普遍。但在某些情况下,平均数往往会受到极端大的或极端小的数值的影响。–例:在年收入数据中,因为收入中的少数极端值将会夸大平均数。在这种情况下,中位数成为更好的衡量中心位置的量度。例:12名心理系毕业生的起始月薪数据样本GraduateStartingSalary128502295033050428805275562710728908313092940103325112920122880平均数:$2940中位数:$290510000平均数:$3496中位数:$2905众数•众数(Mode):用以衡量数据的位置的量度,定义为发生频数最高的数据值。•有时发生频数最大的数据值可能会有两个或更多。−如果在数据中恰有两个众数,我们称此数据是双众数的。−如果在数据中有多于两个的众数,我们则称此数据是多众数的。−在多众数的情况下,众数几乎从不被列报。因为列出3个或更多的众数,对于描述数据的位置并不能起多大作用。•众数是衡量品质数据位置的重要量度均值、中数与众数•众数是一组数据分布的峰值,它是一种位置代表值,不受极端值的影响。缺点是不具有唯一性;•中位数是一组数据中间位置上的代表值,特点是不受数据极端值的影响;•均值是对于数值型数据计算的,而且利用了全部数据信息,它具有良好的数学性质,应用比较广泛。缺点是易受极端数据的影响。–对于偏态分布数据,均值代表性较差。当数据为偏态分布,特别是偏度较大时,应选择众数或中位数等位置代表值。均值、中数与众数•Q:报告本市人均收入时你会选择哪种位置量数来说明?均值、中数还是众数?——–如果你是肇庆市长?–如果你是人权领袖?–如果你是尊重公正的统计学家呢?–Why?百分位数•百分位数(Percentile):至少有p%的数据项小于等于这个值,且至少有(100-p)%的数据项大于等于这个值。–其中:第50百分位数即为中位数。•计算第p百分位数第1步:以递增顺序排列原数据(即从小到大排列)。第2步:计算指数i第3步:(1)若i不是整数,将i向上取整。大于i的毗邻整数指示第p百分位数的位置。(2)若i是整数,则第p百分位数是第i项与第(i+1)项数据的平均值。例:12名心理系毕业生的起始月薪数据,计算第85百分位数•第1步:将12个数据以递增顺序排列。•第2步:•第3步:由于i不是整数,将其向上取整,则第85百分位数的位置是第11项,即3130元。练习:计算第50百分位数?Graduate651412711923810StartingSalary271027552850288028802890292029402950305031303325四分位数•人们经常会将数据集划分为4个部分,每一个部分大约包含有1/4即25%的数据项。这种划分的临界点即为四分位数(Quartiles):Q1=第1四分位数,即第25百分位数Q2=第2四分位数,即第50百分位数Q3=第3四分位数,即第75百分位数Graduate651412711923810StartingSalary27102755285028802880289029202940295030503130332505如何描述数据——数值方法位置的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析附录:应用spss获得位置和变异的度量变异程度的度量•校门口两家快餐店都宣称点菜后10分钟就能上菜,你常常光顾这两家店,几个月下来,发现他们两家的上菜时间的平均数都是10分钟左右。两家店上菜时间的数据直方图如下图所示。二者是否在按时上菜的可靠性上是一致的?单凭这一点,你更愿意去哪个快餐店消费呢?00.10.20.30.40.578910111213141500.10.20.30.40.589101112全距•全距(Range):用以衡量变异程度的量度,为最大值减最小值的差。•是衡量数据集变异程度的最简单的量度。但它却极少被单独使用,原因是全距仅仅是基于两个数据项的,因此极大地为极端数值所影响。Graduate651412711923810StartingSalary271027552850288028802890292029402950305031303325四分位点内距•四分位点内距(Interquartilerange,IQR):用以衡量变异程度的量度,定义为第3四分位数与第1四分位数之差。也就是说,四分位点内距是在中间的50%的数据的全距。•对于上述的起薪数据,四分位数Q1=2865,Q3=300。因此,四分位点内距为135。Graduate651412711923810StartingSalary271027552850288028802890292029402950305031303325离差平方和•SS:sumofsquares•距离均值越远对SS的影响越大–离散大的分布比离散小的分布,SS要大。–Q:SS是离散程度的测度吗?•数值离均值的距离•分布中有多少的数值NiXXSS1i2)(Distance-4-3-2-101234(distance)216941014916方差•方差(Variance):用以衡量数据集变异程度的量度,是建立在距平均数离差的平方值的基础上的。•如果数据集是总体,则离差的平方的平均值称为总体方差:•分析的数据集是一个样本,则样本方差定义如下:起始月薪样本平均数对平均数的离差对平均数的离差的平方28502940-9081002950294010100305029401101210028802940-60360027552940-1853422527102940-2305290028902940-502500313029401903610029402940003325294038514822529202940-2040028802940-6036000301850起始月薪样本平均数对平均数的离差对平均数的离差的平方28502940-9081002950294010100305029401101210028802940-60360027552940-1853422527102940-2305290028902940-502500313029401903610029402940003325294038514822529202940-2040028802940-6036000301850标准差•标准差(Standarddeviation):用以衡量数据集变异程度的量度,取方差的正的平方根。总体标准差样本标准差•对于起始月薪的数据集,样本标准差为方差和标准差•方差与标准差是表示一组数据离散程度的最好指标。其值越大说明离散程度大,其值小说明数据比较集中。–反应灵敏。容易计算;简单明了;适合代数运算;–受抽样变动的影响小,不同样本的标准差或方差比较稳定;–具有可加性。可以把总变异分解为不同来源的变异。–每个观测值加上相同常数C后,计算得到的标准差不变;–每个观测值都乘以一个相同常数C后,计算得到的标准差是原来标准差的C倍练习•10年后,你涉足房地产投资。肇庆三个地片的房子公布了它们去年的信息。你很想买一个公寓以获得有保证的投资回报(SD=标准差)。–A:销售价格的均值去年增高了700元,SD是400元;–B:销售价格的均值去年增高了500元,SD是100元;–C:销售价格的均值去年增高了700元,SD是80元;•那么–你认为哪个地片最有可能使你获益?哪一个最不可能?–如果你的选择没有差错,哪个地片可以使你获得的收益最多?标准差与基金或股票投资(简介)•基金投资:风险控制(简介)–风险是对基于历史数据得出的波动性的客观描述–E.g.一个基金的年均收益20%,标准方差25–中小盘与大盘基金的差别标准差系数(变异系数)•标准差系数(Coefficientofvariation):衡量数据集相对变异程度的量度,以标准差除以平均数再乘以100得到。•对于前面的起薪数据,样本平均数为2940,样本标准差为165.65,标准差系数为(165.65/2940)×100=5.6。它告诉我们样本标准差的值仅为样本平均数的5.6%。•可以用于有不同的标准差和不同的平均数的数据集的比较。案例•同一个测试。7岁学生的平均分数是60分,SD=4.02分,14岁的学生平均分数是80分,SD=6.04分,–问这两个年龄的测验分数哪一个离散程度更大?扁平分布尖峰分布偏态峰度左偏分布右偏分布与标准正态分布比较!偏态与峰度偏态•数据分布偏斜程度的测度–偏态系数=0为对称分布–偏态系数0为右偏分布–偏态系数0为左偏分布3133NFXXKiii偏态:案例户数比重(%)252015105农村居民家庭村收入数据的直方图按纯收入分组(元)1000500←15002000250030003500400045005000→1.为右偏分布2.峰度适中峰度•数据分布扁平程度的测度–峰度系数=3扁平程度适中–峰度系数3为扁平分布–峰度系数3为尖峰分布4144NFXXKiii偏态分布中的众数、中数和均值•单峰分布条件下:–如果分布是对称的,则Mo=Me=X–如果分布是左偏的,则XMeMo–如果分布是右偏的,则MoMeX对称分布均值=中位数=众数左偏分布均值中位数众数右偏分布众数中位数均值05如何描述数据——数值方法位置的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析附录:应用spss获得位置和变异的度量Z分数•Z分数(z-Score):以距平均数的离差()除以标准差s所得的值。Z分数是标准化的数值,指数据值xi距离平均数的标准差的个数。•z分数经常被称为是标准化分数。比如,z1=1.2表示x1比样本平均数大1.2个标准差。z2=-0.5表示x2比样本平均数小0.5个标准差。•两个不同数据集的项有相同的z分数,则可以说它们有相同的相对位置,因为它们都与平均数的距离有相同个数的标准差。x-xix切贝谢夫定理切贝谢夫定理(Chebysher’stheorem)在任意一个数据集中,至少有(1-1/z2)的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值。•z=2,3,4个标准差时,这一定理的含义:−至少0.75,即75%的数据项与平均数的距离在z=2个标准差之内。−至少0.89,即89%的数据项与平均数的距离在z=3个标准差之内。−至少0.94,即94%的数据项与平均数的距离在z=4个标准差之内。练习•假设100名学生统计学课程考试,平均分数为70,标准差为5,那么有多少学生的分数在60~80之间?有多少学生的分数在58-82之间?•对于60-80之间,到60比平均数低两个标准差而80比平
本文标题:ch05如何描述数据――数值方法
链接地址:https://www.777doc.com/doc-3403124 .html