您好,欢迎访问三七文档
描述统计描述统计:描述一组数据的分布特征。统计图表条形图(棒图):表示分类变量等离散性数据资料012345678咖啡茶可可圆形图(饼图):表示分类变量等离散性数据资料28%39%33%咖啡茶可可直方图:表示等比或等距变量等连续性数据资料181614121086Trial243210Frequency折线图:表示等比或等距变量等连续性数据资料161412108Trial24.03.53.02.52.01.51.0Count茎叶图:将每一数字分解为左边部分(称为茎)和右边部分(称为叶).如果数字是两位数,左边的一位就是茎,右边的一位就是叶茎叶图兼具次数分布表和直方图的双重优点,有非常高的实用价值。历年真题•等距量表的特点是(B)(2007,全国统考)A.无绝对零点,无相同单位B.无绝对零点,有相同单位C.有绝对零点,无相同单位D.有绝对零点,有相同单位次数分布表简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编织成的统计表。——————————————血型人数—————————————A143B182AB98O102—————————————分组次数分布表:当数据量很大时,把所有数据先划分为若干组,将数据按数值大小划归到相应组别内,分别统计各组别中数据的个数,用列表形式呈现出来。•相对次数分布表:将次数分布表中各组的实际次数转化为频率比率(f/N)或百分比等项对此书来表示。•累积次数分布表:把各组次数由下而上或由上而下累加在一起。双列次数分布表:又称相关次数分布表,把有联系的两列变量用同一个表表示其分布。集中量数•集中趋势与离中趋势是次数分布的两个基本特征。•数据的集中趋势就是指数据分布中大量数据向某方向集中的程度。•用于描述数据集中程度的统计量,就是集中量数。•算术平均数、中数、众数、加权平均数、几何平均数、调和平均数等。算术平均数•简称平均数(average)或均数、均值(mean)•表示:μ、M、、计算:•例:有一组数据如下,计算它们的平均数:34,36,29,33,34,30解:=(34+36+29+33+34+30)/6=32.67nXXi•特点:1)在一组数据中每个变量与平均数之差(离差)的总和等于0。2)在一组数据中,每个数都加上一个常数C,所得平均数为原来的平均数加常数C。3)在一组数据中,每个数都乘上一个不为0的常数C,所得平均数为原来的平均数乘常数C。•意义:1)应用最普遍的集中量数。2)是“真值”最佳无偏的估计值。•优点:1)反应灵敏。2)计算简单、严密。3)简明易懂。4)便于进一步统计。5)受抽样影响小。•缺点:1)受极端值影响大。解决方法:修剪平均数,去除极端值。2)不能有缺失值。用中数等代替•应用原则:1)同质性。2)平均数与个体数值相结合。3)平均数与标准差、方差相结合。中数•又称中点数、中位数、中值。数据排序后,中数刚好把数据的数目分成两半。•表示:Md或Mdn•计算:先将数据排序。•数据个数为奇数:中间位置(第位置)的数就是中数。•例:有一组数据如下,计算它们的中数:29,30,33,34,36解:Md=3321n2)数据个数为偶数:位于中间的两个数的均值(第和位置数据的均值)就是中数。例:有一组数据如下,计算它们的中数:29,30,33,34,35,36解:Md=33.52n12n•3)数据中间有数值相等的几个数:将中间重复的数看作连续体,利用中间分数的精确上下限进行插值。•例:有一组数据如下,计算它们的中数:12,13,13,14,15,15,15,15,15,16解:12,13,13,14,15,15,15,15,15,16累积百分比中,第一个“15”的位置:40%,最后一个“15”的位置:90%15的精确上下限:14.5,15.5。,15.5–Md=0.8,Md=14.7%40%90%50%905.145.155.15Md•优点:1)计算简单,容易理解。2)不受极端值影响。•缺点:1)没有利用全部数据。2)不灵敏。3)受抽样影响大,不稳定。4)不能进一步代数运算。•应用:当观测值中有极端值、缺失值。快速估计数据的集中趋势。众数•又称范数、密集数、通常数。在次数分布中出现次数最多的数值。•表示:Mo•计算:找在次数分布中出现次数最多的数值。•例:有一组数据如下,计算它们的众数:34,36,29,33,34,30解:Mo=34•优点:1)计算简单,容易理解。2)不受极端值影响。•缺点:1)没有利用全部数据。2)不灵敏。3)受抽样影响大,不稳定。4)不能进一步代数运算。•应用:1)观测值中有极端值、缺失值。2)快速估计数据的集中趋势。3)数据不同质(命名型数据)。4)检查数据偏态(平均数-众数)。5)出现双峰分布。平均数、中数、众数三者关系:三者在偏态分布中:平均数永远在尾端,中数永远在中间。历年真题•已知50个数据Xi(i=1,2,…..50)的平均数为100。若Yi=Xi+10,则Yi的平均数为________;若Zi=10Xi,则Zi的平均数等于________。(浙大,2002)•现有一列数据,他们是4、4、5、3、5、5、2.这列数据的平均数、众数和全距依次是(B)(2007,全国统考)A.4,4,2B.4,5,3C.5,4,4D.5,5,1差异量数•数据的离中趋势是指数据分布中数据彼此分散的程度。•差异量数就是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量,也称为离散量数。•离差、平均差、标准差、方差、变异系数、全距、四分位差、百分位差……离差与平均差离差(deviation):一组数据中,某个数据到均值的距离。计算:离差=X-例:统计考试平均分85,某同学考了80,则离差=80–85=-5离差的缺点:一组数据中所有数据点的离差和必为0。无法反映一组数据的离中趋势。X•平均差(averagedeviation或meandeviation):一组数据中,所有数据点到均值的离差的绝对值的平均值。•符号:A.D.或M.D.•计算:A.D.=•例:30,32,34,35,29的平均差解:n=5,=32A.D.=(|30-32|+|32-32|+|34-32|+|35-32|+|29-32|)/5=(2+0+2+3+3)/5=2•平均差的缺点:有绝对值,不利于进一步分析。nxnXXii||||X方差与标准差•和方(SS):离差的平方和。•计算:SS=•另一种计算公式:SS=22)(iixXXnXXii22)(方差与标准差•方差:也称为变异数、均方。总体方差用σ2表示,样本方差用s2表示。•标准差:方差的平方根。总体标准差用σ表示,样本标准差用s表示。•计算:σ2=,σ=s2=,s=NSS21nSS2s•注:总体的方差和样本的方差计算上有不同。•原因:样本比其所属的总体变异性少,方差、标准差的计算需要校正。n-1是样本的自由度,利用自由度来校正样本,可以得到对总体参数的无偏差估计。•自由度的概念:给定参数后可以自由变化的数值的个数。•例:样本均值=4,样本个数n=5,其中4个数是5,4,6,2,则第5个数必为3,不可能自由变化。•方差与标准差的特点:•1)在一组数据中,每个数都加上一个常数C,方差、标准差不变。•2)在一组数据中,每个数都乘上一个不为0的常数C,所得标准差为原来的标准差乘常数C。•方差与标准差的优点:•最常用的差异量数。•反应灵敏,计算严密,意义明确,便于进一步统计,受抽样影响小。•已知一组数据的均值、标准差,可以知道落在几个标准差范围之内数据的百分比(切比雪夫定理)。•对于任何一个数据集合,至少有的数据落在平均数的h(h1)个标准差之内。211h•例:若某组数据的平均数为90,标准差为8,则根据切比雪夫定理,至少有75%的数据落在________之间。(浙大2002)•解:=0.75,h=2,90–8*2=74,90+8*2=106,所以至少有75%的数据落在74~106之间。211h变异系数•变异系数(CV):又称差异系数、相对标准差,是标准差对平均数之百分比。•计算:CV=*100%•意义:不同质的数据之间的比较,如学生的身高和体重哪个离散程度大等。•注意:一般用于具有绝对0点的等比数据。只能进行一般描述统计,尚无法进行推论统计。Xs历年真题•描述数据离中趋势的统计量有(A、B、C、D)(2007,全国统考)A.方差B.标准差C.平均差D.四分位差相对量数•百分位数•百分位数:又叫百分位点,指量尺上的一个点,在此点以下,包含了数据分布中一定百分比的数据个数。•例:某次考试成绩中,某班级的P90=88.5,则表明小于等于88.5分的学生在该班中占了90%。百分等级•百分等级:百分位数的逆运算,指任意分数在整个分布中所处的百分位置。•例:某次考试成绩中,某班级某学生的P88.5=90,则表明该学生的成绩比全班90%的人要好,比10%的人要差。历年真题•某考生在一项测验中得分60,经换算百分等级为70,这表明在所有考生中,得分低于该考生的人数占总人数的(D)(2007,全国统考)A.30%B.40%C.60%D.70%标准分数•标准分数:又称z分数或基分数,以标准差为单位,表示一个原始分数在团体中所处位置的相对量数。•标准分数的特点:z分数的分布形状和原始分数的分布完全相同。z分数均值为0,标准差为1。所有原始分数转化为z分数之后,这些z分数之和也为0。•标准分数的优点:可比,可加,明确,稳定。•标准分数的应用:标准化(IQ)。可以计算概率(查Z分数表或公式计算)。比较不同质的变量之间的关系(确定在团体中的位置)。历年真题•已知某次学业成就测验的平均分数是80,标准差为4.如果某考生得分为92,则该分数转换为标准分后是(C)(2007,全国统考)A.1B.2C.3D.4数据描述小结描述整个分布用表:次数分布表用图:命名变量、顺序变量:棒图、饼图等距变量、等比变量:直方图、折线图概括整个分布•集中趋势:等距变量、等比变量:相对正态、无缺失值:均值严重偏态、有缺失值:中数命名变量、顺序变量:众数•离中趋势:与均值对应:标准差与中数对应:四分位差、全距相对量数•与均值的相对位置:Z分数。•与分布中其它值得相对位置:百分位等级。Z分数、百分数相互转换•有一次测验成绩(正态)μ=80,σ=8,Tom得分X=84,Mary在第60个百分点上,John得分换算成Z分数是Z=0.75,将此三人分数从高到低排序。解:Tom:Z=(84–80)/8=0.5Mary:P=0.6,Z=0.26John:Z=0.75所以:JohnTomMary相关量数•双变量之间的因果关系,共变关系,相关关系。•相关关系:两个变量之间发展的方向和大小存在一定的关系,但不能确定何者为因,何者为果,也不知道两者是否受某个其他因素的共同影响。散点图通过点的散布形状和密度来显示两个变量的相关趋势和相关程度。历年真题•用于描述两个变量之间相关关系的统计图是(D)(2007,全国统考)A.直方图B.线形图C.条形图D.散点图相关类别线性相关,非线性相关正相关,负相关,零相关(无相关)相关系数•相关系数:两列变量间相关程度的数字表现形式,是用来表示相关关系强度的指标。•表示:总体相关系数用ρ,样本相关系数用r。•-1≤r≤1•注意:•正负号表示相关方向,数值表示相关强弱•样本量的大小•线性、非线性积差相关•又称为Pearson相关,积矩相关。•计算前提:正态、连续变量成对、线性关系积矩•积矩(SP):离差的乘积和。SS和SP的对比和方(SS)乘积和(SP)SS=SP=SS=SP=22)(iixXX))((XXXXii))((YYXXiinXXXXiiiinYXYXiiiiPearson相关的计算•例:(2001北大)一位教育学教师让每个学生报告他们用于准备考试的时间和考试时答错的题目数:准备考试的小时数答错的题目数4501223233164计算用于准备考试的时间和考试时答错的题目数之间的积差相关系数•
本文标题:北大描述统计课件
链接地址:https://www.777doc.com/doc-3793256 .html