您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 应用统计学教学资料统计学分类数据分析
1理解分类数据与χ2统计量掌握拟合优度检验及其应用掌握独立性检验及其应用掌握测度列联表中的相关性学习目标本章学习目标29.1理解分类数据与χ2统计量39.1理解分类数据与χ2统计量分类数据χ2统计量1241.分类变量的结果表现为类别•例如:性别(男,女)2.各类别用符号或数字代码来测度3.使用分类或顺序尺度•你吸烟吗?•1.是;2.否•你赞成还是反对这一改革方案?•1.赞成;2.反对4.对分类数据的描述和分析通常使用列联表5.可使用检验59.1理解分类数据与χ2统计量分类数据χ2统计量126统计量1.用于检验分类变量拟合优度2.计算公式为eeofff22)(9.1χ2统计量7分布与自由度的关系9.1χ2统计量89.2拟合优度检验9.2拟合优度检验9【例】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有共2208人,其中男性1738人,女性470人。海难发生后,幸存者为718人,其中男性374人,女性344人,以的显著性水平检验存活状况与性别是否有关。(0.05)9.2拟合优度检验习题样题10习题答案解:要回答观察频数与期望频数是否一致,检验如下假设:H0:观察频数与期望频数一致H1:观察频数与期望频数不一致9.2拟合优度检验11自由度的计算为df=R-1,R为分类变量类型的个数。在本例中,分类变量是性别,有男女两个类别,故R=2,于是自由度df=2-1=1,经查分布表,(0.1)(1)=2.706,故拒绝H0,说明存活状况与性别显著相关9.2拟合优度检验129.3列联分析:独立性检验9.2拟合优度检验131.由两个以上的变量交叉分类的频数分布表2.行变量的类别用r表示,ri表示第i个类别3.列变量的类别用c表示,cj表示第j个类别4.每种组合的观察频数用fij表示5.表中列出了行变量和列变量的所有可能的组合,所以称为列联表6.一个r行c列的列联表称为rc列联表9.3列联表的结构(r和c列联表的一般表示)14列(cj)合计j=1j=2…i=1f11f12…r1i=2f21f22…r2:::::合计c1c2…n列(cj)行(ri)fij表示第i行第j列的观察频数9.3列联表(contingencytable)15【例】一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如表9-3所示,要求检验各个地区和原料质量之间是否存在依赖关系?(0.05)解:H0:地区和原料等级之间是独立的(不存在依赖关系)、H1:地区和原料等级之间不独立(存在依赖关系)0.05(4)=9.488故拒绝H0,接受H1,即地区和原料等级之间存在依赖关系,原料的质量受地区的影响习题样题答案9.3独立性检验(例题分析)169.4列联表中的相关测量9.4列联表中的相关测量17φ相关系数列联相关系数12V相关系数39.4列联表中的相关测量181.品质相关•对品质数据(分类和顺序数据)之间相关程度的测度2.列联表变量的相关属于品质相关3.列联表相关测量的统计量主要有•相关系数•列联相关系数•V相关系数9.4列联表中的相关测量19即样本容量为实际频数的总个数,)(式中:nricjijeijeijfn112221.测度22列联表中数据相关程度2.对于22列联表,系数的值在0~1之间3.相关系数计算公式为9.4φ相关系数(correlationcoefficient)20一个简化的22列联表因素Y因素X合计x1x2y1aba+by2cdc+d合计a+cb+dn9.4φ相关系数(原理分析)21ndcdbendbbaendccaencabae))(())(())(())((22122111))()()(()()()()()(2222222122112212112112dbcadcbabcadneedeeceebeea列联表中每个单元格的期望频数分别为将各期望频数代入的计算公式得9.4φ相关系数22将入相关系数的计算公式得))()()((2dbcadcbabcadnad等于bc,=0,表明变量X与Y之间独立若b=0,c=0,或a=0,d=0,意味着各观察频数全部落在对角线上,此时||=1,表明变量X与Y之间完全相关列联表中变量的位置可以互换,的符号没有实际意义,故取绝对值即可9.4φ相关系数23将入相关系数的计算公式得))()()((2dbcadcbabcadnad等于bc,=0,表明变量X与Y之间独立若b=0,c=0,或a=0,d=0,意味着各观察频数全部落在对角线上,此时||=1,表明变量X与Y之间完全相关列联表中变量的位置可以互换,的符号没有实际意义,故取绝对值即可9.4φ相关系数249.4φ相关系数nC221.用于测度大于22列联表中数据的相关程度2.计算公式为C的取值范围是0C1C=0表明列联表中的两个变量独立C的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大根据不同行和列的列联表计算的列联系数不便于比较259.4V相关系数(Vcorrelationcoefficient)1.计算公式为中较小的一个表示取式中:)1(),1()1(),1(min)1(),1(min2crcrcrnV2.V的取值范围是0V13.V=0表明列联表中的两个变量独立4.V=1表明列联表中的两个变量完全相关5.不同行和列的列联表计算的列联系数不便于比较6.当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=269.4φ、C、V的比较1.同一个列联表,、C、V的结果会不同2.不同的列联表,、C、V的结果也不同3.在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数27地区一级二级三级合计甲地区526424140乙地区605952171丙地区506574189合计1621881505009.4列联表中的相关测量(例题分析)【例】一种原料来自三个不同地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如下表。分别计算系数、C系数和V系数,并分析相关程度习题样题28解:已知n=500,=19.82,列联表为33结论:三个系数均不高,表明产地和原料等级之间的相关程度不高199.050082.192n195.050082.1982.1922nC141.0250082.19)1(),1(min2crnV习题答案9.4列联表中的相关测量(例题分析)
本文标题:应用统计学教学资料统计学分类数据分析
链接地址:https://www.777doc.com/doc-3681728 .html