ch9 SAS属性(分类)数据分析 46

第九章属性（分类）数据分析9.1属性数据及其分析9.2SAS中的属性数据分析9.1属性数据及其分析9.1.1属性数据分析与列联表9.1.2属性变量关联性分析9.1.3属性变量关联度计算9.1.4有序变量关联性分析9.1.1属性数据分析与列联表1.属性变量与属性数据分析从变量的测量水平来看分为两类：连续变量和属性(Categorical)变量，属性变量又可分为有序的(Ordinal)和无序的变量。对属性数据进行分析，将达到以下几方面的目的：1)产生汇总分类数据——列联表；2)检验属性变量间的独立性(无关联性)；3)计算属性变量间的关联性统计量；4)对高维数据进行分层分析和建模。2.列联表列联表（contingencytable）是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司，现该集团公司欲进行一项改革，此项改革可能涉及各分公司的利益，故采用抽样调查方法，从四个分公司共抽取420个样本单位，了解职工对此项改革的看法，调查结果如表9-1所示。表9-1关于改革方案的调查结果（单位：人）表中的行(row)是态度变量，这里划分为两类：赞成改革方案或反对改革方案；表中的列(column)是单位变量，这里划分为四类，即四个分公司。表9-1所示的列联表称为24表。一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420交叉表的基本形式如图9-1所示。这是一张具有r行和c列的一般列联表，称它为rc表。其中，第i行第j列的单元表示为单元ij。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观测个数用n表示，在单元ij中的观测个数表示为nij，称为单元频数。cjjn11cjjn12cjrjn1riin11riin12riicn1ricjijn11列行第1列第2列…第c列行边缘频数第1行n11n12…n1c第2行n21n22…n2c………………第r行nr1nr2…nrc列边缘频数…9.1.2属性变量关联性分析对于不同的属性变量，从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性，即一个变量取不同数值时，另一个变量的分布是否有显著的不同，这就是属性变量关联性分析的内容。属性变量关联性检验的假设为H0：变量之间无关联性；H1：变量之间有关联性由于变量之间无关联性说明变量互相独立，所以原假设和备择假设可以写为：H0：变量之间独立；H1：变量之间不独立1.2检验在双向表的情形下，如果行变量与列变量无关联性的原假设H0成立，则列联表中各行的相对分布应近似相等，即（j=1，2，…，c）或（j=1，2，…，c）其中mij称为列联表中单元ij在无关联性假设下的期望频数，而nij是单元ij的观测频数。nnnniijjijijijdefiijjijijmnnnn为了检验无关联性，将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是2检验。2统计量为：在H0成立的条件下，当观测数据较大时，2统计量的分布近似服从自由度为(r-1)(c–1)的2分布。ricjijijijmmn1122)(由于2分布是一种连续性分布，而属性数据是不连续的，故上式只是一个近似计算公式。计算出来的2值往往偏大，相应的p值偏小，从而人为地增加了犯第一类错误的机会。为纠正这种偏性，可采用校正2，用C2表示。注：通常要求2检验应满足的条件是：n≥40且所有单元的期望频数均不小于5。2校正的条件：n≥40但有单元的期望频数小于5。ricjijijijCmmn1122)5.0|(|2.Fisher精确检验Fisher精确检验建立在概率论中超几何分布的基础上，对于单元频数小的列联表来说，它是特别合适的。Fisher精确检验计算在H0成立的条件下，当总频数和边缘频数固定时，各种可能的表的超几何概率p之和对于双边检验，A是具有概率p小于或等于观测表概率的表的集合；对于左（右）边检验，A是这样一些表的集合，其中每个表的单元ij中频数小于（大于）或等于观测表中相应的频数。ApPROB9.1.3属性变量关联度计算1.φ系数φ系数是描述22表数据关联程度最常用的一种相关系数。其计算公式为：其中，2即2统计量。|φ|的取值范围是在0~1之间，φ的绝对值越大，说明行变量与列变量的关联程度越高。φ=0，表示变量之间相互独立；|φ|=1，表示变量之间完全相关，此时列联表某个方向对角线上的值全为0。当列联表rc中的行数r或列数c大于2时，φ系数将随着r或c变大而变大，且φ无上界。此时可用列联系数。n/22.列联系数列联系数（Contingencycoefficient）简称为c系数，主要用于大于22表的情况。c系数的计算公式为：c系数的取值范围：–1c1，特别当rc表中两个变量相互独立时，c=0。c系数的最大值依赖于列联表的行数和列数，且随着r或c变大而变大。例如，对于22表，c=0.7071；对于33表，c=0.8165；对于44表，c=0.87，…等等。c系数的缺点是，根据不同行列的列联表计算出来的c系数不便比较。nc223.V系数鉴于φ系数无上界、c系数小于1的不便，克莱默提出了V系数（Cramer'sV），其计算公式如下：其中min[(r–1)(c–1)]表示取(r–1)，(c–1)中较小的一个。V=0，表示两个变量相互独立，|V|=1，表示变量之间完全相关。)]1(),1min[(2CRnV9.1.4有序变量关联性分析对于数值变量，可以计算两两的相关系数。属性变量因为没有数值概念所以不能计算相关系数，但对于两个有序变量可以计算类似于相关系数的关联性量度。用来度量有序变量关联程度的统计量有γ统计量、τb统计量和τc统计量等。这几个统计量均由以下定义的观测对一致或不一致的个数（即P和Q）来计算。设(A1,B1)和(A2,B2)是一对观测，若A1A2且B1B2，或A1A2且B1B2则称该对观测是一致的；若A1A2且B1B2，或A1A2且B1B2则称该对观测是不一致的。用P表示所有观测对中一致对的个数，Q表示所有观测对中不一致对的个数。γ统计量(Gamma)的定义为：τb统计量(KendalTau-b)的定义为：τc统计量(KendalTau-c)的定义为：其中m=min(r，c)。这三个统计量的取值均在-1.0到1.0之间，值接近于1.0表示正关联，接近于-1.0表示负关联，等于0表示没有相关关系。QPQPcjriijricjijbnnnnQP12121212)()(mmnQPc)1(29.2SAS中的属性数据分析9.2.122表的分析9.2.2rc表的分析9.2.3分层列联表分析9.2.4有序变量的关联性分析9.2.122表的分析【例9-1】为了探讨吸烟与慢性支气管炎有无关系，调查了339人，情况如下：表9-2吸烟与慢性支气管炎的关系调查表设想有两个随机变量：x表示吸烟与否，y表示患慢性支气管炎与否。检验吸烟与患慢性支气管炎有无关系，即检验x与y是否相互独立。数据集mylib.zqgy如图：原假设H0：x与y相互独立患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121表9-2中数据使用如下代码存入数据集mylib.bron，形式如图9-2所示。datamylib.bron;inputx$y$numcell;labelx='吸烟'y='慢性支气管炎';cards;吸烟患病43吸烟未患162不吸烟患病13不吸烟未患121;Run;1.分析步骤1)在“分析家”中，打开数据集Mylib.bron；2)选择菜单：“Statistics”→“TableAnalysis”，打开“TableAnalysis”对话框；3)选中变量smoke，单击“Row”按钮，将其移到行变量框中；选中变量bron，单击按钮“Column”，将其移到列变量框中；选中变量numcell，单击按钮“CellCounts”，将其移到单元格计数框中，如图所示；4)为了使用2统计量检验变量的关联性，单击“Statistics”按钮，打开“TableAnalysis：Statistics”对话框，选中“Statistics”栏下的“Chi-squareStatistics”复选框，如图9-4所示。图9-4“TableAnalysis：Statistics”对话框单击“OK”按钮，返回。5)为了在列联表中显示各种频数、百分数，单击“Tables（列联表）”按钮，打开“TableAnalysis：Tables”对话框。选中“Frequencies（频数）”栏下的“Expected（期望）”复选框，取消“Percentages（百分数）”栏下的复选框，如图9-5所示。图9-5“TableAnalysis：Tables”对话框两次单击“OK”按钮，得到分析结果。2.结果分析列联表中列出了表格单元的观测频数（上一行）和在原假设下的期望频数（下一行），可以看出，吸烟人中患病的观测频数比期望频数大（图9-6所示），说明吸烟与患病又一定关系。进一步检验的结果只要看后面（图9-7）统计量部分的ChiSquare一行，其值为7.4688，p值为0.0063，所以应拒绝原假设，作出结论：吸烟与患慢性支气管炎是有关联的。当然，这个关联度不是很大，三个关联度系数均在0.15左右。对于两行两列的表格FREQ过程自动给出Fisher精确检验的结果，其双侧检验p值为0.0069，应拒绝原假设。9.2.2rc表的分析【例9-2】一种原料来自三个不同的地区，原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验，结果如表9-3所示。要求检验各个地区和原料质量之间是否存在依赖关系。表9-3原料抽样的结果一级二级二级甲地区526424乙地区605952丙地区506574设表9-3数据已经存放在数据集mylib.yldj中，如图9-9所示。图9-9数据集mylib.yldj检验的原假设为H0：地区和原料等级之间是独立的(不存在依赖关系)。1.分析步骤1)在“分析家”中，打开数据集Mylib.yldj；2)选择菜单“Statistics”→“TableAnalysis”，打开“TableAnalysis”对话框；3)选中变量x，单击“Row”按钮，将其移到行变量框中；选中变量y，单击按钮“Column”，将其移到列变量框中；选中变量numcell，单击按钮“CellCounts”，将其移到单元格计数框中，如图所示；4)为了使用2统计量检验变量的关联性，单击“Statistics”按钮，打开“TableAnalysis：Statistics”对话框，选中“Statistics”栏下的“Chi-squareStatistics”复选框；考虑对列联表作Fisher精确检验，选中“Exacttest”栏下的“Exacttestfor(rxc)table”复选框，如图所示。图9-11“TableAnalysis：Tables”对话框单击“OK”按钮，返回。5)为了在列联表中显示各种频数、百分数，单击“Tables（列联表）”按钮，打开“TableAnalysis：Tables”对话框。选中“Frequencies（频数）”栏下的“Expected（期望）”复选框，取消“Percentages（百分数）”栏下的复选框，如图9-11所示。两次单击“OK”按钮，得到分析结果。2.结果分析列联表（图9-12）中列出了表格单元的观测频数（上一行）和

ch9 SAS属性(分类)数据分析 46

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

企业资源计划（ERP）系统的实施模式（PPT 38页）

PCB设计规范 A2版

二次配管(电线导管、电缆导管和线槽敷设)

全国中小学生学籍信息系统数据质量核查说明XXXX0326

中国策划业向何处去

中华人民共和国国家发展计划委员会18号令

关于印发集体林权制度改革实施方案的通知

5-XXXX0912-聚乙二醇脂质体在肿瘤治疗中的价值

价值的创造与实现王利社公开课

情境领导艺术-2

相关文档

相关搜索