您好,欢迎访问三七文档
联列表和相合性分析概述联列表和相合性分析用于发现和研究名义测度变量间的相互关系能够回答如下问题:(1)能否辨认出变量间的相互关系,关系是否显著?(2)是否存在其他变量,通过观察它们能证明,或进一步说明,或修正之前的研究成果?(3)能否说明关系的程度和方向?肺癌其它死因总和吸烟者不吸烟者12855606768总和20115135某医院病人死亡原因的统计数据使用联列表能以表格方式说明调查结果,并从中辨认出变量间可能的相互关系变量及其状态的选择要有事实依据,否则存在随意建立关系或掩盖实际关系的危险若发现相互关系,则可用相合性分析研究相关性是偶然出现,还是存在系统性关系联列表和相合性分析是一种用于研究两个不同事实的分析法,根据研究的问题和抽样的方法,可进行同一性检验或变量间的相关性分析同一性检验是研究某特征在两个或多个样本中是否同分布肺癌其它死因吸烟者不吸烟者2010809010010030170200相合性分析是研究观测变量在统计上是相互独立还是相互关联肺癌其它死因吸烟者不吸烟者1812631078111930170200同一性和相合性分析都采用卡方检验,但解释结果和推出一般性结论上有根本性差别问题变量1变量2大学生辍学和兼职间是否存在关系辍学:未毕业就离校兼职:每周少于15小时;每周15-30;每周多于30自杀和抑郁间的关系自杀:是、否抑郁:弱、中、强进行过市场测试的产品是否比未进行过的更容易成功成功引入市场:引入市场6个月内,产品撤出是否进行市场测试:是、否跨国集团与本国经营的集团是否有不同的组织结构集团结构:分散化、职能化、矩阵化跨国经营:是、否分析过程进行联列表和相合性分析有如下三个步骤:(1)编制联列表(2)解释结果(3)检验相关关系(1)编制联列表以两个具有多个水平的名义测度变量来说明I×J特征1特征2行和或边缘和水平1水平2......水平J水平1n11n12n1.水平2n21n22n2.......水平InI1nIJnI.列和或边缘和n.1n.Jn例子:一家贸易连锁店为了制定物流计划,希望知道用黄油或人造黄油作为面包片涂层的偏好是否与居住地有关。为了回答该问题,随机选择了181个人,询问他们的居住地和偏爱的面包涂层。调查结果如下表:居住地面包涂层偏好人造黄油黄油农村城市238345306811310675181(2)解释结果为更好地理解上述例子,把绝对数转换为百分率常有三种不同的表,可根据具体问题进行选择行百分率(横向百分率)、列百分率(纵向百分率)、总百分率居住地面包涂层偏好人造黄油黄油农村城市21.7%78.3%60%40%100%100%居住地面包涂层偏好人造黄油黄油农村城市33.8%73.5%66.2%26.5%100%100%居住地面包涂层偏好人造黄油黄油农村城市12.7%45.9%24.9%16.6%37.6%62.4%58.6%41.4%100%仅分布不同还不足够推断出存在相互关系。可能在加入第三个变量后,就需要修正已经做出的判断对猜测的关系,加入第三个变量后,既可能证实关系的最初形式,也可能辨认出关系的其他形式,还可能揭示出它仅为虚假的关系;家庭状况使用减肥产品总和(n=290)是否已婚单身30(23%)100(63%)102(77%)58(37%)132(100%)158(100%)家庭状况使用减肥产品总和(n=123)是否已婚单身10(83%)90(81%)2(17%)21(19%)12(100%)111(100%)家庭状况使用减肥产品总和(n=167)是否已婚单身20(13%)10(21%)100(83%)37(79%)120(100%)47(100%)35岁以下:35岁以上:(3)检验相关关系在借助联列表估计出相关关系后,可用统计方法检验此事实是偶然出现在样本中,还是可以推广到总体中a.统计独立性检验实测数据须与期望值数据相比较期望值=行和×列和/总和检验统计量:假设:H0:X和Y相互独立H0:变量X的每个特征水平的比例在两个样本中相等2211()IJijijijijnee自由度:(I-1)×(J-1)e11=39.8,e12=28.2,e21=66.2,e22=46.8给定5%的显著性水平,自由度为1,查得理论值为3.84故拒绝零假设,对黄油/人造黄油的偏好与居住地有关2222227.439.828.266.246.8(2339.8)(4528.2)(8366.2)(3046.8)严格来说,在H0下的卡方统计量仅近似服从卡方分布。当样本容量小时,近似度并不令人满意,为此采用Yates修正统计量:通常用于样本容量20-60的情况221..12..222122111(|)|2nnnnnnnnnn修正b.相关性程度检验由卡方检验得出变量相关后,希望获得如相关程度或方向等进一步信息系数:该值越大,相关性越强。通常大于0.3则认为比普通关系重要不同实验的该系数不能相互比较2n若联列表中的变量有两个以上的水平,则该判别值可能大于1,此时使用相合系数:227.40.389181nmax1,min(,)RIJRCC其中,RnCC22707.0,362.0maxCCCCCC能够计算上限值,但也不能相互比较Cramer’sV2(1)VnR0.10V0.30小效应0.30V0.50中等效应V0.50大效应基于卡方统计量的为第一类指标,除此之外还有说明两变量相关程度的系数,这类系数衡量一个变量状态的信息对预测另一变量的贡献程度的λ指标当受访者面包涂层偏好未知时,会倾向于将他归入城市居民,这时会预测错37.6%的受访者;若已知某受访者的面包涂层偏好,则总共可能预测错的受访者为12.7%+16.6%=29.3%居住地面包涂层偏好人造黄油黄油农村城市12.7%45.9%24.9%16.6%37.6%62.4%58.6%41.4%100%则由于第二个变量(面包涂层偏好)信息而减少的错误预测与信息未知时的错误预测概率之比为:λ居住地=0.083/0.376=0.221λ1=((45+83)-113)/(181-113)=0.221λ的取值范围在0-1之间,接近0表示第二个变量的信息对预测第一个变量没有贡献(不能用来预测第一个变量),而值接近1表示信息可实现无误预测12..,..maxmaxmaxmaxmaxmaxijjjiiijijjijinnijnnnnnn注意:所有基于相合性分析得出的相互关系只是统计关系。若由此确定存在如因果等关系可能会导致重大错误和错误的结论使用卡方分布的前提:单个观察要独立;每个观察只能属于一个特征水平的组合;期望频率小于5的单元格比例不能超过20%等
本文标题:联列表和相合性分析
链接地址:https://www.777doc.com/doc-3557183 .html