您好,欢迎访问三七文档
第三讲双变量的统计分析单变量的分析和统计描述,是我们了解和认识社会现象的基础。但社会生活中的现象并不是孤立存在的,现象之间往往存在或多或少的关系,或者说,社会现象之间往往是相互联系、相互影响、相互依存的。“学好数理化,走遍天下都不怕”“学好数理化,不如有个好爸爸”进一步了解社会现象发生和变化的原因,揭示社会现象的发展规律,探索和发现现象之间的关系,才是大多数社会研究的主要目的,而这则需要对两个变量或多个变量之间的关系进行分析。变量之间的关系两个变量之间的关系多个变量之间的关系在多数情况下,多个变量之间的关系又可以分解为若干个两个变量之间的关系,也就是说多个变量之间的关系可以通过若干个两个变量间的关系来描述。知识点相关关系和因果关系主要的双变量的测量方法(1)交互分析—列联表分析(2)不同层次变量的相关测量法一、相关关系(correlation)两变量间的相关关系指的是一个变量的值与另一个变量有连带关系。也就是,当一个变量发生变化时(或取值不同时),另一个变量也随之发生变化。(P68)如:文化程度收入期望女性的文化程度生育期望1、相关的性质(1)相关关系的强度相关程度,指的是相关关系的强弱或大小。相关关系的强弱或大小可以用统计法进行测量。变量间相关关系的统计结果称为相关系数。相关关系的程度介于[0,1]之间,0代表无相关,1代表全相关,数值越大,表示相关的程度愈强。两点说明:1.在对社会现象和社会行为的调查中,一般来说各种相关系数的值不可能达到1〔或一1)。也就是说,在社会研究中不可能存在两个完全相关的事物或现象2.相关系数只是用来表示变量间相关程度的指标,而不是相关数值的等单位度量。如不能说相关系数0.6是相关系数0.3的2倍,只能说相关系数0.6的两个变量的关系比相关系数0.3的两个变量的关系更强。X和Y分别代表两个变量,各有二个取值(1,2),表中的a、b、c、d分别表示不同情况下个案的数目如果a=d=0或b=c=0,则表示X和Y全相关;如果a×d=b×c,即,则表示X和Y无关;如果a×db×c或a×db×c,则表示X和Y有相关关系。例1:a=d=0或b=c=0,两个变量全相关例2:a×d=b×c,对角线相等,则表示无相关例3:如果a×db×c或a×db×c,则表示X和Y有相关关系。(2)相关关系的方向(+、-)正相关关系和负相关关系正相关关系:一个变量的取值增加时,另一个变量的取值也增加,反之亦然;人们的文化程度越高,他们的收入水平也越高;文化程度较低的人,他们的收入水平也普遍较低。反之,那些收入水平较低的人,他们的文化程度一般来说也较低。负相关关系:一个变量的取值增加时,另一个变量的取值减少;而一个变量的值减少时,另一个变量的值增加。在调查中发现,文化程度越高的被调查者,在回答问卷时,花费的时间越少,而文化程度较低的被调查者,填答问卷时花费的时间较长。在此,我们可以说文化程度和问卷填答时间之间存在着负相关关系。注意:方向的分析只适用于定序以上层次的变量(3)相关关系的对称性与非对称性相关的两个变量,不一定有因果关系,可能是共同变化。不对称关系:自变量X影响因变量Y,但是因变量Y不会影响X---因果关系,如施肥量和小麦产量之间的关系对称关系:不能确定或区分两个变量的方向。如交往的多少与他们的互爱程度因果关系大多数的社会研究,都涉及因果关系的概念,社会研究的最终目的,往往在于希望获得某些社会现象间因果关系的知识。如“受教育程度与人们的职业获得的研究”、“不同职业的被调查者收入的差异”---首先认为这些变量之间存在因果关系。研究的目的在于辨明这些研究的因果关系状态(4)相关的类型相关关系是一种数量关系上不很严格的相互依存关系。如果这种关系近似地表现为一条直线,就称为直线相关,又称线性相关;如果这个关系近似地表现为一条曲线,则称为曲线相关,又称非线性相关。虽然在自然界和社会生活中,曲线相关现象远比直线相关更多,但由于数学手段上的局限性,社会统计研究中多以阐述线性(直线)相关为主。如何来测量相关系数呢?有两个标准:选用统计值有意义的相关测量法,在统计学中有一组相关测量法,具有消减误差比例的意义,称为PRE测量法要注意变量的不同层次,属于不同测量层次的变量,就要用不同的相关测量法。(5)削减误差比例可以表示两个变量间关系的强弱消减误差比例(PRE测量,Proportionatereductioninerror):我们在预测或解释社会现象y时,难免会有误差(错误),假定另一种社会现象x与y是有关系的,我们可以根据x的值来预测y的值,理应可以减少若干误差,其值表示的就是x对y的误差的消减程度•理解:x对y的可认知程度如假定不知道x的值,我们在认识y时的全部误差是E1。我们知道x的值,可以根据x的值来认识y的值时的误差的总数(不可认知的部分)为E2,那么用x的值来预测y的值时减少的误差就是E1-E2,这个值(E1-E2)与y全部误差的比例,则称谓消减了的误差比例121EEEPREY右图红色表示E1-E2,E1PRE的数值越大,表示以x值预测y值时,减少的误差所占的比例越大,说明x与y的关系越强。121EEEPREPRE值的意义:1、PRE的值在[0,1]2、E2=0,则PRE=1,x与y是全相关,用x解释y时不会产生误差3、E1=E2,则PRE=0,x与y是无相关,用x来预测y时产生的误差等于不用x来预测y时的误差4、如PRE=0.8,表示用x预测y可以减少80%的误差,也反映了两者的相关程度颇高;如果PRE=0.08,则表示只能减少8%的误差,即x对y的影响甚小,需要寻找其他的变量解释或预测y121EEEPRE强调:PRE值的两个意义用一个变量预测另一个变量能消减的误差比例两个变量之间关系的大小学习提示:鉴于大家的基础,本次课大家把握以下几点:不需要在公式的推演和具体的计算上下功夫,这些用软件就可以操作。必须记牢不同的变量层次对应的相关测量法(即相关系数统计量)必须理解各种相关系数的意义并能解释计算出的结果二、交互分类表与列联表交互分类就是将调查所得的一组数据按照两个不同的变量进行综合分类。通常以交互分类表(列联表)的形式出现,如表1:交互分析的作用如表3,我们只能得出赞成和反对的人大致相等的结论实际从不同性别来看,男性和女性之间存在很大的差异思考:两个表格所显示信息的差异交互分析的作用较为深入的描述样本资料的分布状况和内在结构。对变量之间的关系进行分析和解释交互分类表的形式要求每个表的顶端要有表号和标题线条规范、简洁,最好不用竖线百分比符号的处理:一种在表顶端的右角;另一种在表中每一列数字的上方表的下端用括号标出每一列的频数两个变量的安排:通常是将自变量、或被看作自变量或用来做解释的变量放在上面(列),将因变量、或被看作因变量、或被解释的那个变量放在表的左侧(行)。变量取值不宜太多。如4个自变量,5个因变量就是20个百分比少数点的位数要一致。如67.3和50.0必须要进行假设检验(多选变量的分析可以没有)课堂提问1.交互分类表(即列联表)的作用是什么?2.相关的性质是什么?(三个方面)3.为什么说PRE测量法可以反映两个变量之间关系的强弱?三、相关测量法相关测量法,是用一个统计值来表示变量和变量之间的关系。这个统计值,通常称为相关系数(coefficientofassociation)。相关测量法有很多种,在进行选择时,主要依据以下法则:两个变量的测量层次;两个变量的影响方向(是否对称);尽可能选择有消减误差比例意义的相关测量法。尽可能用PRE测量法:社会学不但要描述社会现象,最重要的是要解释和预测社会现象。研究中之所以要探讨两个变量之间的关系,是为了减少解释或预测时的错误。消减误差比例,就是用一个变量x预测另一个变量y时消减的误差的量化测量。因此,在测量两个变量之间的关系时,应尽可能选择有消减误差比例意义的测量方法。另外,在测量两个变量关系时,最主要的法则是遵循变量的测量层次,即严格依据变量的层次选择合适的相关测量法。次要的准则,是注意两个变量之间的对称和非对称关系。对于这一点,最好要遵守,但不用过分强求。变量的层次与相关测量法社会学研究中最经常遇到的是定类、定序和定距三类变量,这三类变量在分析两个变量的关系时,会产生以下六种情况;(1)定类变量一定类变量;(2)定序变量一定序变量;(3)定距变量一定距变量;(4)定类变量一定序变量;(5)定类变量一定距变量;(6)定序变量一定距变量。下面分别介绍这几种不同测量层次变量的相关测量法。相关测量法是什么?(一)两个定类变量:Lambda,tau-y(都是PRE测量法)1、Lambda基本逻辑:如果两个定类变量相关,以一个变量的值来预测另一个变量的值时,倘若用众值来预测,可以减少多少误差。消减的误差在全部误差中所占的比例越大,就表示两个变量的相关越强公式:(1)、不对称形式:My=Y变项的众数次数my=X变项的每个值(类别)之下Y变项的众数的次数n=全部个案数n-My=不知道x值的情况下预测Y值产生的误差分子E1-E2=(n-My)-(n-∑my)=∑my-MyyyyymMnM例1:分析性别与理想志愿之间的关系4030500.4010050yyyymMnM(2)对称形式:不确定两个变量的影响方向My=Y变项的众数次数Mx=X变项的众数次数mx=Y变项的每个值(类别)之下X变项的众数次数my=X变项的每个值(类别)之下Y变项的众数次数n=全部个案数()2()xyxyxymmMMnMM例:青年的教育期望与父母的教育期望()2()(28414)(28417)(5450)2*100(5450)0.47xyxyxymmMMnMM不足:λ相关测量法,是以众数作为测量的准则,不理会众数以外的频数分布,因此,如果众数全部集中在交互分类表中的同一列或同一行中,则λ系数便会等于0,如表11—4所示的数据。这一结果表示性别与就业取向是没有关系的,但从交互分类表中可以看出,性别和就业取向或多或少还是有关系的。之所以出现相关系数为零这样的结果,主要是因为表中的众数都在同一行。为了弥补λ相关测量法的这类不足之处.有些研究者就采用古德曼和古鲁斯卡的相关系数测量两个定类变量的相关程度。特例:如下表,72.4%的制造业工人和64.3%的服务业人员注重物质报酬,职业类型与价值取向是略有影响的,但是(10545)1500215120yyyymMnM2、tau-y不对称测量法系数值介于0-1之间计算系数时包括了所有的边缘次数和条件次数如果是不对称关系最好选用tau-y计算计算过程:先求出E1和E2,计算消减误差的比例121EEtauyE1()yynFFEn2()xxFffEFn=全部个案数目f=某条件次数Fy=Y变项的某个边缘次数Fx=X变项的某个边缘次数58450.22458tauy140(10040)50(10050)10(10010)58100100100E210(6010)40(6040)10(6010)30(4030)10(4010)0(400)456040E前例:2()(145105)*105(14540)*40(7045)*45(7025)*251457090.07xxFffEF121136.0590.070.34136.05EEtauyE1()(215150)150(21565)65136.05215215nFyFyEn(二)两个定序变量:Gamma、dy对称关系:Gamma不对称关系:萨默斯dy系数值[-1,+1]系数值既表示相关的程度,也表示相关的方向,还具有消减误差比例的意义基
本文标题:第三讲.双变量分析
链接地址:https://www.777doc.com/doc-5583332 .html