您好,欢迎访问三七文档
分类变量的分析一.分类变量分类变量有有序变量、无序变量和二分类,其中有序和无序都是多分类举例说明,有序变量:高血压1期、II期、III期属于有序变量同时也属于等级资料,无序变量:汉族、回族、哈组;工人、农民、教师这样得属于无序变量,男性、女性;死亡、存活属于二分类变量。在分析方法中差别性检验中,二分类变量和无序变量都能用卡方检验,只不过一个是四格表卡方一个是RXC列联卡方,而有序变量也就是等级资料就得用秩和检验。在多元回归时,有序变量和二分类变量都是赋值1、2、3或0、1求得一个OR或RR值,而无序资料就必须要设置哑变量(虚拟变量),例如职业工人、农民、教师。你计算得时候赋值为工人=1、农民=2、教师=3,如果你当成连续得变量去计算那么得到一个OR或RR值,解释为每增加一个等级发生某病得危险性增加多少倍。那么在无序变量就意味着工人增加一个等级,这是不可能的。因为这样得变量各等级之间不存在1、2、3得数学关系。在有序变量中,我们可以多元回归来检验假设,运用的原理时最小二乘法。在无序变量中,我们必须引用哑变量(虚拟变量)来实现logistic回归。在运用logistics回归分析之前我们必须先要理解虚拟变量。二.下面的重点就是关于虚拟变量的讲解。1.虚拟变量的含义虚拟变量是用以反映质的属性的一个人工变量,取值为0或1,通常记为D(DummyVariable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。(注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设D=0对比较类型或肯定类型设D=1)如1男性D=0女性但是,虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。例如:可以把居民分为两个年龄组:第一组:20~35岁的居民,第二组:35~60岁的居民,用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。2.虚拟变量的设置规则(1).两个属性的表示法如性别有两个属性:用Di表示。)(0)(1女男iD即:两个属性引入一个变量即可!(2).多个属性的表示法。假设学历有四个属性:博士、硕士、本科、本科以下等,则:四个属性3个变量。即:m个属性引入(m-1)个变量即可(3).多个因素各两个属性的表示法。如需要同时表示城乡差别和性别差别变量属性D1D2D3博士100硕士010本科001本科以下000)(0)(11其他博士D)(0)(12其他硕士D)(0)(13其他本科D)(0)(11农村城市D)(0)(12女男DD1D2城市男性11城市女性10农村男性01农村女性002.分类变量的作用。1.可以描述和测量定性因素的影响2.分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。3.检验不同属性类型对因变量的作用例如工资模型中的文化程度、季节对销售额的影响。4.提高模型的精度3.分类变量的建立模型。A.解释变量中只有虚拟变量。如:调查某地区性别与收入之间的关系,可以用模型表示如下:Yi=α+βDi+uiYi代表收入,Di为虚拟变量B.解释变量中既有虚拟变量又有定变量。如研究消费水平与居民收入的关系时,还要考虑城乡居民消费水平的差异,消费函数可设为:Yi=α0+α1Di+βXi+uiYi为消费水平,Xi为居民收入,Di为虚拟变量。假如还要考虑男女消费水平的差异,消费函数为:Yi=α0+α1D1i+α2D2i+βXi+uiYi为消费水平,Xi为家庭收入,D1i和D2i为虚拟变量。4.虚拟变量陷阱如某些商品的销售量有季节性,假设销售函数为:当我们引入4个虚拟变量出现了完全多重共线性的问题!OLS(线性回归法)不能使用!,这就是虚拟变量陷阱问题。所以对于具有m个属性的虚拟变量:若模型中含有截距项,引入m-1个虚拟变量;若模型中不含有截距项,引入m个虚拟变量。三.无序变量分析工具——LOGISTIC该法研究是当y取某值(如y=1)发生的概率(p)与某暴露因素(x)的关系。P(概率)的取值波动0~1范围。基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y对x的依存关系。如图;14321iiiiDDDD它的图像是一条S型曲线,有下列特征:(1)概率0≤pi=E(Yi︱Xi)≤1,解决了条件概率有可能大于1或小于0的问题;(2)当Xi→+∞时,pi→1,当Xi→-∞时,pi→0,pi随Xi变化而变化,且变化速率不是常数,更加符合实际情况对于这个方程我们应该了解到1.变量的取值logistic回归要求应变量(Y)取值为分类变量(两分类或多个分类)自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。可有m个自变量X1,X2,…Xm一个自变量与Y关系的回归模型如:y:发生=1,未发生=0x有=1无=0,记为p(y=1/x)表示某暴露因素状态下,结果y=1的概率(P)模型)](exp[11)/1(0xxyp通过取对数得到注:就建立了线性关系。如果是多个变量的话,方程应为Β0(常数项):暴露因素Xi=0时,个体发病概率与不发病概率之比的自然对数比值。B1的含义:某危险因素,暴露水平变化时,即Xi=1与Xi=0相比,发生某结果(如发病)优势比的对数值。P1(y=1/x=1)的概率P0(y=1/x=0)的概率最后,参数检验:一般有似然比检验(likehoodratiotest),比分检验(scoretest)Wald检验(waldtest),在我们用SPSS分析数据后。会出现几个表,我们应该看懂这个表Variablesinthe110)(logxpitymmXXXPP22110=1lnlogit(p)0=)0/0(1)0/1(lnxyPxyP1100100110011/(1)lnln/(1)loglog()()PPORPPitPitPxxx010011)1/()1/(oddsoddsPPPPOREquation里面的东西。它含有wald:检验因子;df:自由度;sig:显著性检验;EXP(B):OR值。我们主要判断P值是否大于0小于0.05,若在这范围内,就表示有自变量和应变量是有关系的。
本文标题:分类变量的分析
链接地址:https://www.777doc.com/doc-2650450 .html