第6章逻辑斯蒂回归模型

1、第六章逻辑斯蒂回归Logistic回归模型•对列联表的分析，独立性检验可以初步了解属性之间是否相互独立，或是否相关；通过列联表的相合性检验，可以进一步知道属性之间的相合情况，包括方向和程度；Logistic模型可以更进一步拟合属性变量之间的函数关系，以描述变量之间的相互影响。•列联表中的数据是以概率的形式把属性变量联系起来的，而概率p的取值在0与1之间，因此，要把概率与之间直接建立起函数关系是不合适的。即()pxx()xxLogistic回归模型•实践中，通常随着连续增长或连续下降，其直观的曲线形态是S型。•一般有这种形状的数学函数有以下形式：•称作logistic回归函数。•把以上函数线性化可以得到：()xxexp()()1exp()xxx()ln1()xxxLogistic回归模型•因此，人们通常把p的某个函数f(p)假设为变量的函数形式，取•称之为logit函数，也叫逻辑斯蒂变换。•因此，逻辑斯蒂变换是取列联表中优势的对数。当概率在0-1取值时，Logit可以取任意实数，避免了线性概率模型的结构缺陷。•类似的处理还有p。

2、robit变换和双对数变换。–其中probit变换是将概率变换为标准正态分布的值，形式为：z()()lnln1()1xpfpxp[()]probitxxLogistic回归模型–双对数变换的形式为：•以上变换中以logit变换应最为广泛。•假设响应变量Y是二分变量，令,影响Y的因素有k个，则称：•为二分数据的逻辑斯蒂回归模型，简称逻辑斯蒂回归模型。其中的k个因素称为逻辑斯蒂回归模型的协变量。()ln(ln(1))fpp1ln(,,)1kpgxxp1,kxx(1)pPYLogistic回归模型•最重要的逻辑斯蒂回归模型是logistic线性回归模型，多元logit模型的形式为：•其中，是待估参数。根据上式可以得到优势的值：•可以看出，参数是控制其它时每增加一个单位对优势产生的乘积效应。•概率p的值：011ln1kkpxxp01,,,k0111kkxxpep0110111kkkkxxxxepexiixLogistic回归模型•最简单的logit线性模型为：•则优势为：•以上指数关系说明。

3、：每增加1个单位，优势变为原来的倍；•此时的概率应为：ln1pxp()1xxpeeepxe1xxepeLogistic回归模型•多元logistic模型参数的估计–采用极大似然估计方法–假设n次观测中，对应的观测有个，其中观测值为1的有个，观测值为0的有个，则参数的似然函数：–可以使用迭代法求出参数的ML估计–由于计算的复杂性，可以利用统计软件得到。1(,,)iikxxiniriinr01,,,k0110110111111iiiikikikikikikrnrxxtixxxxeeeLogistic回归模型【例6.1】一般认为，体质指数越大(BMI≥25)，表示某人越肥胖。根据3983人的体检结果有388人肥胖，肥胖组中患心血管病的数据见表6.1，试建立体质指数与患心血管病概率的logistic回归模型。【解】根据题目知道是一元逻辑斯蒂回归问题。运用统计软件可以对参数进行估计得到：于是logit模型为：01ˆˆ6.0323,0.2570ˆln6.0。

4、3230.2570ˆ1pBMIpLogistic回归模型•由得到的模型可知，–患病概率为：–当体质指数BMI变化1单位时，对数优势比将增加0.2570，优势比将增加即：6.03230.2576.03230.257ˆ1BMIBMIepe0.25701.293e222211110.25702211ˆˆ/(1)ˆˆˆˆln(/(1))ln(/(1))ln0.2570ˆˆ/(1)ˆˆ/(1)1.293ˆˆ/(1)ppppppppppepp含有名义数据的logit•前例中的协变量为定量数据，logistic回归模型的协变量可以是定性名义数据。这就需要对名义数据进行赋值。•通常某个名义数据有k个状态，则定义个变量代表前面的k-1状态，最后令k-1变量均为0或-1来代表第k个状态。•如婚姻状况有四种状态：未婚、有配偶、丧偶和离婚，则可以定义三个指示变量M1、M2、M3，用(1,0,0)、(0,1,0)、(0,0,1)、(0,0,0)或(-1,-1,-1)来对以上四种状态赋值。11,,kMM含有名义数据的logit•例：某地25岁及以上人。

5、中各类婚姻状况居民的死亡情况见表6.2，试建立死亡率关于年龄和婚姻状况的logit模型。•其中，A表示年龄，M1、M2、M3表示婚姻状况•于是，估计的logit方程为：112233ln1pAMMMp123ˆln11.5360.1240.7110.4230.021ˆ1pAMMMp含有有序数据的logit•Logit模型的协变量也可以是有序数据•对有序数据的赋值可以按顺序用数0,1,2,3,4分别表示【例5.8】某地某年各类文化程度的死亡人数见表5.33，试建立logit模型。•建立死亡率关于年龄和文化程度的logit模型•其中A为年龄，E为文化程度ln1pAEp含有有序数据的logit•于是，估计的logit方程为：•其中，年龄的系数0.124，说明年龄越大死亡率会越高；•文化程度的系数-0.164，说明文化程度与死亡率呈负相关，文化程度越高，死亡率越低。ln11.6370.1240.1641pAEpLogistic回归的推断•效应的置信区间–指的是参数的置信区间估计–一般可以采用的区间形式–通过上述区间端点的指数变换得到的区间。

6、，它是每增加1个单位对优势的乘积效应–当n很小或拟合概率趋近0或1时，可以采用似然比检验来构造区间，该区间包含所有使原假设成立的可能值–通常可以借助软件得到这种区间/2ˆ()zSEexLogistic回归的推断•参数显著性检验–指的是参数的显著性检验–原假设为：–检验统计量为：–同样可以采用似然比检验，甚至功效更好。该检验统计量比较了在时对数似然函数的极大值和不限定时对数似然函数的极大值。–该检验统计量为：,在原假设下服从df=1的大样本卡方分布。–可以借助软件得到该统计量的值。0:0Hˆ/zSE00L1L012()LLLogistic回归的推断•概率的置信区间–在确定的值下，P(Y=1)的logistic回归估计为–软件会在给出上述估计的同时，给出真实概率的置信区间。•模型估计概率的优点–可以利用样本数据进行概率的估计–但模型估计的概率比样本比例好得多，估计精度更高，因为它利用了所有数据，不仅是x确定值处的数据。xˆˆˆˆˆ()exp()/[1exp()]xxxLogistic回归的推断•模型的检验–比较特定模型与更复杂模型•更复杂模型可以。

7、包括非线性效应，比如二次项；有多个预测变量时可以考虑交互作用。如果更复杂模型并不拟合得更好，说明所选模型是充分的。–拟合优度检验•运用观测值和拟合值来构造偏差统计量，形式为：•卡方的df应等于观测的组数与模型参数的差，较小的统计量的值和较大的P-值说明模型拟合不错。•当至多只有几个解释变量且这些解释变量为属性变量，并且所有的单元频数不少于5时，以上统计量近似服从卡方分布。22G观测值[ln(观测值/拟合值)]22（观测值-拟合值）/拟合值Logistic回归的推断–残差分析•当预测变量为属性变量，可以利用残差来比较观测频数和拟合频数，这需要在分组数据下进行。则比较观测值与拟合值的皮尔逊残差为：•在皮尔逊残差基础上，还有标准化残差，形式为：，它的绝对值比皮尔逊残差的绝对值更大，近似服从标准正态分布，故常用。•标准化残差的绝对值大于2或3，说明拟合不好；ˆˆˆ(1)yniiieyniiiniii，其中为次试验中成功的次数/1iieh多项logit模型•前面讨论的logit模型为二分数据的情况，有时候响应变量有可能取三个或更多值，即多类别的属性变量。•根据响应变量类。

8、型的不同，分两种情况：–响应变量为定性名义变量；–响应变量为定性有序变量；•当名义响应变量有多个类别时，多项logit模型应采取把每个类别与一个基线类别配成对，通常取最后一类为参照，称为基线-类别logit.多项logit模型•预测变量为x的基线-类别logit模型为：•模型共有J-1个方程，每个方程有不同的参数，这些效应依据与基线配对的类别而变化；•软件可以同时拟合模型中的所有方程；•不管哪个类别作为基线，对于同一对类别都会有相同的参数估计；即基线类别的选择是任意的；ln(),1,,1jjjJxjJ多项logit模型【例6.4】研究三个学校、两个课程计划对学生偏好何种学习方式的影响。调查数据见表6.9:•其中，三个学校对应两个哑变量x1和x2，两个课程计划为常规(x3=1)和附加(x3=0)，学习方式分为：自修(y=1)、小组(y=2)、上课(y=3)•从题目可以看出，响应变量是学习方式有三类，属于多项逻辑斯蒂回归问题。于是，建模为：11011112213332202112222333lnlnpxxxppxxxp多项log。

9、it模型•应用统计软件可以得到模型的参数估计和回归方程：•然后，将x1和x3的取值代入上式，可以进一步对三个属性之间的关系加以分析。–学校2与学校3的学生在自修与上课两种学习方式上偏好相同；–学校1比学校2和3更偏好上课(1.7270.593);–课程计划中，常规课程与附加课程相比，常规课程学生更偏好自修；–小组与上课相比，三个学校没有差别；常规课程学生更偏好小组学习。1ln0.5931.1340.6181332ln0.6030.63533pxxppxp多项logit模型•当响应变量为定性有序变量时，多项logit模型的处理会与名义变量有所不同。•有序响应变量的累积logit模型–当变量为有序变量时，logit可以利用这一点，得到比基线-类别有更简单解释的模型；–Y的累积概率是指Y落在一个特定点的概率，对结果为类别j时，其累积概率为：–累积概率满足：–累积概率的模型并不利用最后一个概率，因为它必然等于11(),1,,jPYjjJ(1)()1PYPYJ多项logit模型•累积概率的logit为:•称为累积logit•每个累积logit均。

10、利用了所有的响应类别【例6.5】研究性别和两种治疗方法(传统疗法与新疗法)对某种疾病疗效的影响，84个病人的数据见表6.10•由题知，疗效是一个有序变量，包括显著、较有效和无效三个值，需要建立累积logit模型。11()logit[()]lnln1()1,,1jjJPYjPYjPYjjJ其中，多项logit模型•令p1,p2,p3分别表示疗效的三种情况出现的概率，在对性别和疗法赋值后，则累积logit模型为：•其中，与基线-类别logit不同的是，参数描述了变量对响应变量落在类j或小于j的对数优势的效应，且对所有(J-1)个累积logit都是相等的；的情况类似。•以上性质决定了在其他变量不变的情况下，每增加一个单位，响应变量在任意给定类别下的优势比将为。•这一相同的比例(β)适用于每个累积概率,称为比例优势假设.110112211220112212ln1ln1()pxxpppxxpp11x21xe多项logit模型•应用统计软件，可以得到以上模型的参数估计和回归方程：•统计。