Logistic回归模型

标准实用文案大全Logistic回归模型1Logistic回归模型的基本知识1.1Logistic模型简介主要应用在研究某些现象发生的概率p，比如股票涨还是跌，公司成功或失败的概率，以及讨论概率p与那些因素有关。显然作为概率值，一定有10p，因此很难用线性模型描述概率p与自变量的关系，另外如果p接近两个极端值，此时一般方法难以较好地反映p的微小变化。为此在构建p与自变量关系的模型时，变换一下思路，不直接研究p，而是研究p的一个严格单调函数)(pG，并要求)(pG在p接近两端值时对其微小变化很敏感。于是Logit变换被提出来：pppLogit1ln)(（1）其中当p从10时，)(pLogit从，这个变化范围在模型数据处理上带来很大的方便，解决了上述面临的难题。另外从函数的变形可得如下等价的公式：XTXTTeepXpppLogit11ln)(（2）模型(2)的基本要求是，因变量（y）是个二元变量，仅取0或1两个值，而因变量取1的概率)|1(XyP就是模型要研究的对象。而TkxxxX),,,,1(21，其中ix表示影响y的第i个因素，它可以是定性变量也可以是定量变量，Tk),,,(10。为此模型(2)可以表述成：kxkxkxkxkkeepxxpp11011011011ln（3）显然pyE)(，故上述模型表明)(1)(lnyEyE是kxxx,,,21的线性函数。此时我们称满足上面条件的回归方程为Logistic线性回归。Logistic线性回归的主要问题是不能用普通的回归方式来分析模型，一方面离散变量的误差形式服从伯努利分布而非正态分布，即没有正态性假设前提；二是二值变量方差不是常数，有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小)，Logistic变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。定义1称事件发生与不发生的概率比为优势比(比数比oddsratio简称OR)，形式上表示为OR=kxkxepp1101（4）定义2Logistic回归模型是通过极大似然估计法得到的，故模型好坏的评价准则有似然值来表征，称标准实用文案大全-2ˆln()L为估计值ˆ的拟合似然度，该值越小越好，如果模型完全拟合，则似然值ˆ()L为1，而拟合似然度达到最小，值为0。其中ˆ()lnL表示ˆ的对数似然函数值。定义3记)ˆ(Var为估计值ˆ的方差-协方差矩阵，21)]ˆ([)ˆ(VarS为ˆ的标准差矩阵，则称kiSwiiii,,2,1,]ˆ[2（5）为iˆ的Wald统计量，在大样本时，iw近似服从)1(2分布，通过它实现对系数的显著性检验。定义4假定方程中只有常数项0，即各变量的系数均为0，此时称20ˆˆ2[ln()ln()]LL（6）为方程的显著性似然统计量，在大样本时，2近似服从)(2k分布。1.2Logistic模型的分类及主要问题根据研究设计的不同，Logistic回归通常分为成组资料的非条件Logistic回归和配对资料的条件Logistic回归两种大类。还兼具两分类和多分类之分，分组与未分组之分，有序与无序变量之分。具体如下：两分类非条件Logistic回归：分组数据的Logistic回归，未分组数据的Logistic回归；多分类非条件Logistic回归：无序变量Logistic回归，无序变量Logistic回归；条件Logistic回归：1:1型、1:M型和M:N型Logistic回归。关于Logistic回归，主要研究的内容包括：1．模型参数的估计及检验2．变量模型化及自变量的选择3．模型评价和预测问题4．模型应用2Logistic模型的参数估计及算法实现2.1两分类分组数据非条件Logistic回归因变量(反应变量)分为两类，取值有两种，设事件发生记为y=1，不发生记为y=0，设自变量TkxxxX),,,(21是分组数据，取有限的几个值；研究事件发生的概率)|1(XyP与自变量X的关系，其Logistic回归方程为：kkxxXyPXyP110)|0()|1(ln或kxkxkxkxeeXyP1101101)|1(例2.1.1分组数据[1]在一次住房展销会上，与房地产商签订初步购房意向书的有n=325人，在随后的3个月时间内，只有一部分顾客购买了房屋。购买房屋的顾客记为1，否则记为0。以顾客的年家庭收入(万元)作为自变量X,对数据统计后如表2.1.1所示，建立Logistic回归模型。标准实用文案大全表2.1.1购房分组数据序号年家庭收入X(万元)签订意向人数实际购买人数11.525822.5321333.5582644.5522255.5432066.5392277.5281688.5211299.51510例2.1.2药物疗效数据[2]为考察某药物疗效，随机抽取220例病人并分配到治疗组和对照组，治疗组采用治疗药物，对照组采用安慰剂。治疗一段时间后观察病人的疗效，得到表2.1.2数据。设y为疗效指标(y=1有效，y=0无效)，1x为治疗组指标(1为治疗组，0为对照组)，2x为年龄组指标(1为45岁，0为其他)。表2.1.2药物疗效数据序号治疗分组1x年龄分组2x有疗效无效合计111321850210402060301213152400184058上述两个例子数据都是经过统计加工后的分组数据，对此类数据进行Logistic回归，首先要明确应变量对应事件的发生概率如何确定和进行Logit变换，其次才能建立Logistic回归。为便于数据处理，我们将此类数据的格式作个约定，排列格式为（组序号，自变量X，该组事件发生数，该组总例数）。表2.1.3分组数据的标准格式表2.1.1改造表序号年家庭收入X(万元)实际购买人数im签订意向总人数in11.582522.5133233.5265844.5225255.5204366.5223977.5162888.5122199.51015表2.1.2改造表序号治疗分组1x年龄分组2x有效例数im观察例数in1113250210406030121524001858标准实用文案大全经过改造后，可得我们关心的事件的发生的频率为ninmpi,,2,1,ii该组总例数该组发生事件数。其中n为分组数，然后作Logit变换，即iiiipppLogitp1ln)(~。变换后的数据，形式上已经可以采用一般的线性回归的处理方式来估计回归参数了。此时方程变为：kjijjinixp10,,2,1,~当然这样处理并没有解决异方差性，当in较大时，ip~的近似方差为：)(,)1(1)~(iiiiiiyEnpD（7）所以选择权重nippniiii,,2,1),1(，最后采用加权最小二乘法估计参数。注意，分组数据的Logistic回归只适用于大样本分组数据，对小样本的为分组数据不适用，并且以组数n为回归拟合的样本量，明显降低了拟合精度，在实际应用中必须谨慎。求解算法及步骤：1．依据分组数据的标准格式，计算频率ip、Logit变换ip~和权重i2．构建加权最小二乘估计：nikjijjiiiinikjijjiixyxy11201120)(min)(min（8）令iiiyy*，TikiiiiixxX),,,(1*，Tk),,,(10则方程又变成一般的线性回归模型：niiTiXy12**)(min（9）3．构造增广矩阵21****][kkTTYXXX利用消去法得]ˆ)ˆ([VarI矩阵，得到估计ˆ其中2,1KKI为残差平方和SE,回归方差1ˆ2knSE各系数检验采用)1(~ˆˆkntItiiii标准实用文案大全总平方和niniiniiiiiyyST112122)()(，回归平方和SESTSR总平方和求解相当于拟合iiy*0*方程的残差平方和，故得上式ST所以方程的检验为)1,(~)1/(/knkFknSEkSRF例2.1.1的求解过程如下（由LLLStat统计软件计算）：表2.1.4数据Logit变换及权重家庭年收入x实际购买mi签订意向ni比例pi逻辑变换Logit权重ni*pi(1-pi)1.5000008250.320000-0.7537725.4400002.50000013320.406250-0.3794907.7187503.50000026580.448276-0.20763914.3448284.50000022520.423077-0.31015512.6923085.50000020430.465116-0.13976210.6976746.50000022390.5641030.2578299.5897447.50000016280.5714290.2876826.8571438.50000012210.5714290.2876825.1428579.50000010150.6666670.6931473.333333表2.1.5回归模型基本信息总样本9求解方法加权最小二乘仅常数项beta0-0.095029方程F统计量51.982160F分布自由度1,7方程检验p值0.000176总平方和8.798294回归平方和7.754112残差平方和1.044181表2.1.6分组Logistic回归系数检验序号均值回归系数系数标准误t统计量自由度df检验P值常数项2.837815-0.8488820.113578-7.47399470.000056家庭年收入x14.9011400.1493230.0207117.20986570.000056表2.1.71][XXT0.086479-0.014517-0.0145170.002876本例Logistic模型的回归方程：xexepi149323.0848882.0149323.0848882.01ˆ标准实用文案大全对于多分类无序自变量的Logistic回归，即某个自变量为m个水平的名义变量（如治疗方法A,B,C），只需要引入m-1（2个）个哑变量，然后采用上述方法进行分析。例2.1.3研究三种治疗方法对不同性别病人的治疗效果[2]，数据如表2.1.4表2.1.4性别和治疗法对某病治愈情况的影响性别治疗方法有效im无效总例数in男A7828106B10111112C6846114女A40545B54559C34640由于治疗方法有三种，没有等级关系，所以属于无序的名义变量，故引入两个哑变量32,xx分别代表A和B疗法，其中0,132xx表示方法A,1,032xx表示方法B,0,032xx表示方法C，将上述数据转化成标准格式，得表2.1.5。表2.1.5性别和治疗法对某病治愈情况的影响性别1x2x3x有效im总例数in1107810610110111210068114010404500154590003440对于分类数据，也可以采用极大似然法进行参数估计，具体见2.2节最后部分内容。2.2两分类未分组(连续)非条件Logistic回归应变量y取值为0和1，设事件发生记为y=1，否则为0，设自变量Tkxxxx),,,(21，n组观测数据记为),,,,(21iikiiyxxx,ni,,2,1。记TikiiixxxX),,,,1(21，10ix，则iy与ikiixxx,,,21的Logistic回归模型是：iXTiXTikxkixikxkixikkiiieeeexxfyE11)()(110110110（10）易知，iy是均值为i的0-1型分布，其

Logistic回归模型

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

F5 BIG-IP LTM V9负载均衡器配置指导书

燃气基础知识-燃气基础知识

英语3电气管理题目(老题库)

XXXX年国家农业综合开发产业化经营项目申报指南》的通知

酒店委托管理合同格式书

ISO9000andQualitycost

钻孔桩施工质量控制

【基本分析】跟随经济周期踩准行业波动脉搏

工厂品质异常处理相关流程

集体生日晚会流程

相关文档

相关搜索

Logistic回归模型

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

F5 BIG-IP LTM V9负载均衡器配置指导书

燃气基础知识-燃气基础知识

英语3电气管理题目(老题库)

XXXX年国家农业综合开发产业化经营项目申报指南》的通知

酒店委托管理合同格式书

ISO9000andQualitycost

钻孔桩施工质量控制

【基本分析】跟随经济周期 踩准行业波动脉搏

工厂品质异常处理相关流程

集体生日晚会流程

相关文档

相关搜索

【基本分析】跟随经济周期踩准行业波动脉搏