您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 第六章-Logistic回归
袁春清华大学深圳研究生院李航华为诺亚方舟实验室目录1.逻辑斯蒂回归模型2.最大熵模型3.模型学习的最优化方法一、逻辑斯蒂回归逻辑斯蒂分布二项逻辑斯蒂回归似然函数模型参数估计多项logistic回归回归面积(m^2)销售价钱(万元)12325015032087160102220……回归回归:广义线性模型(generalizedlinearmodel)分类:根据因变量的不同连续:多重线性回归二项分布:logistic回归poisson分布:poisson回归负二项分布:负二项回归逻辑斯蒂分布Logisticdistribution设X是连续随机变量,X服从Logisticdistribution,分布函数:密度函数:μ为位置参数,γ大于0为形状参数,(μ,1/2)中心对称Sigmoid:双曲正切函数(tanh)Sigmoidfunction:defsigmoid(inX):return1.0/(1+exp(-inX))二项逻辑斯蒂回归Binomiallogisticregressionmodel由条件概率P(Y|X)表示的分类模型形式化为logisticdistributionX取实数,Y取值1,0二项逻辑斯蒂回归事件的几率odds:事件发生与事件不发生的概率之比为称为事件的发生比(theoddsofexperiencinganevent),对数几率:对逻辑斯蒂回归:似然函数logistic分类器是由一组权值系数组成的,最关键的问题就是如何获取这组权值,通过极大似然函数估计获得,并且Y~f(x;w)似然函数是统计模型中参数的函数。给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)似然函数的重要性不是它的取值,而是当参数变化时概率密度函数到底是变大还是变小。极大似然函数:似然函数取得最大值表示相应的参数能够使得统计模型最为合理似然函数那么对于上述m个观测事件,设其联合概率密度函数,即似然函数为:目标:求出使这一似然函数的值最大的参数估,w1,w2,…,wn,使得L(w)取得最大值。对L(w)取对数:模型参数估计对数似然函数对L(w)求极大值,得到w的估计值。通常采用梯度下降法及拟牛顿法,学到的模型:多项logistic回归设Y的取值集合为多项logistic回归模型二、最大熵模型最大熵原理最大熵模型的定义最大熵模型的学习极大似然估计最大熵原理最大熵模型(MaximumEntropyModel)由最大熵原理推导实现。最大熵原理:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型,表述为在满足约束条件的模型集合中选取熵最大的模型。假设离散随机变量X的概率分布是P(X),熵:且:|X|是X的取值个数,X均匀分布时右边等号成立。例子:假设随机变量X有5个取值{A,B,C,D,E},估计各个值的概率。解:满足等概率估计:加入一些先验:于是:P(A)+P(B)+P(C)+P(D)+P(E)=1例子:假设随机变量X有5个取值{A,B,C,D,E},估计各个值的概率。解:满足等概率估计:加入一些先验:于是:再加入约束:P(A)+P(B)+P(C)+P(D)+P(E)=1最大熵原理X和Y分别是输入和输出的集合,这个模型表示的是对于给定的输入X,以条件概率P(Y|X)输出Y.给定数据集:联合分布P(Y|X)的经验分布,边缘分布P(X)的经验分布:特征函数:最大熵原理特征函数f(x,y)关于经验分布的期望值:特征函数f(x,y)关于模型P(Y|X)与经验分布的期望值:如果模型能够获取训练数据中的信息,那么就可以假设这两个期望值相等,即假设有n个特征函数:最大熵模型的定义定义:假设满足所有约束条件的模型集合为:定义在条件概率分布P(Y|X)上的条件熵:则模型集合C中条件熵H(P)最大的模型称为最大熵模型最大熵模型的学习最大熵模型的学习可以形式化为约束最优化问题。对于给定的数据集以及特征函数:fi(x,y)最大熵模型的学习等价于约束最优化问题:最大熵模型的学习这里,将约束最优化的原始问题转换为无约束最优化的对偶问题,通过求解对偶问题求解原始间题:引进拉格朗日乘子,定义拉格朗日函数:最优化原始问题到对偶问题:最大熵模型的学习最优化原始问题到对偶问题:L(P,w)是P的凸函数,解的等价性(证明部分在SVM部分介绍)先求极小化问题:是w的函数,最大熵模型的学习求L(P,w)对P(y|x)的偏导数:得:最大熵模型的学习由:得:(6.22)规范化因子:(6.23)模型就是最大熵模型求解对偶问题外部的极大化问题:例子:原例子中的最大熵模型:例子:解得:例子:得:对wi求偏导并令为0:极大似然估计最大熵模型就是(6.22),(6.23)表示的条件概率分布,证明:对偶函数的极大化等价于最大熵模型的极大似然估计.已知训练数据的经验概率分布,条件概率分布P(Y|X)的对数似然函数表示为:极大似然估计而:极大似然估计最大熵模型与逻辑斯谛回归模型有类似的形式,它们又称为对数线性模型(loglinearmodel).模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。三、模型学习的最优化算法最优化算法简介梯度下降法无约束最优化问题-牛顿法、拟牛顿法、DFP算法、BFGS算法最优化算法简介逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题,通常通过迭代算法求解,它是光滑的凸函数,因此多种最优化的方法都适用。常用的方法有:改进的迭代尺度法梯度下降法牛顿法拟牛顿法梯度下降法梯度下降法(gradientdescent)最速下降法(steepestdescent)梯度下降法是一种迭代算法.选取适当的初值x(0),不断迭代,更新x的值,进行目标函数的极小化,直到收敛。由于负梯度方向是使函数值下降最快的方向,在迭代的每一步,以负梯度方向更新x的值,从而达到减少函数值的目的.梯度下降法假设f(x)具有一阶连续偏导数的函数:一阶泰勒展开:f(x)在x(k)的梯度值:负梯度方向:无约束最优化问题牛顿法(Newtonmethod)拟牛顿法(quasiNewtonmethod)有收敛速度快的优点.牛顿法是迭代算法,每一步需要求解目标函数的海赛矩阵的逆矩阵,计算比较复杂。拟牛顿法通过正定矩阵近似海赛矩阵的逆矩阵或海赛矩阵,简化了这一计算过程。牛顿法无约束最优化问题:假设f(x)具有二阶连续偏导数,若第k次迭代值为x(k),则可将f(x)在x(k)附近进行二阶泰勒展开:B.2是f(x)的梯度向量在x(k)的值是f(x)的海塞矩阵在点x(k)的值牛顿法函数f(x)有极值的必要条件是:在极值点处一阶导数为o,即梯度向量为o.特别是当H(x(k))是正定矩阵时,函数f(x)的极值为极小值.利用条件:设迭代从x(k)开始,求目标函数的极小点,牛顿法(B.8)牛顿法算法步骤:求逆拟牛顿法考虑用一个n阶矩阵Gk=G(x(k))来近似代替拟牛顿条件:由:拟牛顿法如果Hk是正定的,Hk-1也是正定的,那么可以保证牛顿法搜索方向Pk是下降方向,因为搜索方向由B.8得:由B.2得:将Gk作为的近似,拟牛顿条件拟牛顿法在每次迭代中可以选择更新矩阵Broyden类优化算法:DFP(Davidon-Fletcher-Powell)算法(DFPalgorithm)BFGS(Broyden-Fletcher-Goldfarb-Shanno)算法(BFGSalgorithm)Broyden类算法(Broyden'salgorithm)BFGS(Broyden-Fletcher-Goldfarb-Shanno)算法可以考虑用Gk逼近海赛矩阵的逆矩阵H-1,也可以考虑用Bk逼近海赛矩阵H,这时,相应的拟牛顿条件是:用同样的方法得到另一迭代公式.首先令考虑使Pk和Qk满足:Bk+1的迭代公式:B.30改进的迭代尺度法改进的迭代尺度法(improvediterativescaling,IIS)由最大熵模型对数似然函数求对数似然函数的极大值IIS思路:假设希望找到一个新的参数向量,使得模型的对数似然函数值增大,如果有参数向量更新方法,那么就可以重复使用这一方法,直至找到对数似然函数的最大值。改进的迭代尺度法利用改进的迭代尺度法于是有如果能找到适当的δ使下界A(δ|w)提高,那么对数似然函数也会提高。δ是一个向量,含多个变量,一次只优化一个变量δi引进一个量f#(x,y),fi(x,y)是二值函数,f#(x,y)表示所有特征在(x,y)出现的次数。改进的迭代尺度法利用指数函数的凸性,以及根据Jensen不等式:改进的迭代尺度法于是得到是对数似然函数改变量的一个新的下界对δi求偏导:令偏导数为0,得到:依次对δi解方程。改进的迭代尺度法算法输入:特征函数f1,f2…fn;经验分布,模型输出:最优参数wi*;最优模型Pw*关键改进的迭代尺度法拟牛顿法最大熵模型:目标函数:梯度:Q&A?
本文标题:第六章-Logistic回归
链接地址:https://www.777doc.com/doc-7028312 .html