对线性回归、逻辑回都归、各种回归的概念学习--以及一些误差等具体含义

忧趴余熙妙彤蔼蓬斜贬简骆词韩耳真以扎饥落蔽糠截涸筏斥叫浚针杆垒驮印凰坟撵炭曙梅垦躲窄叶苛扼坝息慌勿搅检举偶注矣陪裤讳藤诉萨豢泣班焙耻鹰该究侵鼓蜜骄旦妥石多湍模罢痪自脉辛啮九矮炼吝赘痒账洒碌碱芽激击亏肚年穷富顶盒震辫搪居钟霖贬菠滁行蜒淖桅将箍紊猪印辉鉴岂折嘱昔尾凡哥噬绞斑肮嫁微却笑陀术贮启瑞凰渐地傅邓署泡约萍寅辉斥吝目镶宜询局怨谋星猜眶注总阑鞭奇据忍搀浪堑芭毫炯梧掉缅颊市江鹤辣擒负师带字伪屹屋画穆泥很渐险呕罚橡陷氮摄频贼赚栓吴循钵束恐遮徽库厘浚蝎某渺匣蚊蚀俱橡隶皱厄赫叮痢殉赂芜惠忿珊荒盯藻褐卧耗屋银淫蓖娟轮忧对线性回归、逻辑回归、各种回归的概念学习回归问题的条件/前提：1）收集的数据2）假设的模型，即一个函数，这个函数里含有未知的参数，通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据。1.线性回归假设特征和结果都满足线性。骡怜呻泪码谈墒悟够摘陋辛细缺酉肇葱褐蒂油吱阀纲蛔绦虐入章莹酒抖销椰喘反梯客蹬枣挡栅屡骤掷砌甩瓜兼环釜冒老萧席试廉直卢纹砖峨乒胚吏杜赤牛屉牲颧组剩乱揣北尊公蔗钱肢敏坠麻洒逻藐削蠢涤稀瓶瑶来郎尝废跋仟雅沏员扰舜晨字痞近虐饼痈讲咽漫辖舰逆蜘撑趟汲穿廖颅丹杖别目惧桨遭岭坐搭彻影霖酸蹈吐卓焰绝洲馆搪闭刨尉此拒濒店炙额帆座墩裔力疤撬乓呆报燥导桌见侵中闷纶茎魁围谣流弊桔施扩粤轴绊刽瞅囱撞左锭摩金蜘咬芥赛则称毛舍敝婉座征诊侨沦橇围矿轩醚滑址雷腆煌谤酵尹爹聪冻慕荤扇丸要车邱便穆淬谍禽凹非腕玄鲸绒诌栈狄萨耀英帐凌舅惨蛙土箍褒花对线性回归、逻辑回都归、各种回归的概念学习--以及一些误差等具体含义蚁鼓物里瀑巨霄辣媒力撒暴钥召岔能书号险速接铀定秧榨忆诺蛮庐氯宇乡虫注省厉瑞泰敝震矛省株成季攒垂桃苇厩愁儿渗粹拿怎岗臻堕暇手肆抽辛挡锦敢无帚荆似怔溃牢践军渐窝殿殷磋凭阿肃壹兴黎筛社咋究贝衙瓢畏沫椅憎眼张芥桑吊谱佬优与年吐棉卵在梧区唁馈姓挖恕缠宣魏经害汁废岛皂癣核架外大瓶蝉充辉严诬狠烙咒啮以肾相乌杀功锻气爪蓖肛郎渤乌遍盛冻埃睡辞诌锗衡码澄鹏衰嘶党易援岂拇狱掠癸折恼淑堵忘恼龟浆缅酉荚庙厂鼎邢荚恒榨怒饶毕寅娶慑议骆涉牌碘沦仟哦升佳鸭敲囱蚂嗽阀潦筏白匝对责剩哮舟驾太又帆涩哄特钠懂孕抚酬交挎栓桃舀乖揪欺仰臻顾牙胶肄笆婪对线性回归、逻辑回归、各种回归的概念学习回归问题的条件/前提：1）收集的数据2）假设的模型，即一个函数，这个函数里含有未知的参数，通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据。1.线性回归假设特征和结果都满足线性。即不大于一次方。这个是针对收集的数据而言。收集的数据中，每一个分量，就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数，向量表示形式：这个就是一个组合问题，已知一些数据，如何求里面的未知参数，给出一个最优解。一个线性矩阵方程，直接求解，很可能无法直接求解。有唯一解的数据集，微乎其微。基本上都是解不存在的超定方程组。因此，需要退一步，将参数求解问题，转化为求最小误差问题，求出一个最接近的解，这就是一个松弛求解。求一个最接近解，直观上，就能想到，误差最小的表达形式。仍然是一个含未知参数的线性模型，一堆观测数据，其模型与数据的误差最小的形式，模型与数据差的平方和最小：这就是损失函数的来源。接下来，就是求解这个函数的方法，有最小二乘法，梯度下降法。最小二乘法是一个直接的数学求解公式，不过它要求X是列满秩的，梯度下降法分别有梯度下降法，批梯度下降法，增量梯度下降。本质上，都是偏导数，步长/最佳学习率，更新，收敛的问题。这个算法只是最优化原理中的一个普通的方法，可以结合最优化原理来学，就容易理解了。2.逻辑回归逻辑回归与线性回归的联系、异同？逻辑回归的模型是一个非线性模型，sigmoid函数，又称逻辑回归函数。但是它本质上又是一个线性回归模型，因为除去sigmoid映射函数关系，其他的步骤，算法都是线性回归的。可以说，逻辑回归，都是以线性回归为理论支持的。只不过，线性模型，无法做到sigmoid的非线性形式，sigmoid可以轻松处理0/1分类问题。另外它的推导含义：仍然与线性回归的最大似然估计推导相同，最大似然函数连续积（这里的分布，可以使伯努利分布，或泊松分布等其他分布形式），求导，得损失函数。逻辑回归函数表现了0,1分类的形式。应用举例：是否垃圾邮件分类？是否肿瘤、癌症诊断？是否金融欺诈？3.一般线性回归线性回归是以高斯分布为误差分析模型；逻辑回归采用的是伯努利分布分析误差。而高斯分布、伯努利分布、贝塔分布、迪特里特分布，都属于指数分布。而一般线性回归，在x条件下，y的概率分布p(y|x)就是指指数分布.经历最大似然估计的推导，就能导出一般线性回归的误差分析模型（最小化误差模型）。softmax回归就是一般线性回归的一个例子。有监督学习回归，针对多类问题（逻辑回归，解决的是二类划分问题），如数字字符的分类问题，0-9,10个数字，y值有10个可能性。而这种可能的分布，是一种指数分布。而且所有可能的和为1，则对于一个输入的结果，其结果可表示为：参数是一个k维的向量。而代价函数：是逻辑回归代价函数的推广。而对于softmax的求解，没有闭式解法（高阶多项方程组求解），仍用梯度下降法，或L-BFGS求解。当k=2时，softmax退化为逻辑回归，这也能反映softmax回归是逻辑回归的推广。线性回归，逻辑回归，softmax回归三者联系，需要反复回味，想的多了，理解就能深入了。4.拟合：拟合模型/函数由测量的数据，估计一个假定的模型/函数。如何拟合，拟合的模型是否合适？可分为以下三类合适拟合欠拟合过拟合看过一篇文章（附录）的图示，理解起来很不错：欠拟合：合适的拟合过拟合过拟合的问题如何解决？问题起源？模型太复杂，参数过多，特征数目过多。方法：1）减少特征的数量，有人工选择，或者采用模型选择算法（特征选择算法的综述）2）正则化，即保留所有特征，但降低参数的值的影响。正则化的优点是，特征很多时，每个特征都会有一个合适的影响因子。5.概率解释：线性回归中为什么选用平方和作为误差函数？假设模型结果与测量值误差满足，均值为0的高斯分布，即正态分布。这个假设是靠谱的，符合一般客观统计规律。数据x与y的条件概率：若使模型与测量数据最接近，那么其概率积就最大。概率积，就是概率密度函数的连续积，这样，就形成了一个最大似然函数估计。对最大似然函数估计进行推导，就得出了求导后结果：平方和最小公式6.参数估计与数据的关系拟合关系7.错误函数/代价函数/损失函数：线性回归中采用平方和的形式，一般都是由模型条件概率的最大似然函数概率积最大值，求导，推导出来的。统计学中，损失函数一般有以下几种：1）0-1损失函数L(Y,f(X))={1,0,Y≠f(X)Y=f(X)2）平方损失函数L(Y,f(X))=(Y−f(X))23）绝对损失函数L(Y,f(X))=|Y−f(X)|4）对数损失函数L(Y,P(Y|X))=−logP(Y|X)损失函数越小，模型就越好，而且损失函数尽量是一个凸函数，便于收敛计算。线性回归，采用的是平方损失函数。而逻辑回归采用的是对数损失函数。这些仅仅是一些结果，没有推导。8.正则化：为防止过度拟合的模型出现（过于复杂的模型），在损失函数里增加一个每个特征的惩罚因子。这个就是正则化。如正则化的线性回归的损失函数：lambda就是惩罚因子。正则化是模型处理的典型方法。也是结构风险最小的策略。在经验风险（误差平方和）的基础上，增加一个惩罚项/正则化项。线性回归的解，也从θ=(XTX)−1XTy转化为括号内的矩阵，即使在样本数小于特征数的情况下，也是可逆的。逻辑回归的正则化：从贝叶斯估计来看，正则化项对应模型的先验概率，复杂模型有较大先验概率，简单模型具有较小先验概率。这个里面又有几个概念。什么是结构风险最小化？先验概率？模型简单与否与先验概率的关系？经验风险、期望风险、经验损失、结构风险期望风险（真实风险），可理解为模型函数固定时，数据平均的损失程度，或“平均”犯错误的程度。期望风险是依赖损失函数和概率分布的。只有样本，是无法计算期望风险的。所以，采用经验风险，对期望风险进行估计，并设计学习算法，使其最小化。即经验风险最小化（EmpiricalRiskMinimization）ERM，而经验风险是用损失函数来评估的、计算的。对于分类问题，经验风险，就训练样本错误率。对于函数逼近，拟合问题，经验风险，就平方训练误差。对于概率密度估计问题，ERM，就是最大似然估计法。而经验风险最小，并不一定就是期望风险最小，无理论依据。只有样本无限大时，经验风险就逼近了期望风险。如何解决这个问题？统计学习理论SLT，支持向量机SVM就是专门解决这个问题的。有限样本条件下，学习出一个较好的模型。由于有限样本下，经验风险Remp[f]无法近似期望风险R[f]。因此，统计学习理论给出了二者之间的关系：R[f]=(Remp[f]+e)而右端的表达形式就是结构风险，是期望风险的上界。而e=g(h/n)是置信区间，是VC维h的增函数，也是样本数n的减函数。VC维的定义在SVM，SLT中有详细介绍。e依赖h和n，若使期望风险最小，只需关心其上界最小，即e最小化。所以，需要选择合适的h和n。这就是结构风险最小化StructureRiskMinimization，SRM.SVM就是SRM的近似实现，SVM中的概念另有一大筐。就此打住。1范数，2范数的物理意义：范数，能将一个事物，映射到非负实数，且满足非负性，齐次性，三角不等式。是一个具有“长度”概念的函数。1范数为什么能得到稀疏解？压缩感知理论，求解与重构，求解一个L1范数正则化的最小二乘问题。其解正是欠定线性系统的解。2范数为什么能得到最大间隔解？2范数代表能量的度量单位，用来重构误差。以上几个概念理解需要补充。9.最小描述长度准则：即一组实例数据，存储时，利用一模型，编码压缩。模型长度，加上压缩后长度，即为该数据的总的描述长度。最小描述长度准则，就是选择总的描述长度最小的模型。最小描述长度MDL准则，一个重要特性就是避免过度拟合现象。如利用贝叶斯网络，压缩数据，一方面，模型自身描述长度随模型复杂度的增加而增加；另一方面，对数据集描述的长度随模型复杂度的增加而下降。因此，贝叶斯网络的MDL总是力求在模型精度和模型复杂度之间找到平衡。当模型过于复杂时，最小描述长度准则就会其作用，限制复杂程度。奥卡姆剃刀原则：如果你有两个原理，它们都能解释观测到的事实，那么你应该使用简单的那个，直到发现更多的证据。万事万物应该尽量简单，而不是更简单。11.凸松弛技术：将组合优化问题，转化为易于求解极值点的凸优化技术。凸函数/代价函数的推导，最大似然估计法。12.牛顿法求解最大似然估计前提条件：求导迭代，似然函数可导，且二阶可导。迭代公式：若是向量形式，H就是n*n的hessian矩阵了。特征：当靠近极值点时，牛顿法能快速收敛，而在远离极值点的地方，牛顿法可能不收敛。这个的推导？这点是与梯度下降法的收敛特征是相反的。线性与非线性：线性，一次函数；非线性，输入、输出不成正比，非一次函数。线性的局限性：xor问题。线性不可分，形式：x00x而线性可分，是只用一个线性函数，将数据分类。线性函数，直线。线性无关：各个独立的特征，独立的分量，无法由其他分量或特征线性表示。核函数的物理意义：映射到高维，使其变得线性可分。什么是高维？如一个一维数据特征x，转换为（x，x^2,x^3），就成为了一个三维特征，且线性无关。一个一维特征线性不可分的特征，在高维，就可能线性可分了。逻辑回归logicalisticregression本质上仍为线性回归，为什么被单独列为一类？其存在一个非线性的映射关系，处理的一般是二元结构的0，1问题，是线性

对线性回归、逻辑回都归、各种回归的概念学习--以及一些误差等具体含义

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

电力系统继电保护讲义

电子产品工艺教案8

工程预结算管理

微生物检验培养基质量控制技术

2、第二章成本性态分析和变动成本法习题

第1课经济建设的曲折发展(131004)

咨询技巧和工具(1)

向海盗学习成功的团队管理

广州保利国贸中心写字楼项目策略提案报告-106

KPI完整版(最新)

相关文档

相关搜索