各种向量和矩阵的范数的意义

向量和矩阵的范数马玉玲2017年03月08日1Outline1.相关概念——学习、误差和目标函数2.范数概念3.向量的范数及含义4.矩阵的范数及含义2Outline1.相关概念——学习、误差和目标函数2.范数概念3.向量的范数及含义4.矩阵的范数及含义3Basisknowledge相关概念——学习AcomputerprogramissaidtolearnfromexperienceEwithrespecttosomeclassoftasksTandperformancemeasureP,ifitsperformanceattasksinT,asmeasuredbyP,improveswithexperienceE.4利用经验，改善执行某任务时的系统性能。Basisknowledge相关概念——学习5Basisknowledge相关概念——学习6Basisknowledge相关概念——学习备注：表来自周老师西瓜书课件7Basisknowledge相关概念——学习函数y=f(x)备注：本页ppt来自周老师西瓜书课件8Basisknowledge相关概念——学习线性模型y=wTx+b备注：表来自周老师西瓜书课件x(1)x(2)x(3)插值法9Basisknowledge相关概念——学习备注：表来自周老师西瓜书课件xY=10BasisknowledgeEmpiricalerror:Generalizationerror:Errorparameter:PredictwronglyDI(a):1ifa=true0else相关概念——误差假定数据集DThevalueofεisdependantonthetask11相关概念——目标函数一般来说，监督学习可以看做最小化下面的目标函数：误差项正则化项正则化项可以约束模型的特性。这样就可以将人对这个模型的先验知识融入到模型的学习当中。范数是正则化的常用方法12Outline1.相关概念——误差和目标函数2.范数概念3.向量的范数及含义4.矩阵的范数及含义13范数的概念范数的目的：对向量及矩阵的“大小”进行度量14向量的范数X∈Rn为一实向量，X的范式定义如下：L1-normL2-normL∞-norm统称为pL0范数：指向量中非0的元素的个数X=[-12-2]||X||0=3||X||1=5||X||∞=2||X||2=315范数的含义L0范数：指向量中非0的元素的个数最小化L0范数数据稀疏的好处：1.存储成本低2.自动实现特征选择(FeatureSelection)3.可解释性强(Interpretability)应用：病因分析但是，L0范数很难优化求解，是一个NP-Hard问题。稀疏16范数的含义L1范数：L1范数是L0范数的最优凸近似，而且它比L0范数要容易优化求解。所以L1范数被称为“稀疏规则算子”（Lasso）taxicabNorm，也叫ManhattanNorm稀疏编码特征选择压缩感知17范数的含义（续…）L2范数：又称“岭回归”（RidgeRegression），“权值衰减（weightdecay）”，EuclideanNorm最小化L2范数，可以使得X的元素值都很小，大都接近于018范数的含义（L2-norm）L2范数的好处：1.改善“过拟合（overfitting）”欠拟合underfitting：训练集上误差很大，即模型不能很好地拟合已有数据；关于“过拟合”：在数学上称为“病态”（ill-condition):即函数的输入改变一点点，输出却改变非常大。过拟合（overfitting）：模型很好地拟合训练数据，然而在新样本上表现却很差。L2范数限制了参数都很小，实际上就限制了多项式各分量的影响很小，一定程度上避免了模型出现“病态”的情况。2.利于优化19范数的含义（L2-norm）L2范数的好处：1.改善“过拟合（overfitting）”2.利于优化机器学习中有时候损失函数是非凸的，例如：神经网络。采用梯度下降之类的优化方法时，容易卡住（Stuckin），导致很差的解。非凸的损失函数加入L2范数后20知识扩展——稀疏性分析：模型空间限制在w的一个L-ball中。在(w1,w2)平面上可以画出目标函数的等高线，而约束条件则成为平面上半径为C的一个normball。等高线与normball首次相交的地方就是最优解。与L2范数相比，L1范数更有可能得到值为0的解，所以导致稀疏。21优化求解：由于L1范数并没有平滑的函数（non-smooth）表示，起初L1最优化问题解决起来非常困难，但随着计算机技术的发展，目前已有很多凸优化算法(例如：线性规划/非线性规划等）使得L1最优化。L1范数：22优化求解：L1范数：虽然，L1范数并没有平滑的函数（non-smooth）表示，但比L2范数更容易找到最优解。23优化求解：L1范数：目前，已经有很多工具箱，例如l1-magic,SparseLab,ISAL1,24优化求解：因为L2-范数本身具有平滑（smooth）的属性，找到单一的最优解比较困难。L2范数：25BasisknowledgeL2范数最小二乘优化：xY=*1()ˆTTXXXyw加入一个L2范数||w||2Xy伪逆26优化求解：在不能求得解析解的情况下，具体分析目标函数的性质（凸否？连续否？光滑否？）还可以使用凸优化方法进行求解，例如：牛顿法、最速下降法、共轭梯度法、高斯牛顿法等等，大规模数据情况下的随机梯度下降（SGD）,交替方向乘子法(ADMM)L2范数：红色：牛顿法绿色：梯度下降法27Outline1.相关概念——误差和目标函数2.范数概念3.向量的范数及含义4.矩阵的范数及含义28矩阵的范数29矩阵的范数（续…）设A为n行n列的矩阵，矩阵的范数定义如下：列范数行范数谱范数56530举例：31矩阵的范数（续…）设A为n行n列的矩阵，矩阵的范数定义如下：谱范数（不好优化）以上为数学上范数的定义，只有F-范数在“机器学习”中常用，此处1-范数在机器学习中一般称为“l1范数”。矩阵范数最好参考相关论文中的定义。常用32矩阵的范数--机器学习领域常用范数：按列向量先求2-范数，再求1-范数矩阵先扩展为向量，再求范数njmiijaA112/122,1)|)|((||||njmiijnjjaaA112/12121,2)||(||||||||minjppijPpaAvecA11/1)||(||)(||||||英文为Nuclearnorm，指矩阵奇异值的和（迹trace），故又称为trace-normtrA||||minjijFaAF112/12)(||||范数：},min{1*)(trace||||nmiiTAAA核范数：按列向量先求1-范数，再求2-范数33矩阵范数的含义最小化矩阵的F范数，会使得矩阵的每个元素都很小，接近于0||A-B||F的含义？||A-B||F可度量A，B之间的差异，最小化可使得两者尽可能的相等。34举例——F范数应用35矩阵范数的含义（续…）核范数||W||*：指矩阵奇异值的和，英文为Nuclearnorm最小化核范数可以导致矩阵低秩（Low-Rank）。•矩阵范数的含义（续…）低秩矩阵：如果X是一个m行n列的数值矩阵，rank(X)是X的秩，假如rank(X)远小于m和n，则我们称X是低秩矩阵。冗余信息矩阵的秩：矩阵的行列之间的相关性的度量。如果矩阵的各行或列是线性无关的，矩阵就是满秩的，也就是秩等于行数。•矩阵范数的含义（续…）25*15的图像组成元素但是rank()是非凸的，在优化问题里面很难求解，那么就需要寻找它的凸近似。rank(w)的凸近似就是核范数||W||*手工求矩阵的秩：通过矩阵初等变换把A化为阶梯型矩阵，若该阶梯型矩阵有r个非零行，那A的秩rank(A)就等于r。38应用举例—核范数39矩阵低秩的用处：1）矩阵填充(MatrixCompletion)：例如--推荐系统2）鲁棒PCA3）背景建模4）变换不变低秩纹理（TILT）应用举例—核范数稀疏噪声低秩结构信息鲁棒PCA:40矩阵范数的含义•=1时，为矩阵的1-范数，最小化||A||1范数能让矩阵A元素稀疏minjppijPpaAvecA11/1)||(||)(||||||p=2时，为矩阵的2-范数，即F范数稀疏矩阵的优点：计算速度更快存储成本低可解释性强（例如：文本分类中，可知哪些词对类别起重要作用）41矩阵范数的含义•KongD,FujimakiR,LiuJ,etal.Exclusivefeaturelearningonarbitrarystructuresvial1,2-norm[J].AdvancesinNeuralInformationProcessingSystems,2014,2:1655-1663.最小化||A||2,1范数能让矩阵A不同行之间（列向量）稀疏GroupLassonjmiijnjjaaA112/12121,2)||(||||||||c1c2cn221112121...cmaaa42矩阵范数的含义LassoGroupLassoHierarchicalLasso文本分类中的应用：找出关键词找出关键句子找出关键段43矩阵范数的含义•KongD,FujimakiR,LiuJ,etal.Exclusivefeaturelearningonarbitrarystructuresvial1,2-norm[J].AdvancesinNeuralInformationProcessingSystems,2014,2:1655-1663.njmiijaA112/122,1)|)|((||||最小化||A||1,2范数能让矩阵行内元素互斥互斥：行内存在0元素且不能全为0.用途：特征选择的时候不同的类别可以选择互斥的特征4445

各种向量和矩阵的范数的意义

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

工程监理手册4413701479

3 施工图设计说明 1020

三峡大坝混凝土快速施工方案及工艺研究(doc13)(1)

锦州剑指区域商贸物流金融会展中心

最全微生物学试题库及答案

长安汽车XXXX年报

兴田公司皂塘煤矿避难硐室设计912

复件金地·青浦4－28地块项目策划案

商场合同评审制度暂行管理办法

4S店客服部年终总结计划

相关文档

相关搜索

各种向量和矩阵的范数的意义

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

工程监理手册4413701479

3 施工图设计说明 1020

三峡大坝混凝土快速施工方案及工艺研究(doc13)(1)

锦州剑指区域商贸物流金融会展中心

最全微生物学试题库及答案

长安汽车XXXX年报

兴田公司皂塘煤矿避难硐室设计912

复件 金地·青浦4－28地块项目策划案

商场合同评审制度暂行管理办法

4S店客服部年终总结计划

相关文档

相关搜索

复件金地·青浦4－28地块项目策划案