您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 转MIT大牛学习的体会
转MIT大牛学习的体会希望能时刻提醒自己!以后要多向大牛学习!From:线性代数(LinearAlgebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是IntroductiontoLinearAlgebra(3rdEd.)byGilbertStrang.这本书是MIT的线性代数课使用的教材,也是被很多其它大学选用的经典教材。它的难度适中,讲解清晰,重要的是对许多核心的概念讨论得比较透彻。我个人觉得,学习线性代数,最重要的不是去熟练矩阵运算和解方程的方法——这些在实际工作中MATLAB可以代劳,关键的是要深入理解几个基础而又重要的概念:子空间(Subspace),正交(Orthogonality),特征值和特征向量(Eigenvaluesandeigenvectors),和线性变换(Lineartransform)。从我的角度看来,一本线代教科书的质量,就在于它能否给这些根本概念以足够的重视,能否把它们的联系讲清楚。Strang的这本书在这方面是做得很好的。而且,这本书有个得天独厚的优势。书的作者长期在MIT讲授线性代数课(18.06),课程的video在MIT的Opencourseware网站上有提供。有时间的朋友可以一边看着名师授课的录像,一边对照课本学习或者复习。概率和统计(ProbabilityandStatistics):概率论和统计的入门教科书很多,我目前也没有特别的推荐。我在这里想介绍的是一本关于多元统计的基础教科书:AppliedMultivariateStatisticalAnalysis(5thEd.)byRichardA.JohnsonandDeanW.Wichern这本书是我在刚接触向量统计的时候用于学习的,我在香港时做研究的基础就是从此打下了。实验室的一些同学也借用这本书学习向量统计。这本书没有特别追求数学上的深度,而是以通俗易懂的方式讲述主要的基本概念,读起来很舒服,内容也很实用。对于Linearregression,factoranalysis,principalcomponentanalysis(PCA),andcanonicalcomponentanalysis(CCA)这些Learning中的基本方法也展开了初步的论述。之后就可以进一步深入学习贝叶斯统计和Graphicalmodels。一本理想的书是IntroductiontoGraphicalModels(draftversion).byM.JordanandC.Bishop.我不知道这本书是不是已经出版了(不要和LearninginGraphicalModels混淆,那是个论文集,不适合初学)。这本书从基本的贝叶斯统计模型出发一直深入到复杂的统计网络的估计和推断,深入浅出,statisticallearning的许多重要方面都在此书有清楚论述和详细讲解。MIT内部可以access,至于外面,好像也是有电子版的。3.分析(Analysis):我想大家基本都在大学就学过微积分或者数学分析,深度和广度则随各个学校而异了。这个领域是很多学科的基础,值得推荐的教科书莫过于PrinciplesofMathematicalAnalysis,byWalterRudin有点老,但是绝对经典,深入透彻。缺点就是比较艰深——这是Rudin的书的一贯风格,适合于有一定基础后回头去看。在分析这个方向,接下来就是泛函分析(FunctionalAnalysis)。IntroductoryFunctionalAnalysiswithApplications,byErwinKreyszig.适合作为泛函的基础教材,容易切入而不失全面。我特别喜欢它对于谱论和算子理论的特别关注,这对于做learning的研究是特别重要的。Rudin也有一本关于functionalanalysis的书,那本书在数学上可能更为深刻,但是不易于上手,所讲内容和learning的切合度不如此书。在分析这个方向,还有一个重要的学科是测度理论(Measuretheory),但是我看过的书里面目前还没有感觉有特别值得介绍的。4.拓扑(Topology):在我读过的基本拓扑书各有特色,但是综合而言,我最推崇:Topology(2ndEd.)byJamesMunkres这本书是Munkres教授长期执教MIT拓扑课的心血所凝。对于一般拓扑学(Generaltopology)有全面介绍,而对于代数拓扑(Algebraictopology)也有适度的探讨。此书不需要特别的数学知识就可以开始学习,由浅入深,从最基本的集合论概念(很多书不屑讲这个)到Nagata-SmirnovTheorem和Tychonofftheorem等较深的定理(很多书避开了这个)都覆盖了。讲述方式思想性很强,对于很多定理,除了给出证明过程和引导你思考其背后的原理脉络,很多令人赞叹的亮点——我常读得忘却饥饿,不愿释手。很多习题很有水平。5.流形理论(Manifoldtheory):对于拓扑和分析有一定把握时,方可开始学习流形理论,否则所学只能流于浮浅。我所使用的书是IntroductiontoSmoothManifolds.byJohnM.Lee虽然书名有introduction这个单词,但是实际上此书涉入很深,除了讲授了基本的manifold,tangentspace,bundle,sub-manifold等,还探讨了诸如纲理论(Categorytheory),德拉姆上同调(DeRhamcohomology)和积分流形等一些比较高级的专题。对于李群和李代数也有相当多的讨论。行文通俗而又不失严谨,不过对某些记号方式需要熟悉一下。虽然李群论是建基于平滑流形的概念之上,不过,也可能从矩阵出发直接学习李群和李代数——这种方法对于急需使用李群论解决问题的朋友可能更加实用。而且,对于一个问题从不同角度看待也利于加深理解。下面一本书就是这个方向的典范:LieGroups,LieAlgebras,andRepresentations:AnElementaryIntroduction.byBrianC.Hall此书从开始即从矩阵切入,从代数而非几何角度引入矩阵李群的概念。并通过定义运算的方式建立exponentialmapping,并就此引入李代数。这种方式比起传统的通过“左不变向量场(Left-invariantvectorfield)“的方式定义李代数更容易为人所接受,也更容易揭示李代数的意义。最后,也有专门的论述把这种新的定义方式和传统方式联系起来。————————————————————————————无论是研究Vision,Learning还是其它别的学科,数学终究是根基所在。学好数学是做好研究的基石。学好数学的关键归根结底是自己的努力,但是选择一本好的书还是大有益处的。不同的人有不同的知识背景,思维习惯和研究方向,因此书的选择也因人而异,只求适合自己,不必强求一致。上面的书仅仅是从我个人角度的出发介绍的,我的阅读经历实在非常有限,很可能还有比它们更好的书(不妨也告知我一声,先说声谢谢了)。%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%Learning中的代数结构的建立Learning是一个融会多种数学于一体的领域。说起与此有关的数学学科,我们可能会迅速联想到线性代数以及建立在向量空间基础上的统计模型——事实上,主流的论文中确实在很大程度上基于它们。R^n(n-维实向量空间)是我们在paper中见到最多的空间,它确实非常重要和实用,但是,仅仅依靠它来描述我们的世界并不足够。事实上,数学家们给我们提供了丰富得多的工具。“空间”(space),这是一个很有意思的名词,几乎出现在所有的数学分支的基础定义之中。归纳起来,所谓空间就是指一个集合以及在上面定义的某种数学结构。关于这个数学结构的定义或者公理,就成为这个数学分支的基础,一切由此而展开。还是从我们最熟悉的空间——R^n说起吧。大家平常使用这个空间的时候,除了线性运算,其实还用到了别的数学结构,包括度量结构和内积结构。第一,它是一个拓扑空间(Topologicalspace)。而且从拓扑学的角度看,具有非常优良的性质:Normal(implyingHausdorffandRegular),LocallyCompact,Paracompact,withCountablebasis,Simplyconnected(implyingconnectedandpathconnected),Metrizable.第二,它是一个度量空间(Metricspace)。我们可以计算上面任意两点的距离。第三,它是一个有限维向量空间(Finitedimensionalspace)。因此,我们可以对里面的元素进行代数运算(加法和数乘),我们还可以赋予它一组有限的基,从而可以用有限维坐标表达每个元素。第四,基于度量结构和线性运算结构,可以建立起分析(Analysis)体系。我们可以对连续函数进行微分,积分,建立和求解微分方程,以及进行傅立叶变换和小波分析。第五,它是一个希尔伯特空间(也就是完备的内积空间)(Hilbertspace,Completeinnerproductspace)。它有一套很方便计算的内积(innerproduct)结构——这个空间的度量结构其实就是从其内积结构诱导出来。更重要的,它是完备的(Complete)——代表任何一个柯西序列(Cauchysequence)都有极限——很多人有意无意中其实用到了这个特性,不过习惯性地认为是理所当然了。第六,它上面的线性映射构成的算子空间仍旧是有限维的——一个非常重要的好处就是,所有的线性映射都可以用矩阵唯一表示。特别的,因为它是有限维完备空间,它的泛函空间和它本身是同构的,也是R^n。因而,它们的谱结构,也就可以通过矩阵的特征值和特征向量获得。第七,它是一个测度空间——可以计算子集的大小(面积/体积)。正因为此,我们才可能在上面建立概率分布(distribution)——这是我们接触的绝大多数连续统计模型的基础。我们可以看到,这是一个非常完美的空间,为我们的应用在数学上提供了一切的方便,在上面,我们可以理所当然地认为它具有我们希望的各种良好性质,而无须特别的证明;我们可以直接使用它的各种运算结构,而不需要从头建立;而且很多本来不一样的概念在这里变成等价的了,我们因此不再需要辨明它们的区别。以此为界,Learning的主要工作分成两个大的范畴:1.建立一种表达形式,让它处于上面讨论的R^n空间里面。2.获得了有限维向量表达后,建立各种代数算法或者统计模型进行分析和处理。这里只讨论第一个范畴。先看看,目前用得比较广泛的一些方法:1.直接基于原始数据建立表达。我们关心的最终目标是一个个现实世界中的对象:一幅图片,一段语音,一篇文章,一条交易记录,等等。这些东西大部分本身没有附着一个数值向量的。为了构造一个向量表达,我们可以把传感器中记录的数值,或者别的什么方式收集的数值数据按照一定的顺序罗列出来,就形成一个向量了。如果有n个数字,就认为它们在R^n里面。不过,这在数学上有一点小问题,在大部分情况下,根据数据产生的物理原理,这些向量的值域并不能充满整个空间。比如图像的像素值一般是正值,而且在一个有界闭集之中。这带来的问题是,对它们进行线性运算很可能得到的结果会溢出正常的范围——在大部分paper中,可能只是采用某些heuristics的手段进行简单处理,或者根本不管,很少
本文标题:转MIT大牛学习的体会
链接地址:https://www.777doc.com/doc-2010744 .html