您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 多元统计分析讲义(第一章)
EquationChapter1Section1《多元统计分析》MultivariateStatisticalAnalysis主讲:统计学院许启发(xuqifa1975@163.com)统计学院应用统计学教研室SchoolofStatistics2004年9月注意电子文档使用范围第页1第一章绪论【教学目的】1.让学生了解什么是多元统计分析?它的发展与现状;2.让学生了解多元统计分析的主要范畴、功能;3.回顾相关的矩阵理论和多元正态分布理论;4.阐述多元数据的表示方法。【教学重点】1.从一元到多元的过度;2.多元正态理论及其相关命题。§1引言一、什么是多元统计分析在实践中,常会碰到需要同时观测若干指标的问题。例如衡量一个地区的经济发展水平:总产值、利润、效益、劳动生产率等;在医学诊断中,有病还是无病,需做多项检测:血压、体温、心跳、白血球等①。提出问题:如何同时对多个随机变量的观测数据进行有效的分析和处理?有两种做法:分开研究;同时研究。但前者会损失一定的信息量。多元统计分析就是研究多个随机变量之间相互依赖关系以及内在统计规律的一门学科,利用其中的不同方法可对研究对象进行分类和简化。二、多元统计分析的产生和发展1.1928年Wishert发表论文《多元正态总体样本协方差阵的精确分布》,是多元统计分析的开端;2.20世纪30年代,Fisher,Hotelling,许宝碌等奠定了多元统计分析的理论基础;3.20世纪40年代,在心理学、教育学、生物学等方面有不少应用,但由于计算量大,发展受到限制;4.20世纪50年代中期,随着计算机的出现和发展,使多元分析方法在地质、气象、医学和社会学方面得到广泛应用;5.20世纪60年代,通过应用和实践又完善和发展了理论,使得它的应用范围更广;6.20世纪70年代初期,才在我国受到各个领域的极大关注,近30多年在理论上和应用上都取得了若干新进展。三、多元统计分析的主要范畴(研究内容)在对社会、经济、技术系统的认识过程中,都需要收集和分析大量表现系统特征和运行状态的数据信息。这类原始数据集合往往由于样本点数量巨大,用于刻画系统特征的指标变量众多,并且带有动态特性,而形成规模宏大、复杂难辨的数据海洋。如何分析和认识高维复杂数据集合中的内在规律性,简明扼要地把握系统的本质特征;如何对高维数据集合进行最佳综合,迅速将隐藏在其中的重要信息集中提取出来;如何充分发掘数据中的丰富内涵,清晰地展示系统结构,准确地认识系统元素的内在联系,以及直观地描绘系统的运动历程。利用统计学和数学方法,对多维复杂数据集合进行科学分析的理论和方法,就是多元统计数据分析研究的基本内容。其主要范畴包括:多元正态总体的参数估计和假设检验以及常用的统计方法。具体地有:多元数据图表示法;多元回归分析;聚类分析;判别分析;主成分分析;因子分析;对应分析;典型相关分析;路径分析;多维标度分析等。①实际上,每项指标都是随机变量。第页2四、多元统计分析的功能和应用领域主要用于对高维数据进行处理,包括:简化数据和数据结构、能够进行假设检验、进行分类和组合、进行相应的评价、预测、控制等。主要用于:经济学、医学、教育学、心理学、体育科学、生态学、地质学、社会学、考古学、军事科学、环境科学、文学等。五、如何学习多元统计分析可以说《多元统计分析》课程有两种讲授方法和学习方式:一是重理论推导型;二是重实证应用型。我们的讲授以实证应用为主,辅以部分的理论介绍。同学们应该重点学习多元统计分析中各种常用的分析方法,领悟与掌握各种方法的实际背景、基本思想、理论依据、应用场合和可能结论,同时对每种方法会解决实际问题。每一部分都配有相应的案例①,请同学在上机的时候完成,也作为平时作业给予相应的成绩。六、先修课程1.线性代数2.概率论3.数理统计4.相应的统计软件5.经济学七、统计和计算机和统计软件现代生活越来越离不开计算机了。最早使用计算机的统计当然更离不开计算机了。事实上,最初的计算机仅仅是为科学计算而设计和建造的。大型计算机的最早一批用户就包含统计。而现在统计仍然是进行数字计算最多的用户。当然计算机现在早已脱离了仅有数字计算功能的单一模式,而成为百姓生活的一部分。计算机的使用,也从过去必须学会计算机语言到只需要“傻瓜式”地点击鼠标。结果也从单纯的数字输出到包括漂亮的表格和图形在内的各种形式。统计软件的发展,也使得统计从统计学家的圈内游戏变成了大众的游戏。只要输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的漂亮结果了。人们可能会问,是否傻瓜式统计软件的使用可以代替统计课程了?当然不是。数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。有些诸如法律和医学方面的软件都有不少警告,不时提醒你去咨询专家。但统计软件则不那么负责。只要数据格式无误、选项不矛盾而且不用零作为除数就一定给你结果,而且几乎没有任何警告。另外,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因此,就应该特别留神,明白自己是在干什么。不要在得到一堆毫无意义的垃圾之后还沾沾自喜。统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的几种。1.SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。它对于非专业统计工作者是很好的选择。2.SAS:这是功能非常齐全的软件;尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“傻瓜化”,但仍然需要一定的训练才可以进入。也可以对它编程;但对于基本统计课程则不那么方便。3.Statistica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。4.Excel:它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有MicrosoftOffice的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是已经具备的了。对于简单分析,Excel还算方便,但随着问题的深①这些案例都有相应的经济背景,以后学生可在论文写作和毕业工作中套用这些模式。第页3入,Excel就不那么“傻瓜”,需要使用宏命令来编程;这时就没有相应的简单选项了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。5.S-plus:这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大而又方便的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。6.R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,很方便。还有不断加入的从事各个方向研究的统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。它的语言结构和C++、Fortran、Matlab、Pascal、Basic等很相似,容易举一反三。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。7.Minitab:这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。8.MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于S和R。但是统计函数不多。9.Eviews:这是一个处理回归和时间序列等问题很方便的软件。10.GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。11.FORTRAN:这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有许多数学软件包和一些统计软件包。由于可以编译成机器语言,计算速度比这里介绍的其他软件都快得多。但需要编程和编译。当然,还有很多其他的软件,没有必要一一罗列。其实,聪明的读者只要学会使用一种“傻瓜式”软件,使用其他的软件也不会困难;最多看看帮助和说明即可。如果只有英文帮助,那还可以顺便提高你的英文阅读能力。学习软件的最好方式是需要时在使用中学。八、几点要求1.复习矩阵代数及数理统计的有关内容;2.及时消化课堂内容;3.按时完成作业;4.其它事项。九、参考书目1.孙慧钧:《多元统计分析方法与应用》,内蒙古大学出版社,1997年8月。2.于秀林、任雪松:《多元统计分析》,中国统计出版社,1999年8月。3.罗积玉、邢英:《经济统计分析方法及预测》,清华大学出版社,1987年8月。4.何晓群:《应用回归分析》,中国人民大学出版社,2001年6月。5.RuchardA.Johnson&DeanW.Wichern著,陆璇译:《实用多元统计分析》,清华大学出版社,2001年4月。6.张尧庭、方开泰:《多元统计分析引论》,科学出版社,1997年8月(第三次印刷)。7.方开泰:《实用多元统计分析》,华东师范大学出版社,1989年9月。8.胡国定,张润楚:《多元数据分析方法—纯代数处理》,南开大学出版社,1990年。9.张润楚:《多元统计理论与数据分析方法》(校内讲义),南开大学数学科学学院,2003年2月。10.任若恩:《多元统计数据分析—理论、方法、实例》,国防工业出版社,1997年6月。11.郭志刚:《社会统计分析方法——SPSS软件应用》,中国人民大学出版社,1999年12月。12.卢纹岱、朱一力、沙捷、朱红兵:《SpssforWingdows从入门到精通》,电子工业出第页4版社,1997年6月。13.易丹辉:《STATISTICA6.0》,中国统计出版社,2002、10;14.Anderson,T.W.(1984),AnIntroductiontoMultivariateStatisticalAnalysis,2nded.,NewYork:JohnWiley&Sons.15.Eaton,M.L.(1983),MultivariateStatistics:AVectorSpaceApproach,NewYork:JohnWiley&Sons.16.Johnson,R.A.andWichern,D.W.(1982),AppliedMultivariateStatisticalAnalysis,NewYork:Prentice-Hall,Inc.第页5§2矩阵理论及随机向量①本节主要介绍多元统计分析中用到的矩阵和向量代数知识,以及将概率论及数理统计中的随机变量理论推广到随机向量。一、矩阵代数②1.单位矩阵:1II,IBBIB;2.对称矩阵:AA;3.转置运算:ABCCBA;4.逆运算:1111ABCCBA;5.矩阵乘法:ABBA;6.矩阵的迹:主对角线元素之和③;1()()nitrAtrA()()()trABtrAtrB()()trABtrBA7.正交矩阵④:AAI或1AA;8.幂等矩阵:2AA;9.投影矩阵:对称的幂等矩阵;10.平方根矩阵:1/2A因A正定,必存在正交矩阵U,使得1,,nUAUdiag1/21/21/21/2AUUUUUUAA二、随机向量和随机矩阵随机向量是元素为随机变量的向量;随机矩阵是元素为随机变量的矩阵。定义1:设1,,ppXXX,若对于任意的1,2,,ip,iX均为随机变量,则称pX为p维随机向量。定义2:设mnijmnxX中每一个元素ijx均为随机变量,则称X为mn维随机矩阵。三、随机向量及其分布设1,,ppXXX为一p维随机向量,如果该向量在空间pR中存在概率分布
本文标题:多元统计分析讲义(第一章)
链接地址:https://www.777doc.com/doc-6642683 .html