您好,欢迎访问三七文档
1课时编号多元统计分析(1--2)课目名称绪论和基本知识授课时间2005.9授课班级数学03(1-2班)统计03(1-2班)教学目的通过本章的教学应使学生对多元统计分析课程有一个概括的认识。了解多元正态分布,多元数据的特征以及图表示法。重点与难点多元统计分析的概念及它能解决哪些类型的实际问题。多元正态分布的定义,多元数据的特征以及图表示法。课堂教学设计采用课堂讲授与学生自学相结合的教学方法,使学生掌握多元统计分析的概念,多元统计分析的起源和发展,并举例说明多元统计分析能解决的实际问题。讲解多元正态分布的定义,多元数据的特征以及图表示法。使学生了解多元统计分析课程的主要教学内容和教学安排,以及作业﹑考试的内容及方式。参考书目1﹑于秀林﹑任雪松,多元统计分析,中国统计出版社,19992﹑王学民,应用多元分析,上海财经大学出版社,1999教案实施效果追记2第一章绪论一﹑多元统计分析的概念多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。利用多元分析中不同的方法还可以对研究对象进行分类和简化。多元分析是实现做定量分析的有效工具。二﹑多元分析的起源和发展1.1928年,Wishart发表《多元正态总体样本协差阵的精确分布》,是多元统计分析的开端;2.20世纪30年代多元分析在理论上得到迅速发展;3.20世纪40年代应用于心理、教育、生物等方面;但由于计算量太大,其发展受到影响;4.50年代中期,由于电子计算机的出现和发展,使多元分析方法得到广泛应用;5.60年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大;6.多元统计分析在我国发展较晚,70年代初在我国才受到各个领域的极大关注,应用日益广泛。三﹑多元分析能解决的实际问题多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。四﹑多元分析课程讲授的主要内容本课程重点介绍多元分析中常用的六种方法:聚类分析判别分析主成分分析因子分析对应分析典型相关分析我们这门课重点在于应用,参考课本中的公式推导为次要内容,大致了解即可,对每一种分析方法我们要清楚掌握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用SAS与SPSS软件实现上述过程,对所研究的问题能做出合理推断和科学评价。五﹑作业﹑考试内容及方式平时作业类型:上机操作,论文;期末考试:3000字左右的课程论文;上机处理题;考试范围涵盖所讲的各种方法以及相关的英文帮助信息。3【思考题】1﹑什么是多元统计分析?2﹑多元统计分析能解决哪些类型的实际问题?第二章基本知识一﹑多元正态分布的定义如同一元统计分析中一元正态分布的重要地位一样,多元正态分布在多元统计分析分析中占有重要的地位,因为多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。在实用中遇到的随机向量常常是服从正态分析或近似正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。多元正态分布是一元正态分布的推广,多元分析中的很多统计方法,大都假定数据来自多元正态总体,但要判断已有的一批数据是否来自多元正态总体,并不是一件容易的事。可是反过来要肯定数据不是来自多元正态总体,我们可对各个分量做正态检验,如果各个分量不服从一元正态分布,我们可以断定这批数据不服从多元正态分布。二﹑多元分析处理的数据特征1.多元样本中的每个样品,P个指标值往往是有相关关系的,但不同样品之间是相互独立的。2.多元分析处理的多元样本观测数据一般是横截面数据,即在同一时间横截面上的数据,它不考虑时间因素,即这些数据不是按时间顺序排列的。三﹑多元数据图表示法图形有助于对所研究数据的直观了解,如果能把一些多元数据直接显示在平面图上,便可从图形一目了然地看出多元数据之间的关系,当只有一、二维数据时,可以使用通常的直角坐标系在平面上点图。当只有三维数据时,虽然可以在三维坐标系里点图,但已经很不方便;当维数大于3时,用通常的方法已经不能点图。在许多实际问题中,多元数据的维数都大于3,如何在平面上来表示多元数据成为备受关注的问题。多元数据的图表示法分为两类:1.使高维空间的点与平面上的某种图形对应,这种图形能反映高维数据的某些特点或态分布密度函数。时,即为一元正),显然当,(向量,简记为维正态随机服从元正态分布,也称服从矩阵,责称阶正定是维向量,是,),(其中,)(),(的密度函数为:),(维随机变量若1pN~XpXpXppXXXXxx21exp21xxfXXXXpp'p211'21pp1'p214数据间的某些关系,如本章介绍的轮廓图、雷达图、调和曲线图、星座图等;2.在尽可能多的保留原数据信息的原则下进行降维,若能使数据维数降至2或1,则可在平面上点图,如主成分法、因子分析法等。【思考题】1﹑什么是多元正态分布?2﹑多元统计分析分析的数据有何特征?3﹑多员数据的图表示法有哪几类?5课时编号多元统计分析(3--8)课目名称聚类分析授课时间2005.9授课班级数学03(1-2班)统计03(1-2班)教学目的通过本章的教学应使学生了解聚类分析的原理和作用,了解聚类分析中常用的距离和相似系数以及它们各自的特点及适用范围。掌握系统聚类法,能够应用系统聚类法解决实际数据分析问题。重点与难点系统聚类法的原理和作用;系统聚类法的微机实现;用系统聚类法如何解决实际数据分析问题。课堂教学设计以讲授和多媒体演示为主,讲授以下内容:一、聚类分析的原理和作用;二、聚类分析中常用的距离和相似系数;三、系统聚类法的原理和作用;四、系统聚类法的微机实现(SAS和SPSS);五、用多媒体演示如何用系统聚类法解决实际数据分析问题。参考书目1﹑于秀林﹑任雪松,多元统计分析,中国统计出版社,19992﹑王学民,应用多元分析,上海财经大学出版社,19993﹑卫海英,SPSS10.0forWindows在经济管理中的应用,中国统计出版社,20014﹑卢纹岱,SPSSforWindows统计分析,电子工业出版社,20015﹑谭浩强,SAS/PC统计分析软件实用技术,国防工业出版社,19966﹑胡良平,WindowsSAS6.12&8.0实用统计分析教程,军事医学科学出版社,20017﹑SAS系统使用手册(8.2版本)8﹑SPSS系统使用手册(11.5版本)教案实施效果追记6第三章聚类分析第一节什么是聚类分析一﹑聚类分析的概念聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。其中类指相似元素的集合。二﹑聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性,根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。第二节距离与相似系数聚类分析的目的是将研究对象进行分类。它是在事先不知类别的情况下对数据进行分类的分析方法。分类的依据有两类:距离与相似系数。常用的距离有以下几种:1﹑明考夫斯基距离2﹑绝对距离3﹑欧氏距离4﹑切比雪夫距离5﹑马氏距离6﹑兰氏距离常用的相似系数有以下几种:1﹑夹角余弦2﹑相关系数聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等;根据分类对象不同又分为对样品聚类(又称Q型聚类分析)以及对变量进行聚类(又称R型聚类分析)。对前者聚类多用距离,而后者聚类时多用相似系数。第三节系统聚类法一﹑系统聚类法的基本思路首先,将n个样品看成n类,定义各样品之间的距离(此时其亦为类间距离);其次,按照某种原则将最接近的两类合并为一个新类,于是得到n-1类,定义并计算各类间距离,然后再从中找出最接近的两类合并成一个新类,重复以上步骤,直到全部样品合并成一类为止,将上述合并过程画成聚类谱系图,据此图可将全部样品分类。7二﹑八种系统聚类方法正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法,系统聚类方法包括最短距离法﹑最长距离法﹑类平均法﹑重心法﹑WARD法等八种不同的方法,但这些方法聚类的步骤是完全一样的。当采用欧氏距离时,八种并类方法可归结为统一的递推公式。三﹑谱系图及利用谱系图进行分类根据谱系图确定分类个数的准则:Bemirmen于1972年提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分析的准则。准则A:各类重心之间的距离必须很大;准则B:确定的类中,各类所包含的元素都不要太多;准则C:类的个数必须符合实用目的;准则D:若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。应该指出,关于类的个数如何确定的问题,至今还没有一个合适的标准,也就是说对任何观测数据都没有唯一正确的分类方法。第四节聚类分析的微机实现一﹑系统聚类分析在SPSS中的实现在SPSS主菜单中选择Analyze→Classify→HierarchicalCluster,可实现系统聚类分析。二﹑系统聚类分析在SAS中的实现在SAS/ASSIST模块中没有现成的菜单操作,须通过编程来实现聚类分析。SAS/STAT模块中的Cluster过程可实现系统聚类分析,可调用Tree过程生成聚类谱系图。1.CLUSTER过程的一般格式为:PROCCLUSTERDATA=输入数据集METHOD=聚类方法选项;VAR聚类用变量;COPY复制变量;RUN;其中的VAR语句指定用来聚类的变量。COPY语句把指定的变量复制到OUTTREE=的数据集中。PROCCLUSTER语句的主要选项有:(1)METHOD=选项,这是必须指定的,此选项决定我们要用的聚类方法,主要由类间距离定义决定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、8DENSITY、WARD、EML、FLEXIBLE、MCQUITTY、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法还要额外指定密度估计方法(K=、R=或HYBRID)。(2)DATA=输入数据集,可以是原始观测数据集,也可以是距离矩阵数据集。(3)OUTTREE=输出数据集,把绘制谱系聚类树的信息输出到一个数据集,可以用TREE过程调用此数据集绘图树形图并实际分类。(4)STANDARD选项,把变量标准化为均值为0,标准差为1。(5)PSEUDO选项和CCC选项。PSEUDO选项要求计算伪F和伪统计量,CCC选项要求计算、半偏和CCC统计量。其中CCC统计量也是一种考察聚类效果的统计量,CCC较大的聚类水平是较好的。2.TREE过程用法TREE过程可以把CLUSTER过程产生的OUTTREE=数据集作为输入数据集,画出谱系聚类的树形图,并按照用户指定的聚类水平(类数)产生分类结果数据集。其一般格式如下:PROCTREEDATA=数据集OUT=输出数据集NCLUSTER=类数选项;COPY复制变量;RUN;其中COPY语句把输入数据集中的变量复制到输出数据集(实际上这些变量也必须在CLUSTER过程中用COPY语句复制到OUTTREE=数据集)。PROCTREE语句的重要选项有:(1)DATA=数据集,指定从CLUSTER过程生成的OUTTREE=数据集作为输入数据集。(2)OUT=数据集,指定包含最后分类结果(每一个观测属于哪一类,用一个CLUSTER变量区分)的输出数据集。(3)NCLUSTERS=选项,由用户指定最后把样本观测分为多少个类(即聚类水平)。(4)HORIZONTAL,画树形图时沿水平方向画,即绘制水平方向的树形图,系9统默认绘制垂直方向的树形图。3.例题我们以多元统计分析中一个经典的数据作为例子,这是Fishe
本文标题:多元统计分析教案
链接地址:https://www.777doc.com/doc-5514287 .html