您好,欢迎访问三七文档
多元统计分析中国科学技术大学统计与金融系陈昱课本:方开泰《实用多元统计分析》华东师范大学出版社.参考书与软件:张尧庭,方开泰《多元统计分析引论》,科学出版社,1982。RichardAJohnson,DeanW.Wichern.AppliedMultivariateStatisticalAnalysis.陆璇等译.清华大学出版社王学民,《应用多元统计分析》上海财经大学出版社使用软件:Splus/R/SAS基本概念描述统计与推断统计一元与多元统计分析多元统计数据作图统计数据统计数据的含义数据是统计工作所搜集、分析、汇总表述和解释的事实及数字。统计数据不是指单个的数字,而是所搜集的有关资料的数据集。数据的种类按照数据的计量尺度:定类数据、定序数据、定距数据和定比数据按照表现形式:时间数列数据、截面数据和合并数据按照反映内容:数量数据与品质数据统计数据数据的来源抽样调查方法是从调查研究中搜集数据的方法实验设计方法是从实验研究中搜集数据的方法。数据与误差定类数据、定序数据定类尺度(Nominalscale)是只按照事物的某种属性对其进行平行分类或分组所进行的测度,是最粗略、计量层次最低的计量尺度。如人口按照性别分为男、女两类。定序尺度(Ordinalscale)又称顺序尺度,是对事物之间等级差或顺序差别的一种测度,如将产品等级分为一等品、二等品、三等品及次品等。定距数据和定比数据合并数据(pooleddata)中既有时间序列数据又有横截面数据。如20间10个国家的失业率数据就是合并数据。在合并数据中有一类特殊数据,称为panel数据(paneldata),又称纵向数据(ongitudinalormicropaneldata),即同一个横截面单位,比如一个家庭或一个公司,在不同时期的调查数据。时间数列数据、截面数据和合并数据时间数列数据是按照时间序列排列收集得到的数据。如GDP、失业、就业、货币供给、政府赤字等。数据是按照一定时间间隔收集的——每日(如股票),每周(如货币供给),每月(如失业率),每季(如GDP),每年(如政府预算)。截面数据(cross-sectionaldata)是指一个或多个变量在某一时点上的数据的集合。如定期进行的人口普查数据。数量数据与品质数据数据可以既包括定性数据又包括定量数据两方面定量数据测量事物的多少而定性数据是为了对事物进行分类而提供标签、或名称。统计学统计学定义统计学的内容体系统计的应用Statisticsisitselfascience-----theScienceoflearningfromdata.统计学定义统计学是一门独立的学科。统计学是关于如何搜集、分析客观现象数据,以便给出正确认识结论的方法论科学。对定义的注释:客观现象数据是为了进行认识客观现象而搜集、分析概括的数字与事实。数据搜集包括科学实验和社会调查两大类渠道,数据分析包括描述性分析和推断性分析。数学是统计学发展的重要理论基础,计算机科学是统计学应用的重要工具。统计学的发展应用离不开哲学、以及经济学、社会学、生物学、医学等学科的发展。统计学的应用领域十分广泛。统计学方法描述统计推断统计StatisticalMethodsDescriptiveStatisticsInferentialStatistics描述统计学描述统计学的目的是在”统计描述”的意义下综合整理给定的数据集,例如对位置、离差等测量并通过某些图形,例如直方图,条形图,盒图来表现数据直观醒目的特征。计算得到各种描述统计量可用来比较不同的数据集合,这样的统计分析成为描述数据分析.(DescriptiveDataAnalysis)数据收集数据类型用表格和图形表示趋中、离散程度分布形状用表格和图形表示调查...数值数据类型数据探索性数据分析推断统计学推断统计学其目的也是综合整理数据,但是它研究的是概率分布下的一个特定分支或称为模型,在这种情形下,综合整理或描述统计量主要依赖与某个特定的随机模型.这些统计量的分布用来确定在推断某些未知参数时的不确定的范围.这种统计分析方法成为推断数据分析(InferentialDataAnalysis).反映客观现象数据样本数据总体数据描述统计(包括搜集、整理、显示数据)概率论(分布理论、中心极限定理)推断统计(估计、假设检验)总体内在数量规律统计方法探索客观现象数量规律性的过程如下图:描述统计量样本均值样本方差样本标准差与样本协方差样本相关系数样本中位数众数例子:WhoAreThoseSpeedyDrivers?在Penn.StateUniversity作了一个调查,被调查者要回答他们开车的最大速度?随机采访了87位男士和102位女士,得到数据如下:(单位:mph)male1101099014010515012011011090115951451401101058595100115124951001251408512011510512510285120110120115941258085140120921301251109011011095951101058010011013010512090100105100120100100801001201056012512010011595110101801121201101151255590105female807583801001009075958590859090120851001207585807085110857510595757090708285100907590110808011011095751309511011080901059011075100901108590808085508090100808080951009010095808050889090857090308585878590857590102801008095908095110从这些数据中我们能了解到什么呢?开车最快速度和性别有关系吗?这些数据服从正态分布吗?简单的数据总结:maleFemaleMin.:55.030.01stQu.:95.080.0Median:110.089.0Mean:107.488.43rdQu.:120.095.0Max.:150.0130.0显然,有一半的男士开车的最快速度大于110,有3/4的人最快速度大于或等95,而开车最快的速度为150,最慢的速度为55.对女士而言,有一半的人开车的最快速度大于89,有3/4的人的最快速度大于80,而开车最快的速度为130,最慢的速度为30.盒形图(boxplot)盒形图实际上是以图形来概括数据。关键是计算中位数和四分位数Q1和Q3。此外还将用到四分位数间距IQR=Q3-Q1。盒形图的画法步骤如下:1).画一个方盒,其边界恰好是第1和第3四分位数.这个方盒包含了中间的50%的数据2).在方盒上中位数的位置画一条垂线,因此中位数将数据分为相等的两个部分.3)利用四分位数间距IQR=Q3-Q1,来设定界限。盒形图的界限定于低于Q1以下1.5个IQR和高于Q3以上1.5个IQR的位置。上、下限以外的数值作为异常值。5)任一异常值的位置以符号“0”标出Boxplot盒形图左偏右偏直方图基础概率分布的种类二项分布泊松分布超几何分布正态分布指数分布抽样分布参数估计检验假设方差、回归、判别、因子、聚类、相关、主成分分析等离散连续统计学的应用领域从大的方面包括自然科学、社会科学、人文科学等各个领域,从具体学科上看,可应用于物理学,化学,生物学,医学,生态学,气象学,天文学,军事科学遗传学,地理学,地质学,水文学,人类学,历史及考古学,教育学,心理学,人口学,经济学,精算,建筑工程学,农业,工业,法律,语言学,文学,管理科学,政治学,宗教研究,社会学,分类学等等。三、多元统计分析多元统计分析的研究对象和主要内容多元统计分析方法与一元统计的比较统计分析方法在经济统计中具体应用领域统计分析方法在经济统计中的运用的一般步骤(一)研究对象以及主要内容研究对象多元分析是以多维随机变量的内在联系及统计规律为其研究对象。是统计中讨论多维随机变量的统计方法的总称。主要内容从形式上看,一类是单变量常用的统计方法在多维随机变量情况下的应用;另一类是对多维变量本身进行研究的一些特殊方法。12名学生5门课程的考试成绩序号政治语文外语数学物理12345678910111299991009310090759387957685948898889178738473827275839681887282888360904350100999699967597687662673410097100967897898884397837就以学生成绩为例,我们可以研究很多问题,找某综合指标(成绩总和,加权平均)来比较学习成绩的好坏.(降维)根据各科成绩的相近程度来对学生进行分类(成绩好的与差的,文科好与理科好的)研究各成绩之间的关系(物理和数学成绩的关系,文科和理科的关系).具体内容包括多元回归分析主成分分析因子分析聚类分析判别分析对应分析典型相关分析定性数据分析一元统计与多元统计简单比较主要内容一元多元随机变量一维随机变量多维随机变量统计分布一元分布多元分布参数估计似然估计、最小二乘估计、矩估计似然估计、最小二乘估计、矩估计假设检验U检验、t检验、F检验卡方检验T2检验、F检验卡方检验统计分析方法方差分析回归分析回归分析主成分分析因子分析聚类分析判别分析典型相关分析等统计分析方法在经济统计中具体应用领域对多个变量进行降维处理,而选择数目较少的变量子集合;主要方法:主成分分析、因子分析、对应分析等。对现象进行分类研究、分类处理、构造分类模式主要方法:聚类分析、判别分析等建立经济模型和利用模型进行外推;主要方法:预测模型--回归分析方法描述模型--聚类分析方法研究经济现象之间相互关系主要方法:典型相关分析多元数据的图示分析散点图(散布图)二维散点图轮廓图雷达图调和曲线图星图12名学生5门课程的考试成绩序号政治语文外语数学物理12345678910111299991009310090759387957685948898889178738473827275839681887282888360904350100999699967597687662673410097100967897898884397837轮廓图做图步骤:1.作直角坐标系,横坐标取p个点,以表示p个坐标2.对给定的一次观测值,在p个点上的纵坐标与对应变量取值成正比3.连结此p个点得一折线,即为该次观察的一条轮廓线4.对于n次,可重复上述步骤可得n条折线,构成n次观测值的轮廓图1:5score[1,]12345406080100上图的4条折线分别为序号为1,2,11,12这4个学生的轮廓线,可以看出哪几个学生成绩相似,哪些属于优秀.在聚类分析中比较有用雷达图步骤:1.做一圆,将圆周均分p等分2.连结圆心和各分点,把这p条半径依次定义为在相应的坐标轴,并标以适当的刻度3.对给定的一次观测值,把p个变量分别在取在相应的坐标轴上,连成一个p边形4.n次观测可画出n个p边形调和曲线图
本文标题:多元统计分析
链接地址:https://www.777doc.com/doc-5853249 .html