您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 一元统计学和多元统计3
多元统计分析基础生命科学社会科学统计分析方法现象多样性复杂性随机性多元统计分析方法多元回归分析方法多元判别分析方法聚类分析方法……目的:从看起来杂乱无章的数据中发现提炼规律性的结论为什么学习多元统计分析必备的知识良好的专业训练必要的统计分析工具多元统计研究的内容简化数据结构(降维问题)•将复杂的数据通过变量变化变得互补相关•将高维数据投影到低维空间(问题简化,信息丢失较少)主成分分析因子分析分类与判别(归类问题)按照相似度进行分类•聚类分析•判别分析等变量间的相互关系•回归分析•典型相关分析多元数据统计推断•参数估计•假设检验多元统计的理论基础•多元随机向量的分布及其性质•抽样分布理论等随着计算机的发展,多元统计已经在自然科学、社会科学的各个领域得到广泛的应用。教育学医学气象学环境科学地理学考古学服装工业经济学农业社会科学文学以及其他各个领域多元统计的应用一元概率统计回顾主要关注基本概念和基本思想随机变量X(randomvariable)在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过大量反复观察,其取值又有一定的规律,这种变量称为随机变量X。例(1).掷骰子出现某点数的概率为1/6,若掷100次,则出现该点数的次数X是随机变量;(2).332路公车每10分钟发一趟车,某人在随机的时间到达车站等车,则等车时间X是随机变量。1.随机变量、概率分布离散型随机变量X的所有可能取值是有限个或可列个。连续型随机变量最常见的一类非离散型随机变量。对连续型随机变量,考察事件{aXb}的概率。若存在非负的可积函数p(x),使得:对任意的a,b(ab),都有则称p(x)为随机变量X的概率密度函数。概率密度函数(PDF,probabilitydensityfunction)对所有随机变量X,可以定义以下的概率分布函数F(x):()xFxPXxptdt()pxFx()0()1pxpxdxP(x)的性质:()baPaXbpxdx收敛,则称E(X)为随机变量X的均值或数学期望。xi:质点i的坐标;pi:质点i的质量E(X):质心坐标2.随机变量的数字特征均值(mean)或数学期望(mathematicalexpectation)离散型随机变量的均值设离散型随机变量X的分布律为:,1,2,3,...iiPXxpi若1iiiEXxp连续型随机变量的均值设X为连续型随机变量,它的概率密度函数为p(x),若EXxpxdx收敛,则称E(X)为随机变量X的均值或数学期望。小结:E(X)反映随机变量X的统计平均性质,代表随机变量取值的一般水平或集中的位置,略去了随机变量概率分布规律的具体细节。方差(variance)设随机变量X的均值为E(X),则:2XDXEXEXXDX的方差:的标准差或均方差:对于离散型随机变量X,其方差为:21iiiDXxEXp对于连续型随机变量X,其方差为:2DXxEXpxdx计算D(X)的简单公式:22DXEXEX小结:D(X)反映随机变量X的相对于均值E(X)的偏离程度,代表随机变量取值的分散性,也是统计平均的性质。正态分布(Normaldistribution)设随机变量X的概率密度为:2221()2xpxex其中-+,0均为常数。称X服从参数为,的正态分布,记作X~N(,2).:均值;:方差=0;2=1时,称为标准正态分布,记为X~N(0,1)。遵从正态分布的随机变量X,其正态分布函数为:2221()2txPXxedtx正态分布的若干性质正态分布完全由其均值和方差2决定;正态分布的概率密度函数曲线呈对称的“钟形”;经验规则(3准则):0.682620.954530.9973PxPxPx68%95%99%++2+3--2-3p(x)x2221()2xpxe3.总体和样本总体X(population)研究对象的某种特征值的全体组成的集合。用X表示。样本X1,X2,…,Xn(sample)在总体中选取部分有代表性的子集称为(随机)样本。一个样本是来自总体X的一组相互独立同X分布的随机变量。●样本值x1,x2,…,xn从总体X随机抽取的一组观测值,常用x1,x2,…,xn来表示样本或样本值。4.统计量及其参数估计统计量(statisticalquantity)设X1,X2,…,Xn为总体X的n个样本,g(x1,x2,…,xn)为连续函数,则称g(X1,X2,…,Xn)为一个统计量。显然,统计量g(X1,X2,…,Xn)也是一个随机变量。总体X的数字特征——参数总体均值:刻划总体的平均取值总体方差2:刻划总体取值的分散(涨落)程度根据样本值推断总体性质——参数估计样本均值:11niixxn样本方差s:22111niisxxn2211niisxxn显然,样本均值、样本方差都属于统计量。通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。无偏估计:当n取得充分大,样本均值、样本方差分别逼近总体均值和总体方差。或(当n较大时)x5.统计推断的两类问题——参数估计和假设检验参数估计问题假定总体X的分布函数形式已知,对其中的某些参数进行估计。估计方法:矩估计法、最小二乘法、最大似然法,……假设检验问题从样本值出发,判断关于总体分布的某种假设是否成立。1、提出原假设(或称零假设)和备选假设(或称对立假设)2、指定显著性水平(一般取=0.05,0.01,…)值用以衡量(或拒绝)原假设成立所需证据的指标。值越小,否定原假设的条件越高,不容易否定原假设;值越大,否定原假设的条件越低,比较容易否定原假设。3、构造检验统计量W4、进行统计试验——收集数据、计算检验统计量及显著性概率值p5、根据显著性水平值进行判断多元统计数据的图表示法图形有助于对所研究数据的直观了解,一元或二元的数据都可以用图画出来,给研究人员一个直观理解。但是对于高维数据,在平面上用图画出来不是一件容易的事情。许多统计学家给出了多元数据的图示方法,但是对于这些方面的研究还处于不成熟的状态,到目前为止还没有公认的方法。书中介绍的是一些在当今比较流行的方法。设变量的个数为p,观察的次数为n,第k次观察值记为()12(,,,)1,2,,kkkkpXxxxknN次观测数据组成的矩阵记为()ijnpXx例:考察北京、上海、陕西、甘肃四个省市人均消费支出情况,选取以下五项指标,具体数据如下表肉禽及制品住房医疗保健交通通讯文娱用品及服务北京563.51227.78147.76253.99510.78上海678.92365.07112.82301.46465.88陕西237.38174.48119.78141.07245.57甘肃253.41136.13102.96108.13212.20轮廓图的作图步骤为:1.在直角坐标系中,横坐标取p个点,以表示p个变量;2.对于给定的一个观测值,在p个点上的纵坐标与对应的变量值取正比;3.连接p个点得一折线,既得该次观察值的一条轮廓线;4.对于n次观察值,每次都重复上述步骤,可画出n条折线,构成n次观察值的轮廓图。多元统计数据的图表示法——轮廓图0100200300400500600700800肉禽及制品住房医疗保健交通通讯文娱用品及服务北京上海陕西甘肃雷达图的作图步骤为:1.作一个圆,并把此圆分为p等分;2.连接圆心和各分点,把这p条半径依次定义为各变量的坐标轴,并标以适当的刻度;3.对给定的一次观测值,把p个观测值分别标在相应的坐标轴上,然后将它们连成一个p边形;4.对于n次观察值,可画出n个p边形。多元统计数据的图表示法——雷达图0100200300400500600700肉禽及制品住房医疗保健交通通讯文娱用品及服务北京上海陕西甘肃多元统计数据的图表示法——调和曲线图从数学的角度,较为完美的多元数据图表示的方法可能就是Andcews在1972年提出的三角多项式法,其思想是把多维空间中的一个点对应于二维平面上的一条曲线。1212345(,,,),()sincossin2cos22(-,)pXpXxxxxftxtxtxtxtt设维数据则对应的曲线是当在区间上变化时,其轨迹就是一条曲线。多元统计数据的图表示法——星座图请同学们参考《实用多元统计分析》由RichardA.Johnson&DeanW.Wichern著清华大学出版社多元统计的难点在于变量太多。研究多元统计的主攻方向之一就是如何将高维数据投影到二维空间,并且在投影过程中不会过多地损失原有数据的信息,这样就可以使用这种方法在平面上画出这些原本属于高维数据的图形来。THANKS
本文标题:一元统计学和多元统计3
链接地址:https://www.777doc.com/doc-3369191 .html