您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 多元统计分析基础知识
非约束排序聚类分析的目的在于寻找数据的间断性,那么排序的目的在于寻找数据的连续性。排序的重要目的之一是生成可视化的排序图,非约束排序只是描述性方法,不存在统计检验评估排序结果显著性的问题。约束排序需要对排序结果进行显著性检验。非约束排序的方法PCA、CA、PCoA和NMDS主成分分析(principalcomponentanalysis,PCA):基于特征向量的排序方法。分析对象是原始的定量数据。排序图展示样方之间的欧氏距离。对应分析(correspondenceanalysis,CA):分析对象必须是频度或类频度、同量纲的非负数据。排序图展示行(对象)或列(变量)之间的卡方距离。在生态学中主要用于分析物种数据。主坐标分析(principalcoordinateanalysis,PCoA):分析对象为距离矩阵,而非原始的样方-变量矩阵表格。非度量多维尺度分析(nonmetricmultidimensionalscaling,NMDS):与前面三种排序方法不同,NMDS不是基于特征向量提取的排序方法。NMDS尝试先预先设定数量的排序轴去排序对象,目标是保持这些对象排位关系(orderingrelationship)不变。聚类分析聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。其目的在于使类内对象的同质性最大化和类与类间对象的异质性最大化。相似样品(或指标)的集合称为类聚类分析方法:1、系统聚类法。2、模糊聚类法。3、K-均值法。4、有序样品的聚类。5、分解法。6、加入法。当各指标的测量值相差较大时,先将数据标准化,然后用标准化后的数据计算距离。聚类分析是一种探索性分析,而非统计检验。影响聚类结果的因素包括聚类方法本身和用于聚类分析的关联系数的选择。因此选择与分析目标一致的方法非常重要。判别分析回归模型一般用来预测和解释度量变量,但是对于非度量变量,一般的多元回归不适合解决此类问题。判别分析适用于被解释变量是非度量变量的情形。判别分析的基本要求:分组类型在两组以上;每组案例的规模必须至少在一个以上;解释变量必须是可测量的,这样才能够计算其平均值和方差,使其能合理地应用于统计函数。判别分析的前提假设:1、每一个判别变量(解释变量)不能是其他判别变量的线性组合,即不能存在多重共线性的问题;2、各组变量的协方差矩阵相等;3、各判别变量遵从多元正态分布。贝叶斯判别贝叶斯(Bayes)统计的思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析,就得到贝叶斯判别。费歇判别费歇判别的思想是投影,将k组p维数据投影到某一个方向,使得组与组之间的投影尽可能地分开。主成分分析主成分分析(principalcomponentsanalysis)霍特林1933年提出主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。主成分分析的主要思想:在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。对于度量单位不同的指标或取值范围彼此差异非常大的指标,不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。主成分分析不要求数据来自于正态总体。主成分分析方法适用于变量之间存在较强相关性的数据,一般认为,当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。对原始变量存在多重共线性的问题时,在应用主成分分析方法时一定要慎重。如果得到的样本协方差矩阵(或相关阵)最小的特征根接近于零,这就意味着中心化以后的原始变量之间存在着多重共线性,即原始变量存在着不可忽视的重叠信息。应该注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选。因子分析因子分析(factoranalysis)因子分析模型是主成分分析的推广,它也是利用降维的思想,由研究原始变量的相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。因子分析的基本思想根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。另一部分是与公共因子无关的特殊因子。因子分析的步骤:1、根据研究问题选取原始变量;2、对原始变量进行标准化并求其相关阵,分析变量之间的相关性;3、求解初始公共因子及因子载荷矩阵;4、因子旋转;5、计算因子得分;6、根据因子得分值进行进一步分析。对应分析对应分析同样是利用降维的思想来达到简化数据结构的目的,不过,与因子分析不同的是,它同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列的关系。对应分析的一大特点就是可以在一张二维图上同时表示出两类属性变量的各种状态,以直观地描述原始数据结构。对应分析广泛应用于对由属性变量构成的列联表数据的研究。(定类尺度或定序尺度)有关概念:行剖面:指当行变量A的取值固定为i时,变量B各个状态相对出现的概率情况。列剖面:指当属性变量B取值为j时,属性变量A的不同取值的条件概率。距离:加权的欧式距离。总惯量:n个点与其重心的加权欧式距离之和称为行剖面集合n的总惯量,记为II总惯量的概念类似于主成分分析或因子分析中方差总和的概念。对应分析方法也适用于定距尺度与定比尺度的数据。对应分析要求数据阵中每一个数据都是大于或等于零的。对应分析只能用图形的方式提示变量之间的关系,但不能给出具体的统计量来度量这种相关程度,这容易使研究者在运用对应分析时得出主观性较强的结论。典型相关分析典型相关分析(canonicalcorrelationanalysis)是研究两组变量之间相关关系的多元分析方法。典型相关分析研究两组变量间整体的线性相关关系,它是将每一组变量作为一个整体来进行研究,而不是分析每一组变量内部的各个变量。典型相关变量之间的简单相关系数称为典型相关系数。典型相关分析就是用典型相关系数衡量两组变量之间的相关性。典型相关分析的基本假定:1、任意两个变量间的相关系数是基于线性关系的;2、典型相关是变量间的相关。典型相关分析能够包容任何没有严格正态性假定的度量变量。
本文标题:多元统计分析基础知识
链接地址:https://www.777doc.com/doc-5297829 .html