您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 多元数据处理应用报告
多元数据处理摘要:多元数据处理主要包括多元随机变量,协方差分析,趋势面分析,聚类分析,判别分析,主成分分析,因子分析,典型相关分析,回归分析以及各个分析方法的相互结合等等。本文主要介绍这些多元数据处理方法的基本原理,并具体介绍聚类分析法以及聚类分析法的应用举例。关键字:多元数据处理聚类分析法在对社会,经济,技术等系统的认识过程当中,需要收集和分析大量表现系统特征和运行状态的数据信息。多元数据处理的基本内容,就是利用统计和数学的方法,对多维复杂数据群体进行科学分析。多元统计数据分析的主要内容包括对数据的描述性分析方法和解析性分析方法。其中,解析性分析方法的主要代表是回归分析和判别分析。一.概论在对原始数据进行分析和处理时,这类原始数据集合往往由于样本点数量巨大,用于表征系统的特征指标变量越多,且大多数具有动态特性,具有规模宏大,复杂难辨等特征。多元数据处理的基本内容,就是利用统计和数学的方法,对多维复杂数据群体进行科学分析。统计分析与决策的进程可以分为四个阶段:首先是对系统的描述性分析,即运用所掌握的信息,对系统进行尽可能充分和全面的认识;其次,对系统的解析性分析,常常通过建立数学模型,辨识和刻画系统的解析结构,确定系统中各因素或各元素的内在联系;再次,关于系统的预测性研究,其目的是掌握系统运行和动态变化的规律,对系统未来做出准确的预见;最后,即决策阶段,对系统的状态进行充分观察和认识,对系统构造及其要素的内在联系进行辨识和深入分析。这四个过程是循序渐进的。1.数据的描述性分析其目的是要在大规模的原始数据中,迅速将重要信息提取出来,对系统的主要特征进行认识和研究。包括主成分分析,对应分析和聚类分析,均属于描述性研究的范畴。其显著特征是,均属于非模型化的研究方法。主成分分析主要用于分析样本点×定量变量类型的数据表。能够保证在数据信息损失最小的前提下,对高维数据集合进行降维处理,迅速揭示系统中的主要因素。对应分析是对主成分分析的拓广,主要是对定性数据进行最佳综合简化,并实现高维定性数据系统的可视见性。聚类分析则用于对大量的样本点集合进行分类分析,或对众多变量进行归类划分,更适用于系统的类群构造及其内在相似性的研究。2.数据的解析性分析数据的解析性分析方法,主要包括回归分析,判别分析以及偏最小二乘回归分析。所谓解析性分析是指一类模型式的数据分析方法,在进行数据分析之前,对所需分析的变量因果关系,相随变动关系或数据分布状况有一定的认知,并希望通过建立数学模型,使对系统变量间关系的认识更加准确化和数量化。回归分析用于辨识一个或一组变量的变动对另一个变量变动的影响程度。在回归模型中,凡是变量之间的关系是线性关系的模型,都称之为线性回归模型,否则为非线性回归模型。偏最小二乘回归研究的焦点主要集中在如何建立多个因变量与多个自变量之间的统计关系的模型上,特别在因变量之间及自变量之间存在多重相关性时,使用该方法具有优越性。判别分析的问题是,已知存在K个总体G1,G2,…,Gk,并且已得到K个随机样本,第一个样本中的每个个体都来自G1,以此类推,根据已有的统计数据信息,构造一个判别函数以及相应的判别准则。3.预测性分析与决策性分析决策性分析方法是最先被引入,也是最为普遍的定量化方法,最典型的如数学规划,网络分析技术等,这些方法共同特点是在约束条件下,对多种可行方案进行择优,以给出目标效益最佳的决策方案。二.方法分类多元数据统计分析方法主要有:回归分析法,判别分析法,聚类分析法,主成分分析法,对应分析法,偏最小二乘回归分析法,时序立体数据表分析法等。1.回归分析法回归分析法研究一个因变量与一个或几个解析变量之间的相互依存关系,并估计或预测在解释变量的数值已知或固定的基础上因变量的平均值。回归分析法是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。在统计关系中处理的是随机变量而不是普通变量,具有一定的概率分布,在测量这些变量时,总会有误差存在,此外,还有其他因素影响着变量。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。回归分析法预测是利用回归分析方法,根据一个或一组自变量的变动情况预测与其有相关关系的某随机变量的未来值。进行回归分析需要建立描述变量间相关关系的回归方程。根据自变量的个数,可以是一元回归,也可以是多元回归。根据所研究问题的性质,可以是线性回归,也可以是非线性回归。非线性回归方程一般可以通过数学方法为线性回归方程进行处理。2.判别分析判别分析是用于判别个体所属群体的一种统计方法,在自然科学,社会学及经济管理学中都有广泛应用。判别分析法有两总体判别与多总体判别之分。两总体判别是指判别一个样本究竟属于已知的两个总体G1和G2中的哪一个,而多总体判别则是指事物本来的分类大于两类。判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。在气候分类、农业区划、土地类型划分中有着广泛的应用。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。判别分析有二级判别、多级判别、逐步判别等多种方法。3.聚类分析法人类认识世界的一种重要方法就是将认识的对象进行分类,分门别类的对事物进行研究,要远比在一个混杂多变的集合中更清晰明了和细致。在企业的经营管理中,为了明确其目标市场,首先要进行市场细分,无论多么庞大和成功,也无法满足整个市场的各种需求。通常,人们可以凭经验和专业知识来实现分类,而聚类分析作为一种定量方法,从数据分析的角度,给出一个更准确更细致的分类工具。其基本思想是:我们所研究的样品(网点)或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。R型聚类分析是对变量进行分类处理,Q型聚类分析是对样本进行分类处理。4.主成分分析法主成分分析的工作对象是样本点X定量变量类型的数据表,其工作目标,就是要对这种多变量的平面数据表进行最佳综合简化,也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。主成分分析在对多变量数据进行最佳简化的同时,还可以提供许多重要的系统信息,如数据群点的重心位置,数据变异的最大方向,群点的散布范围等。主成分分析,将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。5.对应分析对应分析是主成分分析的拓广,其特征是它所研究的变量可以是定性变量,通常意义下的对应分析,是指对两个定性变量的多种状态进行对应性研究,对多维定性变量的研究,称为多元对应分析。对应分析也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。主要应用在市场细分、产品定位、地质研究以及计算机工程等领域中。原因在于,它是一种视觉化的数据分析方法,它能够将几组看不出任何联系的数据,通过视觉上可以接受的定位图展现出来。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数以及分类的依据,是一种直观、简单、方便的多元统计方法。对应分析法整个处理过程由两部分组成:表格和关联图。对应分析法中的表格是一个二维的表格,由行和列组成。每一行代表事物的一个属性,依次排开。列则代表不同的事物本身,它由样本集合构成,排列顺序并没有特别的要求。在关联图上,各个样本都浓缩为一个点集合,而样本的属性变量在图上同样也是以点集合的形式显示出来。6.偏最小二乘回归分析偏最小二乘回归分析主要应用于建立多因变量与多自变量的统计关系。在回归分析中,当自变量与因变量的个数都很多,并且在自变量之间以及因变量之间都存在较严重的多重共线性时,如果采用一般的多元回归方法,其分析结果的可靠性极低,而采用偏最小二乘回归分析的建模方法,可以较好的解决这个问题。偏最小二乘法是集主成分分析、典型相关分析和多元线性回归分析3种分析方法的优点于一身。它与主成分分析法都试图提取出反映数据变异的最大信息,但主成分分析法只考虑一个自变量矩阵,而偏最小二乘法还有一个“响应”矩阵,因此具有预测功能。7.时序立体数据表分析主成分分析法,实现了对即使性多维平面数据表做最佳综合与简化,而在现实生活中,随着时间的发展与数据的积累,人们开始拥有大量按时间顺序排列的平面数据表序列,被称为时序立体数据表。时序立体数据表是一个按时序顺序排放的平面数据表序列,若对每张数据表分别进行主成分分析,则不同的数据表有安全不同的主超平面,就无法保证系统分析的统一性,整体性和可比性。因此,对这种立体数据表进行主成分分析,是要寻求一个对所有数据表来说是同一简化子空间,将每张数据表在其上的投影得到近似表达,并且从全局来看,该子空间的综合效果最佳。三.应用实例本次研究报告主要是对多元数据统计分析方法中的聚类分析法进行研究。实例一:基于某树种发芽情况的地区聚类分析从12个不同的地区测定了某树种的平均发芽率X1和发芽势X2,其数据如下表(1)用前面的方法,产生偶极子及样本子集A和B,有偶极子(8,6),(4,1),(2,10),(12,9),(11,3),从而得到样本子集A={8,4,2,12,11},B={6,1,10,9,3}(2)各聚类方案准则值对于新一致性准则θc,其值越小,聚类方案越优,用新准则计算结果可知,k=4与k=2的情况是聚类的“最优选择方案”,再借助集合C,D从两者之中选择最优聚类方案分为两类。第一类:{8,6,2,10,1,4,3}第二类:{12,9,11,7,5}实例二:基于信息基础设施的国家(地区)聚类分析0.0,0.1,20.2,0.1,30.1,6.0,40.0,0.0,5cccccccckkkkc按照信息基础设施的发展现状,对世界的20个国家(地区进行聚类),信息基础设施的发展状况的属性(变量)又六个,(1)CALL—每千人拥有的电话线长度;(2)MOVECALL---每千户居民蜂窝移动电话数;(3)FEE---高峰时期每三分钟国际电话的成本;(4)COMPUTER---每千人拥有的计算机数;(5)MIPS---每千人中计算机的功率;(6)NET---每千人互联网络户主数。各国(地区)信息基础设施的发展状况数据见下表:聚类步骤如下:1)产生偶极子以及子集A和B偶极子(12,10),(14,13),(9,8),(19,3),(20,7),(6,4),(18,17
本文标题:多元数据处理应用报告
链接地址:https://www.777doc.com/doc-2503154 .html