您好,欢迎访问三七文档
..聚类分析及其在新疆经济研究中的应用孙鹿梅(伊犁师范学院数学与统计学院新疆伊宁835000)摘要:本文论述聚类分析的基础理论和研究方法,包括系统聚类法和K-均值法,并以新疆十四个地州市2009的地区生产总值、人均地区生产总值等十项综合经济指标为样本,利用SPSS软件,对他们的综合发展水平进行类型划分及差异性程度分析.关键词:聚类分析;SPSS软件;综合经济指标;新疆经济区划分一、引言聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程.它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似.聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及经济学等各个领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题.聚类分析可用于对某省各地区经济发展划分为各个经济区、也可用于市场细分、目标客户定位、业绩评估等多方面.在社会经济研究中,经常需要对所研究的区域进行经济区划分,以便进行分类指导.如何进行经济区划分呢?利用世界著名统计软件SPSS(StatisticalProgramforSocialScience)的聚类分析功能,效果比较理想.聚类分析包含的内容很广泛,可以有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法,其中应用最为广泛的是系统聚类法和K-均值法.由于西部发开发战略的实施和援疆工作的展开,新疆经济的发展迅速,但由于新疆地广,各地区之间的经济差异很大,要让新疆经济均衡发展,就要对新疆各地区的不同实施不同的经济政策.我分别用了SPSS的聚类分析中的系统聚类法和K-均值法对新疆各地区的进行经济区划分,以对新疆各地区实施不同的经济政策做依据.二、基础知识伊犁师范学院数学与统计学院毕业设计(论文)报告纸第2页共12页2.1聚类分析的基本思想由于所研究的样品或变量之间存在着程度不同的相似性,故根据一批样品的多个观测变量,找出能够度量样品或变量之间相似程度的统计量,并以此为根据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大.2.2聚类分析的种类聚类分析的目的是将所研究对象进行分类.它是在事先不知道类别的情况下对数据进行分类的分析方法.聚类分析不仅可以对样品进行分类,也可以用来对变量进行分类.对样品的分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析.2.3聚类分析的原理聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类.常见的聚类分析方法有系统聚类法、K-均值法和模糊聚类法等.2.3.1聚类要素的数据处理假设有m个聚类的对象,每一个聚类对象都有多个要素构成.一般都有不同的量纲,不同的数量级单位,不同的取值范围,为了使不同量纲,不同取值范围的数据能够放在一起比较,通常需要对数据进行变换处理.在聚类分析中,常用的聚类要素的数据处理方法有如下几种.①总和标准化),2,1,,,2,1(1'njmixxxmiijijij),2,1(11'njxmiij且.②标准差标准化),,2,1,,,2,1('njmisxxxjjijij,miijjxmx1'1,mijijjxxms12'')(1...011'miijjxmx且,1)(112''mijijjxxms.变换后的数据,每个变量的样本均值为0,极差为1,且1*ijx,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量.③极大值标准化njmixxxijiijij,,2,1,,,2,1max'.经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1.④极差的标准化njmixxxxxijiijiijiijij,,2,1,,2,1minmaxmin.经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间.2.3.2样品间的距离和相似系数(1)距离的计算描述样品间的亲疏程度最常用的是距离,设观测数据),,1;,,2,1(mjnixxj列成下列X矩阵的形式.设有n个样品,每个样品测得p个变量,原始资料阵为npnnppxxxxxxxxxX212222111211,其中ijx为i个样品的第j个变量的观测数据.用ijd表示第i个样品的第j个样品之间的距离,其值越小表示两个样品接近程度越大.距离的一般要求:①;0;,,0)()(jiijijXXdjid当对一切②;,,jiddjiij对一切③).(,,,三角不等式对一切kjidddkjikij伊犁师范学院数学与统计学院毕业设计(论文)报告纸第4页共12页常用的距离有以下几种:1)闵氏距离qpkqjkikijXXqd11)()(,其中常用的距离有绝对距离和欧氏距离.绝对距离)()1(1pkjkikijXXd.欧氏距离2112)()2(pkjkikijXXd.欧氏距离是常用的距离,但它也有不足之处,一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的.通常我们需要先对数据近些标准化处理,然后用标准化后的数据计算距离.2)马氏距离设iX与jX是来自均值向量为,协方差为0的总体G中的p维样品,则两个样品间的马氏距离为)()()(1'2jijiijXXXXMd.马氏距离又称为广义欧几里得距离,显然马氏距离与上述各种距离的主要不同就是考虑到了观测变量之间的相关性.如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,对马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离.马氏距离还考虑了观测变量之间的变异性,不再受各指标变量的影响,将原始数据作线性变换后,马氏距离不变.选择不同的距离,聚类结果会有所差异.在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类.(2)相似系数在对多元数据进行分析时,相对于数据的大小,我们更好地对变量的变化趋势或方向感兴趣.因此,变量间的相似性,我们可以从它们的方向趋同性或“相关性”进行考察,我们用相似系数用来测量变量之间的距离,常用的相似系数有以下两种:..1)夹角余角变量iX与jX是来自均值向量为,协方差为0x的总体G在的p维空间的两个向量,则这两个向量间的夹角余弦可表示为))((cos12121pkjkpkikpkjkikijXXXX.2)相关系数相关系数经常用来试题变量间的相似性.变量iX与jX的相关系数定义为pkjjkiikpkjjkiikijXXXXXXXXr1221)()())((.在实际问题中,对样品分类常用距离,对变量分类常用相似系数,即Q型聚类分析常用距离,R型聚类分析常用相似系数.2.4聚类分析方法系统聚类法开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类.系统聚类分析方法方法包括最短距离法、最长聚类法、类平均法、重心法、ward法等八种不同的方法.K-均值将给定的样本划分为K类,K预先指定,基于使聚类性能指标最小化,所用的聚类准则函数是聚类集中每一个样本点到该类中心的距离平方之和,并使其最小化.比较两种算法,系统聚类是事先并不知道分为几类,根据算法可以直接数据实际情况得出来,K-均值聚类法虽然比较方便迅速,但必须事先定好分类数.两种算法各有优缺点,所以用哪种算法,还要考虑到实际情况.各算法的具体过程在下列实例中有介绍,此处就不做介绍了.三、实例例表12009年给出能反映新疆十四个地州市综合经济的十项指标分别为:伊犁师范学院数学与统计学院毕业设计(论文)报告纸第6页共12页X1地区生产总值(亿元),X2人均地区生产总值(元),X3第二产业比重(%),X4第三产业比重(%),X5人口(万人),X6固定资产投资(亿元),X7规模以上工业总产值(亿元),X8地方财政一般预算收入(万元),X9地方财政一般财政支出(万元),X10在岗职工平均货币支出(元).利用数据对新疆十四个地州市进行综合发展水平进行类型划分及差异性程度分析.表1地区X1X2X3X4X5X6X7X8X9X10乌鲁木齐市1087.53824942.955.6241598.031374820086100480737161克拉玛依市480.298700086.712.628186.61881.133276342715336248吐鲁番地区154.582574162.524.44480.47141.712241025915932911哈密地区130.322305539.445.15095.657310446429356230427昌吉州444.712852039.430.8116205.08290.655629793824626924伊犁直属县市333.661295134.441.4149193.29165.623902297602122727塔城地区284.822078434.129.675124.37116.813687548947019615阿勒泰地区117.391990340.535.93677.935211795852742520587博州100.962113018.451.53847.27234857024902220421巴州525.943946763.920.1100252.8543726599666573527715阿克苏地区320.451309828.437.4146234.03176.129606486429124327克州32.46618319.657.63127.46.12261933855726946喀什地区284.24708517.242.2140219.3748.4147358142791925713和田地区88.58458316.347.86476.110.74499075216726445以2010年新疆统计局出版的《新疆统计年鉴》(2009年度的数据)为数据来源,运用上述10项指标(表1)借助于统计分析软件包SPSS17.0进行聚类分析计算.3.1系统聚类算法对数据进行聚类分析方法选取上,分别用组间联接、最短距离法和和离差平方和(ward)法得出分析结果的聚类图.组间联接法得到的结果和ward方法一致,但,就类和类的之间区别程度而言,组间法的效果没有ward法的好.最短距离法的结果跟ward的不一致,且,就类和类的之间区别程度而言,其效果远差于ward法和质心法.我们也尝试了使用类平均法、最长距离法及中间距离法.他们的聚类图结果类似于ward法,这里为了简洁起见就没有呈现.计算过程如下:①用标准差标准化方法对10项指标的原始数据进行处理.②采用欧氏距离测度个15个地州市之间的样本间距离.③选用组ward法计算类间的距离,并对样本进行归类.经过上述聚类方法,由分析-描述统计-描述,进行数据的标准化,得到下列标准化后的..数据.表2表2表示为标准化的数据,由于我我所选的是反映新疆经济综合指标,这些变量在数量级和计量单位上的差别,要让这些不同单位的变量具有可比性.这是就必须采用某种方法对各变量数值进行标准化处理,或者叫无量纲处理,解决各数值不具综合性的问题.SPSS提供了很方便的数据标准化方法,这里我用的是Z标准化方法.即每一变量与其平均值之差除以该变量的标准差.无量纲化
本文标题:聚类分析论文
链接地址:https://www.777doc.com/doc-4866320 .html