您好,欢迎访问三七文档
数据挖掘课程论文一、提出需解决问题运用系统聚类分析,通过社会消费品零售额、财政收入、居民消费水平和商品房销售价格对31个省市的综合消费情况进行分析,并分析造成这种差异化的原因。希望通过实验研究山东省17个市的生产总值的差异化,并分析造成这种差异化的原因,可以更深刻的掌握聚类分析的原理;进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼收集、整理、运用资料的能力的目的;希望能会调用SPSS软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。表一、序号省市社会消费品零售总额(万元)财政收入(万元)居民消费水平(元)商品房平均销售价格(元/平方米)1北京市77,028,16733,149,00030,35016,8522天津市39,214,28617,600,00022,9848,7453河北省92,540,00034,792,60010,7493,9834山西省45,068,00026,503,32610,8293,4335内蒙古自治区45,725,00024,973,00015,1963,7836辽宁省93,466,00031,000,00017,9994,7337吉林省47,729,00010,413,00012,2764,3648黑龙江省54,910,00011,632,00011,6013,9669上海市74,123,00037,437,00036,89314,603210江苏省183,313,000148,438,90019,4526,55411浙江省135,883,00064,084,90022,8459,83812安徽省57,366,00030,260,00010,9784,77613福建省72,565,00017,762,10016,1447,76414江西省40,272,00020,461,47510,5734,14815山东省196,519,00040,594,30015,0954,44816河南省109,156,00020,406,00010,3803,50117湖北省95,625,00018,231,00012,2834,48618湖南省79,219,00029,379,50011,7403,79019广东省226,771,00062,280,00021,8237,87920广西壮族自治区45,166,00011,659,80010,5203,77221海南省8,708,0004,094,00010,6358,94322重庆市40,337,04637,995,80013,6554,73423四川省92,686,00023,821,00011,2804,91824贵州省20,276,00016,444,8218,3723,88925云南省35,116,00013,379,8009,7823,63526西藏自治区2,546,0008,999,2605,3403,47527陕西省43,838,00028,000,91211,8524,94928甘肃省19,065,00010,798,9838,5423,31829青海省4,760,00013,068,26110,2893,24830宁夏回族自治区5,488,0002,640,00012,1203,73231新疆维吾尔自治区18,586,0009,091,00010,6753,549二、聚类分析的背景及应用聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分3支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。聚类分析源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析的主要应用,在商业方面,最常见的就是客户群的细分问题,可以从客户人口特征、消费行为和喜好方面的数据,对客户进行特征分析,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在同一组内,而不相似的客户能被区分到另一些组中。在生物方面,聚类分析可以用来对动植物进行分类,对基因进行分类等,从而获取对动植物种群固有结构的认识,对物种进行很好的分类。在电子商务方面,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过对客户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通过共同特征对客户进行分类,可以帮助电子商户更好的了解他们的客户,并向客户提供更合适的服务。在保险行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资比例进行分类管理,从而提高保险投资的效率。三、聚类分析的方法与原理4聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。聚类分析方法中最常用的一种是系统聚类法,其基本思想是:先将待聚类的n个样品(或者变量)各自看成一类,共有n类;然后按照选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的两类并为一类,其余不变,即得到n-2类;如此下去,每次重复都减少一类,直到最后所有的样品(或者变量)都归为一类为止。系统聚类分析有两种类型:Q型样本聚类和R型变量聚类。这里我们运用的是Q型聚类。Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。系统分析法包括最短距离法、最长距离法、类平均法、重心法、中间距离法和离差平方和法,本文运用离差平方和法(Ward法)对样本进行分类。离差平方和法是Ward(1936)提出的,也称为Ward法。它基于方差分析思想,如果类分得正确,则同类样品之间的离差平方和应当较小,不同类样品之间的离差平方和应当较大。假定已将n个样品分为k类,记为1G,2G,…,kG,tn表示tG类的样品个数,(t)X表示tG的重心,(t)iX()表示tG中第i个样品(i=1,…,tn),则tG中样品的离差平方和为5tn(t)(t)(t)(t)tii1=iWXXXX()(),其中(t)iX(),(t)X为m维向量,tW为一数值(t=1,2,…,k)。k个类的总离差平方和为tnkk(t)(t)(t)(t)tiit=1t=11==iWWXXXX()().当k固定时,要选择使W达到极小的分类。Ward法的基本思想是,先将n个样品各自成一类,此时W=0;然后每次将其中某两类合并为一类,因每缩小一类离差平方和就要增加,每次选择使W增加最小的两类进行合并,直至所有样品合并为一类为止。Ward法把某两类合并后增加的离差平方和看成为类间的平方距离,即令2pqrpq=D表示类pG和qG的平方距离,其中,rpqGGG,rW,pW,qW分别为rG,pG,qG类中样品的离差平方和。利用rW的定义,可得rn(r)(r)(r)(r)rttt1=WXXXX()()pqnn(p)(r)(p)(r)(q)(r)(q)(r)iiiii1i1=XXXXXXXX()()()(),其中1rpqpqrXnXnXn.经整理可得2pqpqpqpqrnnDXXXXn.当样品间距离采用欧氏距离时,上式可表为622pqpqpqrnnDdn,其中2pqd表示,pqGG的重心pX与qX的平方距离:22,pqpqddXX.这表明此时Word法定义的类间距离与重心法只相差一个常数倍。当pG和qG合并为rG后,rG与其他类kG的距离有如下递推公式2222kpkqkrkpkqkpqrkrkrknnnnnDDDDnnnnnn上述两种方法都是将性质接近的样品划为一类。聚类分析依据的基本原则是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质相差比较大的分在不同类。也就是说,同类事物之间性质差异小,类与类之间的性质相差比较大。系统聚类分析是聚类分析中应用的最广泛的一种方法。首先将n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。应用系统聚类法进行聚类分析的步骤如下:①确定待分类的样品的指标②收集数据③对数据进行变换处理④使各个样品自成一类,即n个样品一共有n类⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两7个类并成一类⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。四、数据处理及分析1、描述统计量表2:项目N极小值极大值均值标准差社会消费品零售总额312,546,000226,771,00067,840,79055,767,366财政收入312,640,000148,438,90027,722,31426,778,055居民消费水平315,34036,89314,2986,711商品房平均销售价格313,24816,8525,6073,270有效的N(列表状态)31从表2可以知道,各个指标的离差均比较大,包含的信息量比较全面,所以所选的数据是有效并且可信的。、82、使用Ward联接的树装状图图1:93、聚类结果表3类别ⅠⅡⅢⅣⅤⅥⅦⅧ三类2184四类21813五类216132六类2313132七类2358132八类23581212根据聚类表及分类谱系图综合分析可以知道,分成五类是最好的方案,所以确定为五类。表4:类别市分类名称第一类西藏自治区甘肃省经济滞缓消费低区域第二类北京市,天津市,河北省,山西省,内蒙古自治区,辽宁省,吉林省,黑龙江省,上海市,青海省,宁夏回族自治区,新疆维吾尔族自治区,安徽省,福建省,江西省,湖南省,广西壮族自治区,海南省,重庆市,四川省,贵州省云南省,陕西省,总体消费较低区域第三类湖北地区消费中等区域第四类江苏浙江河南地区总体消费较高区域第五类山东广东地区总体消费水平高区域4.解释分析选择分类结果10对其进行分类,划分为五类。第一类:西藏自治区甘肃省该地区地处中国西部,资源匮乏,人员稀少,交通不便利,消费品不能够及时运送,投资较少导致生产总值和人均收入减少时该地区低消费的主要原因。第二类:北京市,天津市,河北省,山西省,内蒙古自治区,辽宁省,吉林省,黑龙江省,上海市,青海省,宁夏回族自治区,新疆维吾尔族自治区,安徽省,福建省,江西省,湖南省,广西壮族自治区,海南省,重庆市,四川省,贵州省云南省,陕西省该地区的造成总体消费低原因有很多种,有的地区虽然居民消费水平较高但是人口较少造成了总体消费低的原因,有的地区则是因为居民消费水平低和人口也不多。第三类:湖北虽然已武汉,宜昌等地区水平高但是该省的其他地区消费水平并不高,造成了该地区的总体消费水平不高的原因。第四类:江苏浙江河南这几个地区消费的高原因有的是居民消费水平高而有的,比如河南虽然居民消费水平不高但是人口较多导致了该地区的总消费水平高的各种原因。第五类:山东广东
本文标题:数据挖掘课程论文
链接地址:https://www.777doc.com/doc-4823579 .html