您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据结构与算法 > 多指标面板数据的聚类分析研究
1管理信息系统课程小组作业多指标面板数据的聚类分析研究——以我国15个副省级城市综合竞争力评价为例小组组长:XXXXX小组成员:XXXXXXXXXX完成时间:指导教师:徐德华2目录1选题背景与意义................................................................42聚类分析与聚类算法..........................................................52.1聚类分析.............................................................52.1.1相关概念与定义.................................................................................52.1.2相似度计量模型.................................................................................52.2聚类算法.............................................................72.2.1传统聚类算法及其比较........................................................................72.2.2扩展聚类算法...................................................................................133面板数据及其聚类方法.....................................................153.1面板数据概述........................................................153.1.1概念及发展......................................................................................153.1.2面板数据的特点...............................................................................153.1.3面板数据的分析处理方法..................................................................163.2单指标面板数据的数据形式和聚类分析方法..............................163.3多指标面板数据的数据形式和聚类分析方法..............................173.3.1多指标面板数据的数据形式...............................................................173.3.2常见的多指标面板数据聚类分析方法..................................................174实证研究........................................................................234.1城市竞争力研究综述..................................................234.1.1城市竞争力内涵研究综述..................................................................244.1.2城市竞争力模型研究综述..................................................................264.1.3城市竞争力评价体系研究综述............................................................2934.2城市竞争力指标选取..................................................304.2.1城市竞争力评价指标选取的原则.........................................................304.2.2我国15个副省级城市竞争力评价指标体系..........................................314.3聚类分析............................................................324.3.1基于主成分分析的聚类......................................................................324.3.2基于指标距离求和的聚类..................................................................384.3.2基于概率连接函数的聚类..................................................................404.4结果分析............................................................425结论与展望.....................................................................445.1结论…………………………………………………………………………………………………………445.2不足与展望..........................................................44主要参考文献.....................................................................45附录..................................................................................46附录1……………………………………………………………………………………………………………46附录2……………………………………………………………………………………………………………46附录3……………………………………………………………………………………………………………4841选题背景与意义面板数据(PanelData)作为截面数据与时间序列数据的组合数据集,同时体现了空间维度和时间维度的数字特征,克服了时间序列数据多重共线性、数据量不足等困扰,逐渐发展成为现代计量经济学领域统计分析与统计研究的重要方法和工具。运用多元统计方法对面板数据进行聚类分析是统计学的新兴研究领域。聚类分析作为一种数据挖掘手段,已被广泛地应用在许多领域中,包括模式识别、数据分析、图像处理、市场研究、管理评价等。传统的聚类分析对象一般是固定时期的不同个体截面数据,二维数据聚类分析往往不能满足人们分析问题的需要,而且基于单一的固定时期的聚类分析往往抹杀了指标的动态发展趋势及其发展状态,无法预测其未来发展轨迹和所属类别。例如:在城市竞争力聚类分析中,竞争力存在着随时间动态变化过程,仅仅固定在某一年度的截面数据分析就显得有失偏颇,如果根据一个较长时期的面板数据进行聚类分析则显得较为合理。城市竞争力是国内近年来正在兴起的一个新课题,目前处于起步研究阶段,还未形成公认的完整体系。经济全球化,知识经济时代的到来,促使我国城市必须进行转型改革,走上新型的发展道路。我国现阶段的城市要从建设城市转向管理和经营城市,就是要重塑城市资源整合和配置资源机制,提高城市对社会资源的吸引力和创造社会财富的能力,从根本上就是提高城市竞争力。城市竞争力评价是典型的综合评价,在不同的评价体系下有不同的指标指标,而且必须考虑时间因素,因此相关的数据就是典型的多指标面板数据。1994年5月,经中央机构编制委员会第6次会议通过,决定将原来的14个计划单列市和杭州、济南2市正式确定为副省级市(其中,重庆市97年恢复直辖)。将这15个城市定为副省级市,是中央对于区域经济发展的重要决策,加强了省级机构统筹规划和协调的地位和作用,不仅有利于加快这些城市的经济与社会发展,而且有利于更好的发挥这些中心城市的辐射作用。在国家政策层面和经济决策权待遇同等的情况下,经过20年,这15个副省级城市的发展出现了很大差异,城市竞争力也日趋呈现差异化。鉴于此,我们小组决定利用多指标面板数据的聚类方法对此进行探析,一方面介绍面板数据的一些处理思路,另一方面通过聚类寻找15个城市类别之间的差异,以提出相关建议。52聚类分析与聚类算法2.1聚类分析2.1.1相关概念与定义聚类分析(ClusterAnalysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种方法,其目的是将有限个无标注数据划分到有限个离散的组或类中,发现数据隐藏的内部结构。聚类分析是数据挖掘的一种重要手段,是一种无监督的模式分类方法,在分类时只依赖对象自身所具有的属性来区分对象之间的相似程度。聚类分析作为一种有效的数据分析方法被广泛应用于数据挖掘、机器学习、图像分割、语音识别、生物信息处理等方面。给定一个对象集合12,,,nXxxx,假设每个对象,1,,ixin含有m个特征,在此用向量的方式来表示对象的特征,12,,,imxlll,聚类分析的过程就是根据对象的特征来分析对象之间的相似程度,并根据某种聚类决策准则来获得聚类结果。聚类的结果用12,,,kCccc表示,则聚类结果满足以下条件:,1,,icik;1kiicX;,,,1,,ijccijijk。模糊聚类的结果没有上面的约束条件,模糊聚类给出的结果只是对象隶属于每个类的程度。通常聚类分析一般包含四个部分:(1)特征获取与指标选择;(2)计算相似度;(3)聚类分组;(4)结果分析。2.1.2相似度计量模型给定数据矩阵,通常需要通过某种相似度计算模型来计算相似度矩阵。相似性计算模型一般需满足如下三个条件:(1)非负性:对于任两个对象x和y,有0(,)1sxy;(2)对称性:对于任两个对象x和y,有(,)(,)sxysyx;(3)(,)1sxx。相似度的计算依赖于数据的特性,针对不同的数据类型,目前有许多相似度的计算公式,下面列出一些常见的计算公式:(1)数值型数据的相似度数值型数据的相似度通常利用数据间的距离来构造,可以利用公式(,)1(,)(,),(,)(,)1(,)1max_dxydxysxysxyesxydxyd或6将距离转化为相似度,其中max_d表示集中数据之间的最大距离。常见的距离公式有:闵可夫斯基(Minkowski)距离:11(,)nppiiidxyxy切比雪夫(Chebyshev)距离:1(,)niiidxyxy马氏(Mahalanobis)距离:112(,)()TdxyxySxy其中,表示取大运算。闵可夫斯基距离是一个一般化的距离度量,当p=1是为曼哈顿距离,当p=2是为欧式距离。(2)二元数据的相似度二元数据是由二元变量构成,二元变量只能有两种取值状态:0或1,其中0表示该特征为空,l表示该特征存在。如果二元变量的两个状态是同等价值的具有同样的权重称为对称的二元变量,否则称为不对称的二元变量。对于对称的二元变量评价两个对象和之
本文标题:多指标面板数据的聚类分析研究
链接地址:https://www.777doc.com/doc-7033177 .html