您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序)
主成分-聚类分析在各地区火灾事故中的应用摘要:消防安全是公共安全的重要组成部分,火灾事故不仅严重威胁着人们的生命财产安全,而且还会引起社会恐慌和不安。鉴于近年来我国火情比较严重,本文根据国家统计局《统计年鉴-2010》年中的火灾事故统计表,通过主成分、聚类法对30个省市火灾事故情况进行了分析。并探讨了这两种方法的可行性,得出了火灾事故严重性评价的主要因素,及根据火灾严重性对各省市进行分类情况,对相关管理部门有一定的参考价值。关键字:火灾事故;主成分分析;聚类分析一、问题提出火灾事故是现代社会危害较大,发生较频繁的灾害,其不仅严重威胁着人民的生命财产安全,而且火灾造成的负面影响也严重危害着社会的安定。据国家统计局统计数据显示,2010年全国共发生火灾事故132497起,造成人员死亡1205人,重伤624人,直接经济损失达195945.2万元,造成了巨大的社会负面影响。另一方面,随着人们生活水平的提高,人们对安全的保障要求也越来越高,因此消防安全就愈发显得重要紧迫,那么如何更加合理的对消防安全进行管理,这就涉及到对以往火灾事故的分析总结,寻前车之鉴来更好的防范未来。因此,根据主成分分析不同因素对火灾事故严重程度评价的的影响关系,找出主要影响因素,这对火灾严重程度的评判具有重要的意义。进而根据严重程度的主要因素,运用聚类分析把各地的火灾事故情况进行聚类,划分出各个严重性所包含的区域,对有关部门的统筹管理是很有必要的。二、问题解决的理论方法1.主成分分析原理:主成分分析是一种把原来多个指标化为少数几个互不相关(或相互独立(在总体是多维正态总体时))的综合指标的一种统计方法,可以达到数据简化、揭示变量之间的关系和进行统计解释的目的,为进一步分析总体的性质和数据的统计特性提供一些重要信息[1]。在实际中有重要的应用地位。例如在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。能否从着众多的指标中构造出很少几个互不相关的所谓综合指标,而且这几个综合指标应尽可能充分的反映原来众多指标的信息。从而使辨识系统从高维空间转化成低维空间,降低问题的难度。对于总体X=(x1,…,xp)’,我们给出X的综合指标F1,…,Fk的确定原则为:1)Fi是X的线性函数,即要求Fi=Li’X,Li是p*1维待定常数向量,i=1,…,k;2)要求D(yi)尽可能大,即yi能充分反映X的变化情况,i=1,2,…,k;3)要求F1,…,Fk互不相关,即Cov(Fi,Fj)=0,或者说F1,…,Fk之间尽可能不含重复信息。这样的F1,…,Fk均称为X的主成分。注意主成分的个数营销与原始变量的个数,至于应该保留几个主成分应该权衡主成分个数和保留的信息。主成分的具体求解为:第一主成分,设X的协方差阵为由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得其中1,2,…,p为Σx的特征根,不妨假设12…p。而U恰好是由特征根相对应的特征向量所组成的正交阵。i=1,2,…,p则为系统的第一主成分,若第一主成分信息量不够则找第二主成分,确定原则相似,即是找第二大特征值对应的特征向量,与X相乘即可。所以,求主成分即是求X的协方差阵的特征向量Ui,UiX即是第i个主成分。主成分分析本身往往并不是最终目的,而是达到目的的一种手段。它大多用于大型研究项目的某个中间环节。例如用在回归分析、聚类分析等研究项目中。2.聚类分析原理:聚类分析的研究目的就是把相似的对象归并成类,研究的主要内容是如何度量相似性以及怎样构造聚类的具体方法以达到分类的目的,所用的工具乃是数学[2]。它是在没有知道类型的个数或对于各种类型的结构未做任何假设情况下的一种比较原始的方法。聚类的依据是相似性或距离。所以,需要引进一些能够刻画相似性的度量指标或数据。聚类分析的基本思想是我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。在聚类分析中,通常我们将根据分类对象的不同分为变量聚类分析和样本聚类分析两大类。变量聚类分析的主要作用是:不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度;样本聚类分析的优点是:可以综合利用多个变量的信息对样本进行分类,2212222111221pppppxΣp001UΣUXppppppuuuuuuuuu212222111211),,(p1uuUpiiiuuu,,,21iUppXuXuF11111分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果,聚类分析所得到的结果比传统分类方法更细致、全面、合理。聚类分析方法主要有系统聚类法和动态聚类法。系统聚类法的基本思想是:先将每个研究对象(样品或指标)各自看成一类,按某种顺序分别称作第1,第2,…,第h类,然后根据对象间的相似度量,将h中的相似的两类合并为一类,这样得到h-1类,再在这h-1类中选出最相似的两类合并,得到h-2类,如此下去知道将所有的对象合并成一个大类为止。动态聚类的基本思想是:先给出一个粗糙的初始分类,然后用某种原则进行修改,直到分类比较合理为止。三、方法应用数据资料来源:国家统计局:《中国年统计年鉴—2010》中的“公共管理及其他”部分[4],“全国各地区火灾事故情况”中的30个省、直辖市的30组数据,将数据列成表格形式为:全国各地区火灾事安全评价指标(2010年)序号地区发生数死亡人数受伤人数直接经济损失人口火灾发生率X1(起)X2(人)X3(人)X4(万元)X5(1/10万人)1北京546832134361.043.342天津1148233624.711.603河北475729145692.66.524山西443926146331.712.785内蒙古878951145306.735.836辽宁556642143756.513.097吉林786243257129.128.868黑龙江294426135444.27.669上海570243547149.240.3710江苏529685528975.57.0911浙江383488426835.58.0812安徽517335218474.37.5813福建401655189374.811.3814江西471521118074.410.0515山东7226321513315.07.5816河南353416133781.93.2717湖北93832593821.315.2618湖南29153348388.04.1219广东61581326417825.17.2320广西128732146094.22.4121海南1052311201.311.7422重庆5040432413689.315.2623四川6204372111197.86.8924贵州166173414566.23.9725云南206964207363.94.5726陕西462023118354.211.9327甘肃114116132887.94.2128青海16231213926.029.5129宁夏3447511338.253.6430新疆520960413040.924.07数据来源:各个指标值根据《中国年统计年鉴——2010》的“公共管理及其他”,由于西藏信息不全故不做统计计算。1、主成分分析过程:下面对各个指标的数据进行应用统计分析,为了对各地区的火灾发生数x1、死亡人数x2、受伤人数x3、直接经济损失(万元)x4、人口火灾发生率x5,进行主成分分析,也就是对这五个指标进行降维处理。找出火灾严重程度的评价的主要因素,具体程序分析如下:主成分分析程序:dataw;inputx1-x5;cards;546832134361.043.341148233624.711.60475729145692.66.52443926146331.712.78878951145306.735.83556642143756.513.09786243257129.128.86294426135444.27.66570243547149.240.37529685528975.57.09383488426835.58.08517335218474.37.58401655189374.811.38471521118074.410.057226321513315.07.58353416133781.93.2793832593821.315.2629153348388.04.1261581326417825.17.23128732146094.22.411052311201.311.745040432413689.315.266204372111197.86.89166173414566.23.97206964207363.94.57462023118354.211.93114116132887.94.2116231213926.029.513447511338.253.64520960413040.924.07;procprincompdata=w;varx1-x5;run;运行结果如下:TheSASSystem21:45Sunday,April11,20121ThePRINCOMPProcedureObservations30Variables5SimpleStatisticsx1x2x3x4x5Mean4409.26666740.1666666720.433333336510.71333314.99633333StD2247.90435627.3648192616.106720243969.76656113.35252772CorrelationMatrixx1x2x3x4x5x11.00000.23620.22990.41000.2963x20.23621.00000.84880.5793-.2025x30.22990.84881.00000.4837-.0421x40.41000.57930.48371.0000-.3140x50.2963-.2025-.0421-.31401.0000EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative12.485960491.193140890.49720.497221.292819600.493086420.25860.755830.799733180.510446310.15990.915740.289286870.157087010.05790.973650.132199860.02641.0000TheSASSystem21:45Sunday,April11,20122ThePRINCOMPProcedureEigenvectorsPrin1Prin2Prin3Prin4Prin5x10.2890410.631186-.500386-.514779-.051716x20.577733-.0856200.322199-.1667340.726142x30.5459740.0244750.496424-.078685-.669840x40.513375-.068206-.4993950.693635-.035635x5-.1450470.7674780.3872580.4689150.141735结果分析:上述程序分析结果表明样本为30组5维的观
本文标题:基于主成分-聚类分析的各地区火灾事故研究(附有SAS程序)
链接地址:https://www.777doc.com/doc-1882674 .html