您好,欢迎访问三七文档
数据处理专题数据处理是指用简明而严格的方法把获得的实验数据所代表的事物内在的规律提炼出来,得出结果的加工过程,包括数据记录、描绘曲线,从带有误差的数据中提取参数,验证和寻找经验规律,外推实验数据等等。本章介绍一些最基本的数据处理方法。数据处理的内容:1、数据预处理1.1、数据标准化处理。1.2、数据光滑化处理。2、数据分类----聚类分析。3、主要影响因素的提取----主成分分析。4、数据具体分析1、回归分析。2、相关性分析。3.因子分析。一、数据预处理1.1、数据标准化处理在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。二、数据处理的一般方法1.数据类型的同趋势化处理方法极大型:期望取值越大越好;极小型:期望取值越小越好;中间型:期望取值为适当的中间值最好;区间型:期望取值落在某一个确定的区间内为最好。二、数据处理的一般方法(1)极大型:对某个极小型数据指标x,则1(0)xxx,或xMx.(2)中间型:对某个中间型数据指标x,则2()1,()22()1,()2xmmxMmMmxMxMmxMMm(3)区间型:对某个区间型数据指标x,则1,1,1,axxacxaxbxbxbc其中[,]ab为x的最佳稳定区间,max{,}camMb,M和m分别为x可能取值的最大值和最小值。表:31个主要城市空气质量指标(2003年)单位:毫克/立方米城市可吸入颗粒物(PM10)二氧化硫(SO2)二氧化氮(NO2)空气质量达到及好于二级的天数x(天)北京0.1410.0610.072224天津0.1330.0740.052264石家庄0.1750.1520.044211太原0.1720.0990.031181呼和浩特0.1160.0390.046286沈阳0.1350.0520.036298长春0.0980.0120.022342哈尔滨0.1210.0430.065297城市可吸入颗粒物(PM10)二氧化硫(SO2)二氧化氮(NO2)空气质量达到及好于二级的天数x1(天)北京0.1410.0610.072118天津0.1330.0740.05278石家庄0.1750.1520.044131太原0.1720.0990.031161呼和浩特0.1160.0390.04656沈阳0.1350.0520.03644长春0.0980.0120.0220哈尔滨0.1210.0430.06545极大转极小型x1=M-x2.数据指标的无量纲化处理方法在实际数据指标之间,往往存在着不可公度性,会出现“大数吃小数”的错误,导致结果的不合理。(3)功效系数法:(1)标准差法:ijjijjxxxs(2)极值差法:ijjijjjxmxMmijjijjjxmxcdMm(1,2,,;1,2,,)injm[0,1]ijx1122111[()]1njijinjijjixxnsxxn11max{}min{}jijinjijinMxmx0.140.0610.0722240.1330.0740.0522640.1750.1520.0442110.1720.0990.0311810.1160.0390.046286城市可吸入颗粒物(PM10)二氧化硫(SO2)二氧化氮(NO2)空气质量达到及好于二级的天数(天)北京天津石家庄太原呼和浩特jx1x24x中心化变换中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。jijijxxx*),,3,2,1;,,3,2,1(pjni对数变换对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。即:)log(*ijijxx其他数据变换2、数据光滑化处理。1、移动平均法由于实际数据有时受到随机现象的干扰,而出现随机波动,这样导致我的数据不光滑,我们可以采取一些数学手段对其进行光滑化处理,便于我们进行后期分析。2、指数平滑法其中xk为原始数据,Yk为平滑后的数据,n为数据个数,b为平滑权数。聚类分析(ClusterAnalysis)聚类也就是分类,在社会经济领域中存在大量的分类问题,比如对三十个省市自治区的工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好的做法是选取具有代表性的指标如百元固定资产实现利税,资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对省市自治区分类,然后根据分类结果对企业经济效益进行综合评价。聚类分析方法基本方法:系统聚类法、K均值聚类法、动态聚类法、DBSCAN聚类法等,我们着重讲述系统聚类法(Q分类)。对样品分类我们称为Q分类,对指标分类我们称为R分类。其他聚类方法1、模糊聚类2、灰色聚类3、神经网络聚类4、图论聚类法综合人口承载力研究经济承载力环境承载力资源承载力1、间隔尺度:变量是用连续量来表示,如长度、重量等。2、有序尺度:用一些等级来表示。如上中下三等。3、名义尺度:既没有数量表示也没有次序表示。如红、黄、蓝三色等。实际问题的三种数量尺度:我们通过数学当中的距离来表示进行分类。具体方法有:最短距离法、最长距离法、中间距离法、重心法等。我们用最短距离法来讲述,其它方法读者自己翻阅相关的多元统计教材。类间的连接方法x21•x12•x22•x11••••x11•x21••••••••••13d12d991dd最短距离最长距离平均距离Q分类距离的选择距离有:明氏距离、欧氏距离,马氏距离,兰氏距离等具体如下。(1)明氏距离gpkgjkikijxxd11)||(pkjkikijxxd12)(明氏距离欧氏距离①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。②明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。(2)兰氏距离这是兰思和维廉姆斯(LanceSLWilliams)所给定的一种距离,其计算公式为:pkjkikjkikijxxxxLd1)(这是一个自身标准化的量,由于它对大的奇异值不敏感,这样使得它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。这是印度著名统计学家马哈拉诺比斯(P.C.’Mahalanobis)所定义的一种距离,其计算公式为:(3)马氏距离)()()(12jijiijXXXXMd协方差阵的逆矩阵马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,消除了各个观测指标不同量纲的影响。这表明,马氏距离对任何非奇异线性变换都具有不变性。协方差及协方差矩阵的定义XYXYE[X-E(X)][Y-E(Y)]XYCov(X,Y)Cov(X,Y)=E[X-E(X)][Y-E(Y)].Cov(X,Y)ρ=D(X)D(Y)XY.ρ量称为随机变量与的协方差,记为:,即称为随机变量与的相关系数是一个无量纲的量协方差的定义1211212212(,)()(,)(,)(,)()XXDXCovXXXXCovXXDX协方差矩阵定义:设二维随即变量的四个二阶中心矩存在,将它们排成矩阵:,称为的协方差矩阵。12112121221212(,,)(,),1,2,()(,)(,)(,)()(,)(,)(,)()(,,)nijnnnnnnnXXXCovXXijnDXCovXXCovXXCovXXDXCovXXCovXXCovXXDXnXXX设维随机变量,都存在,称矩阵为维随即变量的协方差矩阵,协方差矩阵是一个对称矩阵。R分类相似度选择1、数量积法2、夹角余弦法1cos1cosij12121pajapaiapajaiaijxxxx3、相关系数法4、指数相关系数法最短距离法步骤如下:【1】定义样品之间的距离,计算样品两两距离,得一距离记为D(0)开始每个样品自成一类,显然这时Dij=dij。其中D表示类Group之间的距离,distance表示样品之间的距离。【2】找出D(0)的非对角线最小元素,设为Dpq,则将Gp和Gq合并为一新类,记为Gr。【3】给出计算新类与其他的类的距离公式:距离公式有:欧氏距离,马氏距离,兰氏距离等。Dkr=min{Dkp,Dkq}将D(0)中的第p、q行及p、q列用上面公式并成一个新行新列,新行新列对应Gr,所得到得矩阵记为D(1)【4】对D(1)重复上述对D(0)的(2)(3)两步得D(2);如此下去,直到所有的元素并为一类。注意:如果某一步中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。为了大家便于掌握我们举例如下:例:设抽取五个样品,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最短距离法对这五个样品进行分类。D0G1={X1}G2={X2}G3={X3}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520样品样品1样品2样品3样品4样品5指标1123.579解:我们距离选用我们所熟悉的绝对值距离。|x1-x2|D1G6={X1,x2}G3={X3}G4={X4}G5={X5}G6={X1,x2}0G3={X3}1.50G4={X4}53.50G5={X5}75.520D2G6={X1,x2,x3}G4={X4}G5={X5}G6={X1,x2,x3}0G4={X4}3.50G5={X5}5.520D3G6={X1,x2,x3}G7={x4,X5}G6={X1,x2,x3}0G7={x4,X5}3.50最终我们分为两类比较合适,{x1,x2,x3}与{x4,x5}样品指标1样品11样品22样品33.5样品47样品59X1X2X3X4X5样品指标1样品11样品22样品33.5样品47样品59Step1寻找变量之间的相似性用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化。X=[1,2,3.5,7,9]X2=zscore(X);%标准化数据Y2=pdist(X2,‘euclidean’);%计算距离(欧氏距离)Step2定义变量之间的连接Z2=linkage(Y2,‘single’);%最短距离法Step3评价聚类信息C2=cophenet(Z2,Y2);Step4创建聚类,并作出谱系图T=cluster(Z2,2);%表示将将X分成2类H=dendrogram(Z2);%画出聚类树形图matlab做聚类分析聚类步棸:(1)找到数据集合中
本文标题:数据处理1
链接地址:https://www.777doc.com/doc-6424303 .html