您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 第七章-空间数据的统计分析-1-本
1第七章空间数据的统计分析方法(1)武汉大学遥感信息工程学院遥感科学与技术本科生教案(2012)秦昆时间和地点:星期一:1-2节(8:00-9:35),附3-303;星期三:7-9节(14:05-14:50,14:55-15:40,15:45-16:30),附3-303.授课对象:2009级遥感科学与技术(地理信息工程)本科生答疑地点:五号楼406(周一)2主要内容:GIS属性数据一般统计分析探索性数据分析探索性空间数据分析方法空间点模式分析方法格网或面状数据空间统计分析方法地统计分析概述空间变异函数克里金估计方法地统计分析研究展望空间统计分析软件3GIS属性数据4GIS属性数据属性数据是GIS的重要特征。属性数据包含了两方面的含义:它是什么,即它有什么样的特性,划分为地物的哪一类;(类别属性)实体的详细描述信息,例如一栋房子的建造年限、房主、住户等。(描述属性)5一般统计分析6一般统计分析指对GIS地理空间数据库中的属性数据进行常规统计分析。先对数据进行描述性统计分析,再选择进一步分析的方法。描述性统计分析:对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据的离散程度分析、数据的分布、以及一些基本的统计图形。7对于空间数据来说,描述性分析是空间数据分析的第一步,通过描述性分析,提取有价值的空间信息,便于后续的空间分析和处理。8数据的频数分析频数:将变量xi(i=1,2,…,n)按大小顺序排列,并按一定的间距分组。变量在各组出现或发生的次数称为频数。频率:各组频数与总频数之比叫做频率。频率分布图:计算出各组的频率后,就可以做出频率分布图。频率直方图:若以纵轴表示频率,横轴表示分组,就可做出频率直方图,用以表示事件发生的概率和分布状况。9数据的集中趋势分析数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。10数据的集中趋势分析算术平均值:将所有数据相加,再除以数据的总数目。niixnX11加权算术平均值:考虑数据对数据总体的影响的权重值的不同,将每个数据乘以其权值后再相加,所得的和除以数据的总体权重数。ninpiiipPxPX11/Pi为数据xi的权值11调和平均值:各个数据的倒数的算术平均数的倒数,又称为倒数平均值。调和平均值也分为简单调和平均数和加权调和平均数简单调和平均数:)1/(11nxXniit加权调和平均数:)/(111npiniiitpPxPX12几何平均数:是n个数据连乘的积开n次方根。nniigxX113中位数:一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。众数:在数据中发生频率最高的数据值。如果各个数据之间的差异程度较小,用平均值就有较好的代表性;如果数据之间的差异程度较大,特别是有个别极端值的情况,用中位数或众数有较好的代表性。14数据的离散程度分析数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有:方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。反映数据的离散程度的指标还包括:极差、离差、平均离差、离差平方和、变差系数等。15方差和标准差方差是均方差的简称,是以离差平方和除以变量个数求得的。nxxnii/)(122)1/()(122nxxnii16方差和标准差标准差是方差的平方根。niinxx12/)(niinxx12)1/()(17极差极差是一组数据中最大值与最小值之差,即:R=max{x1,x2,…,xn}-min{x1,x2,…,xn}18离差、平均离差与离差平方和离差:一组数据集中的各数据值与其平均数之差称为离差。一个数据集的离差和恒等于0。平均离差:将离差取绝对值,然后求和,再取平均数,就得到平均离差。xxdi0)(xxniixxnd1||1离差平方和:对离差求平方和就得到离差平方和。niixxd122)(19数据的分布在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度:衡量的是样本分布的偏斜方向和程度;峰度:衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。20统计图表分析用图形的形式表达数据,比用文字表达更清晰、更简明。对于属性数据,统计图的主要类型有柱状图、扇形图、直方图、折线图和散点图等。................................................................................垂直条形图水平条形图扇形图散点图折线图直方图...........................................................................................................................................21................................................................................垂直条形图水平条形图扇形图散点图折线图直方图...........................................................................................................................................柱状图:用水平或垂直长方形表示不同种类间某一属性的差异,每个长方形表示一个种类,其长度表示这个种类的属性数值。扇形图:将圆划分为若干个扇形,表示各种成分在总体中的比重,各种成分的比重可以用扇形的面积或者弧长来表示,当有很多种成分或成分比重差异悬殊时表示效果不好。22................................................................................垂直条形图水平条形图扇形图散点图折线图直方图...........................................................................................................................................散点图:以两个属性作为坐标系的轴,将与这两种属性相关的现象标在图上,表示出两种属性间的相互关系,在此基础上可以分析这两种属性是否相关和相关关系的种类。折线图:反映某一属性随时间变化的过程,它以时间为图形的一个坐标轴,以属性为另一坐标轴,将各个时间的属性值标到图上,并将这些点按时间顺序连接起来,反映实体发展的动态过程和趋势。23................................................................................垂直条形图水平条形图扇形图散点图折线图直方图...........................................................................................................................................直方图:表示单一属性在各个种类中的分布情况,可以确定属性在不同区间的分布,如某种现象的分布是否是正态分布。统计表格:是详尽表示非空间数据的方法,它不直观,但可提供详细数据,可对数据再处理。统计表格分为表头和表体两部分,除直接数据外有时还有汇总、比重等派生项。24探索性空间数据分析25HoaglinDC,MostellerF,TukeyJW[美]著.陈忠琏,郭德媛译.1998.探索性数据分析.北京:中国统计出版社探索性数据分析:26探索性数据分析:统计学是数据分析的主要工具,大量的统计分析方法以数据总体满足正态假设为依据,并在此基础上建立模型和推演。然而实践中大量的数据不能满足正态假设,并且基于均值、方差等的模型在实际数据分析中缺乏稳健性,于是导致很多统计分析方法不能满足海量数据分析的要求。19世纪60年代的Tukey面向数据分析的主题,提出了探索性数据分析(exploratorydataanalysis,EDA)的新思路。27探索性数据分析:探索性数据分析(EDA)的特点:对数据来源的总体不作假设,并且假设检验也经常被排除在外。这一技术使用统计图表、图形和统计概括方法对数据的特征进行分析和描述。EDA技术的核心:“让数据说话”,在探索的基础上再对数据进行更为复杂的建模分析。28探索性数据分析的基本方法EDA是不对数据总体做任何假设(或很少假设)的条件下识别数据特征和关系的分析技术。主要有两类方法:计算EDA方法:包括从简单的统计计算到高级的用于探索分析多变量数据集中模式的多元统计分析方法图形EDA方法:即可视化的探索数据分析。常用的图形方法有直方图(histogram)、茎叶图(stemleaf)、箱线图(boxplot)、散点图(scatterplot)、平行坐标图(parallelcoordinateplot)等。29(1)直方图与茎叶图直方图和茎叶图用于表述数据的分布信息,可根据数据的分布进一步作出相关的假设。直方图:是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。在图像处理领域的常用概念是灰度直方图,描述的是图像中具有该灰度级的像素的个数:横坐标是灰度级,纵坐标是该灰度出现的频率(像素个数)。30茎叶图:又称“枝叶图”,将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样可以清楚地看到每个主干后面的几个数,每个数具体是多少。茎叶图是一个与直方图类似的工具,茎叶图保留了原始资料的信息,直方图则失去原始数据的讯息。茎|叶频数0|156941|056942|2423|114|01635|25736|015947|015948|5929|124341,52,6,19,92,10,40,55,60,75,22,15,31,61,9,70,91,65,69,16,94,85,89,79,57,46,1,24,71,531茎叶图的特征:用茎叶图表示数据有两个优点:(1)从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;(2)茎叶图中的数据可以随时记录、随时添加,方便记录与表示。茎叶图只便于表示两位有效数字的数据。茎|叶频数0|156941|056942|2423|114|01635|25736|015947|015948|5929|124341,52,6,19,92,10,40,55,60,75,22,15,31,61,9,70,91,65,69,16,94,85,89,79,57,46,1,24,71,532(2)箱线图(盒须图)箱线图(Boxplot),亦称箱须图(Box-whiskerplot),或骨架图(SchematicPlot)。箱线图能够直观明了地识别数据集中的异常值,利用数据中的五个统计量:最小值、第一四分位数Q1、中位数F、第三四分位数Q3、最大值来描述数据。第一四分位数Q1:又称“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。中位数F:又称第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数
本文标题:第七章-空间数据的统计分析-1-本
链接地址:https://www.777doc.com/doc-4597359 .html