您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 其它文档 > 87探索性空间数据分析 王双
ESRIChina(Beijing)LearningCenterESRIChina(Beijing)LearningCenterESRIChina(Beijing)LearningCenterESRIChina(Beijing)LearningCenter探索性空间数据分析王双培训师wangsh@lreis.ac.cn楔子从离散样本点得到连续表面插值方法的选择模型参数的设置不同的插值方法反距离权重法全局多项式法局部多项式法径向基法克里格模型参数设置•有多少样本点参与到计算中来?•每个样本点的权重是相同的吗?•选择什么函数来模拟表面?•……探索性空间数据分析ExploreSpatialDataAnalysis了解数据开始内容提纲•探索性空间数据分析•理解地统计•案例分析•模型比较探索性空间数据分析•地理空间与属性空间•刷光(brushing)与链接(linking)•发现数据分布趋势以及离群值探索性空间数据分析•直方图•NormalQQPlot•趋势分析•VoronoiMap•半变异/协方差云图•GeneralQQPlot•正交协方差云图直方图•将数据分为若干区间,统计每个区间内的要素个数•给出一组统计量•检验数据是否符合正态分布以及发现离群值NormalQQPlot•与标准正态分布(直线)对比•检验数据是否符合正态分布以及发现离群值趋势分析•将每个采样点的值投影到东西方向和南北方向,发现数据在某个方向上有没有分布趋势VoronoiMap•每个多边形内仅有一个样本点•多边形内的任一位置到该样本点距离最近半变异/协方差云图•每一个点代表一个点对•空间距离越近,相关性越大•发现离群值以及是否存在各向异性地统计方法•地统计(Geostatistics)又称地质统计,它是以区域化变量为基础,借助变异函数,研究既具有随机性又具有结构性,或空间相关性和依赖性的自然现象的一门科学。(汤国安,ArcGIS地理信息系统空间分析实验教程)•地统计核心:根据样本点来确定研究对象(某一变量)随空间位置变化的规律,以此来推算未知点的值。这个规律就是变异函数。地统计方法•变异函数基台值:反映最大变异情况,越高表明空间异质性越高;变程:空间相关性的作用范围,超出变程则空间相关性不存在;块金值:反映随机变化,受不确定性因素影响部分。地统计方法样本点1(1,5)100样本点2(3,4)105样本点3(1,3)105样本点4(4,5)100样本点5(5,1)115预测点(1,4)?如何确定权重??地统计方法γij表示两个样本点间基于距离的半变异值g向量表示预测点与每个样本点间基于距离的半变异值地统计方法半变异值=0.5*[第i点观测值-第j点观测值]2位置半变异值距离计算距离(1,5)(3,4)12.5Sqrt[(1-3)2+(5-4)2]2.236(1,5)(1,3)12.5Sqrt[(1-1)2+(5-3)2]2(1,5)(4,5)0Sqrt[(1-4)2+(5-5)2]3(1,5)(5,1)112.5Sqrt[(1-5)2+(5-1)2]5.657(3,4)(1,3)0Sqrt[(3-1)2+(4-3)2]2.236(3,4)(4,5)12.5Sqrt[(3-4)2+(4-5)2]1.414(3,4)(5,1)112.5Sqrt[(3-5)2+(4-1)2]3.606(1,3)(4,5)12.5Sqrt[(1-4)2+(3-5)2]3.606(1,3)(5,1)50Sqrt[(1-5)2+(3-1)2]4.472(4,5)(5,1)112.5Sqrt[(4-5)2+(5-1)2]4.123表1半变异值计算结果地统计方法分组(bining)步长间距样点对间距平均距离半变异值平均半变异值1-21.414,21.70712.5,12.512.52-32.236,2.236,32.49112.5,0,04.1673-43.606,3.6063.60650,12.531.254-54.472,4.1234.29850,112.581.2555.6575.657112.5112.5表2理论半变异值的步长分组地统计方法Variance=13.5*distance(1,5)(3,4)(1,3)(4,5)(5,1)(1.5)030.192740.576.371(3,4)30.19030.1919.0948.671(1,3)2730.19048.6760.371(4,5)40.519.0948.67055.661(5,1)76.3748.6760.3755.6601111110表3伽马矩阵Γ计算结果表地统计方法距离g向量(1,5)113.5(3,4)227(1,3)113.5(4,5)3.16242.69(5,1)567.51表4预测点(1,4)的g向量计算结果权重观测值乘积(1.5)0.4675710046.757(3,4)0.0983410510.3257(1,3)0.4698210549.3311(4,5)-0.02113100-2.113(5,1)-0.0146115-1.679(1,4)预测结果102.6218表5预测结果案例分析(数据准备)•臭氧:1996年加州193个监测点臭氧浓度值的点要素,单位是ppm(partspermillion)•城市:加州876个城市的点要素•目标:预测出每个城市的臭氧浓度值案例分析(ESDA结论)•臭氧浓度基本呈正态分布,右偏分布,分布曲线比正态分布略陡•数据在不同方向上呈现不同的分布趋势(各向异性),在东北-西南方向呈现明显的倒U型分布(中间高两边低)•高浓度地区集中在洛杉矶附近,因为该地区人口稠密,车辆比较多样本数最小值最大值平均数标准方差偏态系数峰态系数中位数1930.04650.17360.09920.0227220.503573.71920.09899案例分析•选择插值方法•拟合变异函数•邻域分析•交叉验证•生成表面•对未知点估值拟合变异函数•步长(lagsize)和numberoflags•不同模型的选择•各向同性(Isotropic)与各向异性(Anisotropy)拟合变异函数邻域分析•固定半径法•固定样本法(分区)交叉验证•验证模型有多好•对每一个样本点给出模型的估计值,比较误差生成表面模型比较•MeanError:平均误差•Rootmeansquareerror:均方根误差•Averagestandarderror:平均标准误差•Meanstandardizederror:标准化平均误差•Rootmeansquarestandardizederror:标准化均方根误差最优性:均方根误差较小有效性:平均标准误差和均方根误差接近小结•探索性空间数据分析•地统计与空间统计•地统计与空间分析感谢聆听!请关注培训中心更多精彩讲座
本文标题:87探索性空间数据分析 王双
链接地址:https://www.777doc.com/doc-5596545 .html