您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 基于LandSet8数据的决策树分类
基于LandSet8数据的决策树分类—以平潭地区为例1、引言早在20世纪70年代,人们就开始靠目视解译进行遥感影像的分类判读。20世纪80年代,主要利用统计模式识别方法,依据地物的光谱特征对影像进行计算机分类。20世纪90年代以来,出现了大量的遥感影像分类方法,如面向对象的分类方法、多源信息的复合分类法、遥感与GIS的结合法、人工智能分类法等。由于目前遥感影像的分类方法多而杂,故本文结合课程需要,仅对辅以纹理、NDVI、MNDWI、MNDBI、地表温度、DEM等数据的决策树分类方法进行讨论,并对分类的精度进行了评估。2、实验原理本文采用决策树分类方法进行地物类别的划分,目前决策树分类法包括:1)CLS算法。CLS算法于1966年提出,成为后来许多决策树学习算法的基础改进算法。它的主要思想是通过不断增加新的判定结点改善原决策树的分类性能,直到训练样本集被正确分类为止。2)ID3算法。ID3算法是最早和最有影响力的决策树算法之一,绝大多数决策树算法都是在它的基础上加以改进得以实现的。ID3算法具有描述简单、分类速度快的优点,计算量相对较小,适合于大规模数据的处理。但效率非常低,而且学习简单,逻辑能力较差,难以表达复杂概念,抗噪性差。3)CART算法。CART算法是一种数据勘测和预测算法。CART算法具备多种决策树算法的功能和优点,并且能处理其他算法不能处理的非数值型数据,是决策树模型的典型代表。4)C4.5及C5.0算法。C4.5算法是目前被普遍采用的分类算法。其分类的方法是从大量样本中提取分类规则的自上而下的决策树。C5.0是在C4.5基础上发展起来的决策树生成算法。它和算法C4.5基本相似,只是对C4.5的一些局限做了改进。C5.0增加了Boost技术,较C4.5可以更好地处理大数据库,最后生成更准确的决策树,提高分类精度。而本次分类则采用ENVY软件中的C4.5决策树分类算法。3、相关研究进展目前对于运用决策树分类方法进行行业应用与研究,也存在着大量的示例,如Chasmer[1]等以加拿大西北地区的ScottyCreek流域为研究区,借助机载激光雷达和高分辨率的光谱数据集,研究不连续冻土区的土地覆盖类型,并与WorldView-2的土地覆盖监督分类结果进行对比;在该研究中Chasmer等采用决策树的土地覆盖分类方法,把研究区分为冻土高原、沼泽、沼地、高地和水(池塘、湖泊)等5类;结果表明,与平行六面体分类方法相比,决策树这种分层次的分类方法分类精度高,能解释研究区内土地覆盖类型88%-97%的区域范围。Teodoro[2]等运用决策树分类方法,利用Ikonos-2影像进行葡萄牙西北海岸的海滩特性/模式分类;其根据沿海特性的相关知识,把研究区域分为海洋、悬浮沉淀物、断裂区、滩面、海滩等五大类;研究过程中数据被随机分为训练数据集和验证数据集,通过对比几种决策树算法的混淆矩阵、总体精度和Kappa系数的值,发现CART算法是最适用于本次研究的;同时把该算法的分类结果与神经网络算法进行了比较,发现分类结果基本一致,因此Teodoro等认为CART算法可用于海滩特性/模式分类的进一步研究。Sharma[3]等借助开源技术的支持,构建了一个决策树分类算法进行遥感卫星数据(LandsatTM)的分类;该算法是利用开源的数据挖掘软件WEKA根据训练数据集光谱特性进行递归分区;将该算法的分类结果与传统的ISODATA聚类方法和最大似然分类法进行比较,发现决策树分类算法的分类结果明显优于比其他两种方法。4、实验方案4.1数据来源美国地质勘测局()Landset8数据(成像时间:2013年8月4日2点34分;行列号为119,42;云量覆盖度为1.21%)传感器:OLI(OperationalLandImager,陆地成像仪)TIRS(ThermalInfraredSensor,热红外传感器)OLI陆地成像仪序号波段(um)空间分辨率(m)10.433-0.4533020.450-0.5153030.525-0.6003040.630-0.6803050.845-0.8853061.560-1.6603072.100-2.3003080.500-0.6801591.360-1.39030TIRS热红外传感器1010.6-11.21001111.5-12.5100地成像仪(OLI)包括9个波段,空间分辨率为30米,其中包括一个15米的全色波段;热红外传感器(TIRS)包括2个热红外波段,空间分辨率为100米,下载自地理空间数据云的level1数据已经重采样成30米。4.2研究区域研究区域为平潭地区的海坛岛,卫星过境时间为2013年7月12日02时28分35秒。4.3技术流程图4.4数据预处理4.4.1辐射校正(包括辐射的定标和大气校正)A、辐射定标前影像植被区域的光谱信息B、辐射定标后影像植被区域的辐射亮度值C、大气校正(采用ENVY中的FLAASH大气校正模型)注:在上图的1中输入影像的中心经纬度坐标;在2种输入影像所在区域的平均高程;在3中输入卫星的过境时间;在4种输人大气模型,这里选择中纬度夏天;在5种输入气溶胶模型,这里选择沿海。D、大气后影像植被区域的光谱反射曲线E、植被光谱曲线在辐射定标前、辐射定标后、大气校正后的对比:原始影像辐射定标后大气校正后从上图植被的光谱反射率在辐射定标前后和大气校正后的光谱曲线可以看出,经过FLAASH校正的影像基本去除了空气中水汽颗粒等因子的影响,植被的波谱曲线趋于正常。4.4.2植被指数NDVI计算NDVI=(NIR-R)/(NIR+R);对应于landsat8中的OLI传感器为第5波段和第4波段。注:上述NDVI已经经过异常值的剔除。原始数据中有极少量的值为小于-1的情况,利用ENVY中的bandmath工具对这些值全部赋为-0.7。4.4.3改进型水体指数MNDWI计算MNDWI=(Green-MIR)/(Green+MIR);对应于landsat8中的OLI传感器为第3波段和第6波段。注:上述MNDWI已经经过异常值的剔除。利用ENVY中的bandmath工具对那些异常极少量的大值和小值分别赋值为0.9和-0.9。4.4.4地表温度的反演对地表温度的反演目前方法很多,如大气校正法,劈窗算法、单窗算法,单通道法等等。本文介绍用辐射传输方程法对地表温度进行反演。辐射传输方程法,又称大气校正法,其基本思路为:首先利用与卫星过空时间同步的大气数据来估计大气对地表热辐射的影响。然后把这部分大气影响从卫星高度上传感器所观测到的热辐射总量中减去。从而得到地表热辐射强度.再把这一热辐射强度转化为相应的地表温度。步骤流程:第一步:准备数据(1)NDVI(2)OLI传感器的第10波段热红外数据,经过辐射定标。第二步:地表比辐射率计算第三步:计算相同温度下黑体的辐射亮度值第四步:反演地表温度A、植被覆盖度计算FV=(NDVI-NDVIS)/(NDVIV-NDVIS);式中NDVIv和NDVIs,分别是植被与裸土的NDVI值。结合研究区实际情况,选取NDVIv=0.58,NDVIs=0。当某个像元的NDVI大于0.58时,FV取值为1;当NDVI小于0,FV取值为0。B、地表比辐射率计算根据前人的研究,将遥感影像分为水体、城镇和自然表面3种类型。本研究采取以下方法计算研究区地表比辐射率:水体像元的比辐射率赋值为0.995,自然表面和城镇像元的比辐射率估算则分别根据下式(1)(2)进行计算:εsurface=0.9625+0.0614FV-0.0461FV2(1)εbuilding=0.9589+0.086FV-0.0671FV2(2)式中,εsurface和εbuilding分别代表自然表面像元和城镇像元的比辐射率。C、计算相同温度下的黑体辐射亮度值Lλ=[ε·B(TS)+(1-ε)L↓]·τ+L↑(3)B(TS)=[Lλ-L↑-τ·(1-ε)L↓]/τ·ε(4)式(3)卫星传感器接收到的热红外辐射亮度值的计算公式;式(4)温度为T的黑体在热红外波段的辐射亮度的计算公式。参数说明:ε:地表辐射率;TS:地表真实温度;B(TS):普朗克定律推得到的黑体在TS的热辐射亮度;τ:大气在热红外波段的透过率;L↑:大气向上辐射亮度;L↓:大气向下辐射亮度;在NASA官网()中输入成影时间以及中心经纬度,则会提供上式中:τ:大气在热红外波段的透过率;L↑:大气向上辐射亮度;L↓:大气向下辐射亮度;参数值τL↑L↓0.524.2W/(m2·sr·μm)6.17W/(m2·sr·μm)注:黑体辐射亮度值D、反演地表温度在获取温度为TS的黑体在热红外波段的辐射亮度后,根据普朗克公式的反函数,求得地表真实温度TS:TS=K2/ln(K1/B(TS)+1)对于OLI传感器,K1=774.89W/(m2·sr·μm),K2=1321.08K。查阅平潭当天的历史天气为晴,温度为33度。同时检查温度反演结果,发现温度在30度以下的区域只占1%,温度在46度以上的也只占了1%;因此结合当天的天气情况,认为地表温度反演结果还是可信的。通过比照原始影像,发现温度大约在42度以上的区域为建筑物和裸地,这为后续进行决策树分类区分地物提供了基础。4.4.5纹理测度的计算纹理是在某一确定的影像区域中,相邻像素的灰度或色调、颜色等服从某种统计排列规则而形成的一种空间分布。图像的纹理是有组织的区域性特征,可定性地用以下一种或几种描述来表征:粗细度、对比度、方向性、线性性、规则性、粗糙度、凹凸性等。对于纹理特征的提取目前方法很多,大致可以归结为四大类:统计分析方法、结构分析方法、模型化方法以及空间/频率域联合分析法。本次研究采用基于统计的灰度共生矩阵(GLCM)方法进行纹理特征的提取。灰度共生矩阵(GLCM)建立在估计图像的二阶组合条件概率密度函数的基础上,通过计算图像中有一定距离和一定方向的两点灰度之间的相关性,来反映图像在方向、间隔、变化幅度及快慢上的综合信息。灰度共生矩阵提供用来定量描述纹理特征的统计属性,包括表达可视纹理的特征(局部平稳性,对比度,非相似性),基于信息论的特征(熵),基于统计的特征(均值,变化量,能量)和基于相关度的特征(相关)。利用ENVY中提取纹理信息关键在于:分析窗口半径的确定、分析窗口移动步长的确定、分析波段的确定、纹理特征指标的选择。3*3窗口5*5窗口7*7窗口9*9窗口通过实验对比,本文采用3*3窗口,步长设置为1,波段选择landset8数据的第3波段的均值(mean)纹理信息进行决策树的分类。纹理信息图如下所示:4.4.6海坛岛DEM数据4.4类别的定义结合海坛岛实际地物特征,现对划分的地物类别就行规定:Bareland:指遥感影像中对应的白色裸地,包括裸沙和裸露的大面积未利用地,如下图红色范围部分。Nudation:指遥感影像中表现为红色的地块,这种地块表面生长有一些植被,但是大部分也还是裸露的地表。如下图的红色勾勒区域。Bareland1:指道路中参杂着植被像元的裸地。如下图的红色勾勒区域。Water:指水库水塘,沿海的养殖海域。如下图的红色勾勒区域。Lowcrop:指高程低于100米的耕地。如下图的红色勾勒区域。Moutain_crop:指高层高于100米的耕地。如下图的红色勾勒区域。Lowforest:指高程低于30米的平原林地。如下图的红色勾勒区域。Hightforest:指高程高于30米的山中植被。如下图的红色勾勒区域。4.5、决策树规则建立本次分类采用决策树方法进行地物类别的划分,用到的数据有MNDWI(改进型的水体指数)、NDVI(植被指数)、MNDBI(改进型建筑指数)、反演的地表温度、DEM、第3波段的纹理测度、多光谱波段的第2和第3波段。(1)、运用MNDWI指数进行水体类别的划分。经过反复的实验,发现把MNDWI值设定为0.42左右时可以很好的区分水体与非水体。类别像元数最小值最大值平均
本文标题:基于LandSet8数据的决策树分类
链接地址:https://www.777doc.com/doc-5821845 .html