您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 空间相关性与分类比例在不同抽样设计中对准确性测量的影响——翻译
空间相关性与分类比例在不同抽样设计中对准确性测量的影响DongMeiChen_,HuiWei加拿大,金士顿ONK7L3N6,皇后大学,地理系摘要:本文仿真了四幅结合两种空间相关性标准、两种不同的分类比例的二进制的专题图以研究借助不同抽样设计的分类准确性效果。11种抽样类型(从25到1296)按3种常用的抽样设计,包括简单随机抽样(SRS),系统抽样(SYS),分层随机抽样(StrRS)在4幅仿真地图上被仿真。常见的误差矩阵和相关的准确性度量也被考虑进每一个仿真中。同时,3种抽样设计的不同精度估计也相互比较。某一特别的抽样方法和抽样类型的选择依赖于空间相关性的程度、分类比例的差异以及应用中所需的精度要求。通常,一幅地图分类比例的差异比空间相关性对抽样方法的效果影响更大。对于估计个体类的精度,特别在小型类中StrRS的效果比SRS和SYS的效果更好。对于估计总精确度,不同的抽样设计的效果相似。为了得到更好的KAPPA系数,推荐StrRS用于高类别比例差异的地图,推荐SRS用于低空间相关性和低类别比例差异的地图。关键词:精度评估;分类误差;抽样;分类比例1.引言随着遥感技术的发展,从遥感数据得到的专题地图被广泛应用于不同的环境建模,监控,以及计划中。但这些专题地图通常不能完美的代表现实,还常常包含误差和不确定性(Foody,2002)。在设计中使用这样的地图却不知道其中的误差和不确定性会导致严重的风险。因此,在最近10年,对专题地图的准确性评估的需要不断增长(CongaltonandGreen,1999;CongaltonandPlourde,2002;Congalton,2002;Foody,2002;LunettaandLyon,2004;StehmanandCzaplewski,1998)。基于遥感的专题图的精确度涉及到一幅地图或分类的正确性(Foody,2002),或者涉及导出信息与参照数据(或地面实况)相吻合的程度(Campbell1996)。常用的估计遥感专题图准确度的方法是比较参照数据和专题图。由于时间,花费上的限制,以及物理访问的权限,想要获得地图上所有像素上的参考信息是不实际的,因此常常需要抽样参考数据。一旦搜集到参考数据以后,它们会和地图中此类数据对比,从定量精度指数产生误差矩阵,例如总体准确度、用户准确度、生产准确度等,另外也能计算出总体和个体的KAPPA系数(Congalton,1991;Congalton和Green,1999)。抽样方法和抽样量(或抽样大小)是两个决定精度评估的效率和花费的最重要的因素(Jensen,1996)。现在已经有很多发表的方程和指导方针以确定合适样本量的选择(Cochran,1977;Jensen,1996)。其中,二项分布和二项分布的正态常数经常用于计算所需的抽样大小(Congalton,1991)。然而,这些方程是基于正确的分类抽样的比例和某些允许的错误,可能并不合适产生一个误差矩阵(Congalton,2004)。当前的文献不能提供一个一致所需最小样本量的方法。Genderenetal(1978)表示,为了接受派生专题图95%的置信区间,至少需要30大小的样本量。Ginevan(1979)和Hay(1979)按更加保守的方法,得出最小样本量应为50,以避免拒绝一个精确的地图。Congalton(2004)根据经验推荐每个类的误差矩阵最少使用50的样本量。然而,在研究大型区域或一幅地图存在大量类别时最小样本量应该增加到75-100(Congalton,,2004)。不同的抽样方法被用来选择抽样单位以进行地图精度评估。常用的方法包括简单随机抽样、分层随机抽样、系统抽样、系统随机抽样、系统不对齐抽样和集群抽样(Cochran,1977;Congalton,1977;Stehman,1992)。Congalton(1988b)在三幅不同的土地覆盖地图上比较了五个抽样方案(简单随机抽样、分层随机抽样、系统抽样、系统随机抽样、系统不对齐抽样)不同的空间复杂性。他的结果表明,根据地图的空间复杂性,简单随机抽样在样本容量足够大时总能提供足够的估计,而系统抽样和分层系统不对齐抽样会高估分类误差及其方差。Stehman(1992)指出,Congalton对系统抽样偏见的结论与Maling(1989)和Berry和Baker(1968)认为分层系统不对齐抽样是最公正的抽样设计的观点互相矛盾。基于使用两个精度措施(误分整体比例,kappa系数协议)的仿真研究,Stehman(1992)发现,除了具有周期模式的地图,系统抽样比简单随机抽样更为精确。然而,在专题地图的精度估计中比较了5中抽样方法的效果后,Lo和Watson(1998)得出的结论是,分层随机抽样最为适合混有简单和复杂空间模式的植被地图。上述研究中对立的结论突出了一幅的地图空间模式和复杂性对不同抽样方法效果的影响。.之前的研究表明,从遥感分类地图生成的图片往往是空间自相关的(Congalton,1988a;Hypannen,1996;Pugh和Congalton,2001)。空间自相关涉及相邻像素之间分类结果的相关性,并且与地图上周期性或空间模式有关。Congalton(1991)指出,现有专题地图上存在的空间相关性将推翻大多数取样方法中样本独立性的假设。若不考虑分类地图上空间自相关的影响,可能导致抽样设计对估计精度的偏差(Campbell,1996;Congalton,1988a,2001;Foody,2002;Pugh和Congalton,2001;Stehman,2004a)。几个研究人员对空间自相关抽样设计和分析精度评估中潜在的负面影响表示担忧(Congalton和Green,1999;Dicks和Lo,1990;Mulleretal.,1998;Stehman,2000)。更高空间分辨率图像产生的地图导致空间自相关水平增大,导致空间自相关精度评估这个问题变得更加严重(Chenetal.,2004;Congalton,1988b;Stehman,2000)。Congalton(1988b)表示,系统和分层系统抽样的设计应避开这些具有高空间自相关性的地图。先前大多数关于最佳采样策略和适当样本量的结论都是基于总体精度(或误分类的总体比例)和/或kappa系数的实证检验。然而,人们却很少关注个体类的准确性。遥感图像生成的分类地图包括多个类,不同类别的比例可能会有所不同。Rosenfieldetal.(1982)和Congalton与Green(1999)推荐在抽样中应特别注意那些小型,却很重要的类。然而,很少有研究检查在不同的抽样方法中,涉及到个体类的准确性时,空间自相关和类别比例以及整体精度和/或kappa系数对结果的共同影响。本研究的目的是通过仿真实验检查空间自相关和类别比例是如何影响精度评估中抽样方法和样本量的选取。研究中控制图像的分类错误生成了若干仿真图像,让它们代表不同空间自相关程度和类别比例的分类地图。本文估计的抽样方法仅限于简单随机抽样(SRS)、系统抽样(SYS)和分层随机抽样(StrRS);按照个体类、总体精度、kappa协议系数分析结果。2.方法论2.1.具有不同类别比例的空间自相关地图仿真仿真的第一步是生成具有不同空间自相关程度的参考地图。在ArcGIS中,结合创建随机栅格、焦点均值分析和重分类函数,生成两个代表高(H)和低(L)自相关程度的模型即可完成。首先,使用创建随机栅格函数生成一幅属性值从0到1的500*500随机栅格图像。500*500大小的选择兼顾了计算效率和实践中的图像尺寸。接着,应用具有不同邻域大小的焦点均值分析函数生成具有某些高或低自相关程度的随机图像。生成高自相关图像,应用3*3、9*9、16*16的窗口,而生成低自相关图像只用3*3、9*9的窗口。对每个焦点进行分析后计算结果图像Moran'sI,检验新派生的图像是否达到所需的空间自相关程度。为了简化分析,从焦点分析得到的图像的值经阈值判断分为两类(Class1和Class2)。这个阈值由每幅地图设计的分类比例决定的。例如,准备生成一幅90%像素属于Class1,10%属于Class2的二进制地图,如果地图上有90%像素的值小于0.7,那么阈值可设为0.7,这样小于0.7的值划分为Class1,剩下的就划分为Class2。这个简化的地图是地图上任何被抽样个体点的二进制代表。例如,如果一个森林类被抽样,那么,地图上的所有其他类可以被重新归类为非林地类。先前的研究已经表明在决定适当的抽样方法和样本量时小型类是一个关注点(Congalton,1991;Congalton和Green,1991;Rosenfieldetal.,1982)。因此,对应于每个空间自相关程度,各生成一高一低两幅类别比例差异图。在两幅类别比例差异高的地图上,大约90%的像素被分为大型类(Class1),另外的10%分为小型类(Class2)。两幅低类别差异图(H46和L46)的两类类别比例几乎相等(约60%的像素归为Class1,40%的像素归为Class2)。结合空间自相关程度和类别比例,仿真生成了四幅500*500专题地图(H91、L91H46和L46),如图1所示,表1列出了详细的配置。这四幅地图表示了四种类别比例(10%,10%,40%,和90%)和两种空间自相关程度(Moran'sI0.20和Moran'sI0.80)的8种示例。四幅仿真图的Moran'sI相关图如图2所示。图1.仿真空间自相关性的参考图:(a)高空间相关性和高类别比例差异(H91);(b)高空间相关性和低类别比例差异(H46);(c)低空间相关性和高类别比例差异(L91);(d)低空间相关性和低类别比例差异(L46)。黑色为Class1,白色为Class2。表1仿真参考图的参数仿真地图空间相关性(Moran'sI)Class1Class2H910.880.900.10H460.900.590.41L910.180.900.10L460.060.580..42仿真图像被用来代替真实图像的原因是,很难获得一系列具有可控空间自相关程度和类别比例的分类参考图像。在实际图像中,因为很难控制空间自相关程度和错误的百分比,会使系统分析变得困难。通过仿真的图像,我们可以控制空间自相关的程度并且在所有图像上产生恒定的错误。通过这种方式,任何在输出中的差异就只由可控制因素的变化而决定。2.2.分类误差的注入先前的研究指出,由分类所产生的误差并非随机分布在专题地图(Bian和Butler,1999;Congalton,1988b)。通常会存在一个由传感器的属性所造成,对应于专题错误之空间分布的清晰模式(Foody,2002;Plourde和Congalton,2003),和/或在分类边界有空间性关联且存在误差的地面条件(Congalton,1988b,Edwards和Lowell,1996;鲍威尔etal.,2004;Steeleetal.,1998)。大多数发生在边界的错误与标准数据集和混合像素的误差配准有关。鉴于上述考虑,本研究中使用的仿真地图使用频率分布模型仿真注入在分类边界附近区域的误差。每幅地图中大约注入了误差的20%作为分类误差,这个误差比例往往存在于监督和非监督分类中。不同地图中注入的误差模式如图3所示。注入误差的地图被视为分类地图;没有注入误差的原始地图被视为参考地图。表2详细展示了每一幅分类地图的分类错误和准确性措施,Class12表示Class1的误差注入Class2,Class21表示Class2的误差注入Class1,正确分类的Class1和Class2分别表示为Class11和Class22。图2.四幅仿真参考图的相关图(X-轴:滞后距离,单位像素;Y-轴:按Moran'sI测算的空间自相关程度)。(H46:高空间相关性和低类别比例差异;H91:高空间相关性和高类别比例差异;L46:低空间相关性和低类别比例差异;L91:低空间相关性和高类别比例差异)。表2注入误差的仿真地图
本文标题:空间相关性与分类比例在不同抽样设计中对准确性测量的影响——翻译
链接地址:https://www.777doc.com/doc-419309 .html