您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 第三章地理系统要素的统计分析
第三章地理系统要素的统计分析地理系统特征和性质通常是通过地理系统数据来表示的。地理数据可以分为数值数据和非数值数据两大类。本章主要讨论数值数据的某些处理方法及其地理意义。地理数据本身还不能直接刻划出地理系统的特性,必须对地理数据进行统计加工,计算要素在时间或空间变化的统计特征数据和反映这种变化规律的统计量。因为它描述要素的特征,因此又称为描述性统计(descriptivestatistics)。在地理研究中特别重视空间统计的概念。因为地理系统是地理与地理区域相对应的,即不同等级的系统都有它的空间分布范围,有一定的地域界线。所以,地理系统特性在区域上有性质的变化,它通常通过空间数据(spatialdata)反映出来。空间数据是反映地理差异的数据。第一节地理数据类型和地理数据矩阵在计量地理学中,经常要使用和接触许多的数据,这些数据往往能提供大量的、多方面的有用地理信息,据此可以发现和阐明地理系统的特征和规律性。地理数据是用一定的测度标准去衡量地理要素而取得的地理信息。不同的测度标准可以产生不同类型的地理数据,它们分别反映地理要素的不同特征。在统计分析上又往往应用不同的处理技术,因此了解地理数据类型及其测度标准是十分重要的。地理数据的来源地理数据资料的收集工作是十分重要的,它是统计加工和科学分析的基础。如果收集的资料计划不周,原始数据不准,往往会给统计分析造成困难,甚至得出错误的结论。因此,收集地理数据资料,必须保证其完整性和准确性。当取得大量的地理数据后,必须对这些资料加以汇总和整理,使之系统化、条理化,以便揭示其地理规律。地理数据的整理工作,大致可分为三步:检查资料、统计分组和绘制图表。1.检查资料:在整理资料前,首先要对原始资料和所抽取的样本资料进行详细的检查,以保证样本资料的代表性、完整性和准确性。2.统计分组:地理数据资料经检查后,即可进行分组整理。正确地选择分组标志是运用分组法的关键。统计分组就是根据地理事物内部特点和研究任务,按某种标志把自然和社会现象区分出不同类型或性质不同的组。3.频数分布图表的绘制某组的频数,是指原始地理数据出现在该组内的次数,各组频数的和应等于数据的总和。频数分布表可分为分组频数分布表和不分组频数分布表。频数分布图的绘制地理数据可以分为定量数据和定性数据两类。定性数据又可以称为名义尺度数据。一.定量地理数据在地理学中有大量问题是可以用数量来表示的。例如温度、雨量、流量、人口、土地面积、钢铁产量等等,这此都是定量变量,表达定量变量的数据称为定量数据。(一)间隔尺度数据(intervalscale)这种数据是以连续的量来表示地理要素。根据地理要素的不同性质,它采用不同的度量单位作为标准。间隔尺度数据是地理数据类型中最常见的一种,一般统计分析方法都以这类数据作为基础。(二)比例尺度数据(ratioscale)这种数据也是以连续的量来表示地理要素,但它必须事先规定一个基点,这个基点可以是间隔尺度数据的某一个量。作为基点的量又可以用0或100、1等表示,其它的量换算成为它的比例。因此,比例尺度数据常常又称为指数或百分比。在统计分析中,一般可以用于间隔尺度数据的技术也可以用于比例尺度数据。二.定性地理数据定性数据表示地理现象或要素只有性质上的差异,而没有数量上的变化。例如,天气可以分成晴、阴,性别可分成男、女,职业可分出工人、职员、教员等,这些变量可称为定性变量。定性变量在许多地理问题中是很重要的。表达定性变量的数据,称为定性数据。定性数据虽然没有数量上的差别,但是通过“数量化方法”,可对一定的地理现象或要素予以“赋值”。其赋值方法通常采用二分法,即以二元数据0和1来表示,还可用其它方法来表示。定性数据根据其测度标准分三种:有序数据(ordinal)二元数据名义尺度数据(一)有序数据当测度标准不是用连续的量,而只表示其次序关系的数据,称为有序尺度或等级尺度数据。它不表示具体的数量是多少,而是给出一个等级或次序。有序尺度数据的统计分析技术常与间隔尺度数据、比例尺度数据这两种数据的统计分析技术有明显的差别。(二)二元数据即0-1数据。它表示地理要素性质,以列成矩阵的0、1变量表示,变量数取地理要素性质类型数据减1,即(N-1)。通过二元数据矩阵,可以把地理要素的定性数据和定量数据联系起来进行数量分析。这种方法又称为数量化方法,是二十世纪七十年代以来的数据处理技术。(三)名义尺度数据(nominalscale)它可以用文字或字符表示,是用以表示地理要素的类型的数据。它的统计分析技术与间隔尺度数据、有序数据分析技术有显著差别。地理数据是由定量地理数据或定性地理数据(或其两者)列成的矩阵,其列可以是地理要素的时间或区域单位,反过来其行也可以是地理要素的时间或区域单位。地理数据和地理数据矩阵是地理系统分析的素材。在地理系统分析中,首先必须根据分析要求收集或测量、统计地理数据,列成地理数据矩阵。各种尺度的数据都可以在计算机中存取,按一定的处理技术进行各种操作或运算。最常用的仍然是二维的地理数据矩阵。在考虑时间时,只是把每一时段视为一个文件来处理。第二节地理调查中抽样方案的设计为了准确、及时、全面、经济地搜集统计分析所需的原始资料,应根据不同的调查对象和调查目的,选用各种不同的调查方式。地理要素的调查对象比较复杂,对其进行的调查,一般均采用非全面调查(抽取部分重点、重要的要素),而不采用全面调查(全部要素)。许多地理要素的数据可以从统计主管机构收集,但除了这些系统统计数据外,根据地理研究工作的需要,进行一定范围内的路线或区域的典型调查是常用的方法。这种典型调查往往属于抽样调查。因此,抽样方案的设计、典型样本个数的确定及数据分组等对地理分析的质量有显著影响。一.地理调查中抽样方案的设计典型调查中可以采用下述几种不同特点的抽样方案:典型调查的抽样方案1.随机抽样把地理调查单位编码,利用随机数据表或随机函数确定典型调查样本。2.机械抽样对编码后的地理调查单位按照固定的间隔确定为典型样本。3.分组随机抽样和分组机械抽样这种抽样方法是先把全部地理调查单位按其性质差异分成若干组,然后再进行随机抽样或机械抽样。二.调查样本规模的计算当地理要素的平均状态由典型调查确定时,必须考虑有多少个典型调查单位才能代表总体,这种能代表总体的抽样个数称为样本规模。样本规模与我们选取的可信度要求和标准误差、对要素数值作估计所要求的精度有关。在抽样的必要样本个数计算中,我们都是采用重复抽样计算公式。这样做,计算简便,所得的样本数大于重复抽样计算公式所得的结果。因此,对调查精度不会有影响。在实际地理调查中,典型样本抽取的个数以及样本标准差S的计算时,抽取的样本数都涉及工作所允许的人力、物力、财力的限度,必须根据工作量和实际可能作适当的平衡。三.数据分组数确定在确定了典型调查所必须的样本规模并得到各样本的数据后,在进一步分析数据之前,还要考虑这些样本应分为多少组为宜。因为分组数不同,可能会得出不同的分析结果。在调查样本较多的情况下,要素的数值多接近于正态分布,这时,样本规模N与分组数K应满足渐近的最优关系。在确定了抽样方案、样本规模及其适当的分组数之后,我们就可以进行进一步的分析。第三节地理数据统计特征值一.频数与频率我们所利用的统计资料,往往是一组数值或几组数值,这些数值是地理系统要素的数量表现,我们称这种数值为变量。在地理系统分析中,变量是指随时间或空间而变化的某种要素或几种要素的数量特征。这些数据一般都是间隔尺度数据或比例尺度数据。1.频数与频数分布直方图把变量按大小顺序依次排列,并按一定的间距进行分组。变量在各组出现或发生的次数,称为频数。频数分布直方图就是表示频数分布状况的统计图。相对频数和相对频数分布表相对频数分布直方图相对频数分布曲线2.频数或频率分布表、分布直方图是分析地理要素以及表示这种特征的方法,这种方法可以应用于许多问题的分析和表示。二.平均值、数学期望、中数和众数1.平均值或平均数反映随机变量取值的集中位置,用以表示地理要素在时间或空间分布上的集中位置。2.数学期望数学期望在数理统计是有严格的定义,在应用时,往往就把加权平均数称为数学期望,通常以E表示,有时也用M表示。其中,权数就是地理要素出现的频率。显然,数学期望就等于变量数值分别乘以其出现的频率,然后求和。如果权数不等于频率,就称为加权平均数。3.中数中数表明一种地理要素可能以大于等于1/2的概率出现时的数值,这对分析地理问题是有意义的。4.众数众数就是有最大可能出现的数值。众数可能不是唯一的。以上各种统计特征数,都是用来表示地理现象的数值表现的集中位置,用不同的统计量描画不同类型的集中位置。三.极差、离差、方差与标准差、变差系数在分析地理数据时,不但要找出它的集中位置,而且也要查明这些数据的离散程度,即它们对于中心位置的离散程度,还需要分析它们的变化范围。1.极差一种地理要素的数值,其最大值与最小值的差值称为极差,它表示这个地理要素的取值范围。2.离差与离差平方和离差表示各数值与其平均值的离散程度,用d表示。d=xi-x离差平方和d2=∑(xi-x)23.方差、均方差、标准差方差是均方差的简称,它是以离差平方和除以变量个数而得到的。标准差б则是对方差开平方所得。4.变差系数变差系数也称变异系数,用它来衡量地理要素在时间与空间上的相对变化(波动)的程度。Cv=(S/X)×100%式中:s-标准差第四节地理要素的分布特征参数及其计算地理要素在时间和空间的分布特征可以用概率分布函数来描述。概率分布函数的一阶导数称为概率密度,或称密度函数。密度函数的特征参数称为分布特征参数,常用偏度系数和峰度系数来衡量分布特征。一.地理要素的分布特征参数1.标准偏度系数(g1)标准偏度系数即三阶中心矩,它表示要素分布的不对称性。2.标准峰度系数(g2)用四阶中心矩可以表示密度函数的凸平度,其含意是地理要素的时间、空间分布在均值附近的集中程度,称为标准峰度系数。二.相关特征参数的计算要素本身在时间上或空间上的相关,称为时间或空间自相关。两个要素之间的相关程度可以用相关系数测度;要素在时间顺序上或空间顺序上的相关,则可以用线性时关系数测度。1.线性相关系数(空间或时间自相关)线性相关系数用以分析在区域(或时段)1,2,…,K内地理系统要素是否存在线性相关关系。2.线性时关系数线性时关系数是描述要素数值与其顺序之间关系的统计量,这种顺序可以是时间顺序或空间顺序。3.两要素间的相关系数两个地理系统要素在区域或时间分布上有线性相关关系由相关系数给出。如果考察地理系统中一一对应的相关系数,则形成相关关系矩阵,这在地理研究中应用广泛。4.SPEARMAN等级相关系数上述相关系数都是针对地理要素本身或相互之间存在线性关系的情形。对于两者存在等级上(量级上)的相关,则多采用SPEARMAN等级相关系数。计算时首先要对要素数值划分等级,可取最大的一组为1,依次随数值递减而等级增加。数据直接为等级数值时,则可直接计算。等级相关既可用于测度线性相关的程度,又可用于测度非线性相关的程度。三.分组数据的平均值与标准差计算我们收集的地理数据可以是一个个单独的数据,也可能是已经分成组,只知道组间距、分点数据和频数的数据。对这类数据,即已经经过加工的数据,则采用下列方法来计算其平均值和标准差:1.分组数据的近似平均值计算计算这类数据的均值采用假定中项离差的方法。假定中项应满足:出现频数最大和最接近于平均值。该项记为0,高于则依次为+1、+2、+3,低于则记为-1、-2、-3。2.分组数据的标准差计算第五节统计量的构造各种统计特征数或统计量在地理系统研究中的应用,其意义是很明显的。有了各种统计量,就可以定量地刻划某种地理要素特征,并且可以使其时间与空间差异的对比采取数值形式,还可以对各要素之间的关系作定量分析。因此,在地理系统研究中,由于实践和理论工作的需要,总是不断地构造出反映各种系统特征的新的统计量,这也与物理学中不断构造和采用各种物理量一样。统计特征数,各种地理统计量的不断产生及其应用,也可以说是地理学发展的一个重
本文标题:第三章地理系统要素的统计分析
链接地址:https://www.777doc.com/doc-2181836 .html