您好,欢迎访问三七文档
土地数据分析与建模实验报告汪帆2011306200513土规1202班(1)编程实现以下任务:将landprice中四类土地用途(变量yongtu_1)为C(商业)、CR(商住混合)、R(住宅)和P(工业)的出让样本点提取出来,并保存为一个新的数据集landprice1(即landprice的一个子集),然后分以上四种土地利用类型求取landprice1中的观测样本点的楼面价(变量名为loumianjia)的统计量(MEANS);(2)根据means过程步给出的结果对四种土地利用类型出让地块样本点的楼面价进行描述性统计分析,并进行对比(集中性、离散度、峰度、偏度)。注:在分析之前,可以进行极值检测,若存在极值,可在去除极值之后,再进行分析。要求给出程序、运行结果和描述性统计分析结果。实验步骤:(1)先导入数据菜单栏中:“文件/导入数据”,弹出如下对话框,图1.1。单击“next”,如图1.2。选择实验数据后,单击ok。弹出命名和选择逻辑库对话框,选择“work”,命名为“landprice”,最后在逻辑库中有如图1.3sas数据集。图1.1文件类型选择图1.2文件选择图1.3(2)四种类型样本点的抽选程序如下:程序1:datalandprice1;setlandprice;whereyongtu_1='C'oryongtu_1='CR'oryongtu_1='R'oryongtu_1='P';run;运行的结果如图1.4,图1.5所示图1.4筛选结果部分图图1.5(3)对四种类型的样本画散点图,以判断是否有极值点或者异常值出现程序如下:程序2:procgplotdata=landprice1;plotloumianjia*id;byyongtu_1;run;运行结果如图1.6-1.9所示:图1.6用途为C类的散点图分布图1.7用途为CR类的散点图分布图1.8用途为P类的散点图分布图1.9用途为R类的散点图分布通过观察发现,四类用途的楼面价除P类难以观察外,其余三类均存在异常值,故而需要用univariate程序段进行极值判断。(4)极值求取程序如下:程序3:procunivariatedata=landprice1;byyongtu_1;run;结果如下:图1.10用途为C的楼面价相关统计量计算上下截断点:下截断点:A=Q1-1.5*四分位极差=1627.937-1.5*2034=-1423.063上截断点:B=Q3+1.5*四分位极差=3662.392+1.5*2034=6713.392再将上面两种截断点与极值观测中的5个极小值和极大值进行比较发现:极小值点均在下截断点之上,故而无须删除;极大值点中的第25号(ID为161;13577.87)、14号(ID为95;9150.24)点均大于6713.392,故而删除。图1.11用途为CR的楼面价相关统计量与用途为C的楼面价类似,求得用途为CR的楼面价的上下截断点的值分别为:-188.709,4054.843。故而要删除的点除上述极大值表中的5个值(ID分别为:93,、195、241、162、218),还要删除ID为263、56、190、152、128、179的点。图1.12用途为P的楼面价统计量用途为P的楼面价上下截断点位置为:1208.923、-288.575。而通过比较,均无观测值超出该范围,故而该处无须删除点。图1.13用途为R的楼面价相关统计量用途为R的上下截断点为:4416.999、-1675.205,故而总共要删除如下点。ID号为:18821718521321696139180199101348133340194(5)对删除极值后的四种类型用地进行相关统计量的求取。按题目要求,程序如下:程序4:datalandprice2;setlandprice1;ifIDnotin(95161931952411622182635619015217918821718521321696139180199101348133340194);run;procsortdata=landprice2;byyongtu_1;run;procmeansdata=landprice2nmeanstdmedianskewnesskurtosisq1q3rangemaxmin;varloumianjia;byyongtu_1;run;运行结果如下图1.14-1.17所示。图1.14用途为C的相关统计量图1.15用途为CR的相关统计量图1.16用途为P的相关统计量图1.17用途为R的相关统计量(6)描述性统计分析(集中性、离散度、峰度、偏度)表1各类用途的统计量综合表用途均值标准差中位数偏度峰度上四分位下四分位半极差极差最大值最小值C2616.91288.242370.580.8890.4243437.911627.941809.975249.136023.81774.684CR1880.34725.7261812.680.8710.7322292.031337.01955.023411.144187.61776.462P588.451273.808513.0750.664-0.562781.05353.127427.923936.6761143.71207.031R1932.05806.0121755.910.8850.4232415.941358.481057.463729.34366.47637.17其中:C为商业用地、CR为商住混合用地、P为工业用地、R为住宅用地。1从均值来看:工业用地楼面价的均值最小,为588.451;商业用地的楼面价均值最大,为2616.9;住宅用地的楼面价均值第二高,为1932.05;商住混合用地的楼面价均值第三高,为1880.34。这一结果基本符合市场情况。2从标准差、半极差、极差来看:工业用地的标准差、半极差、极差都是最小的,分别为:273.808、427.923、936.676。标准差最小,表征工业用地相之于其他三类用地比,不同样本点之间的差异最小,即最为集中,或者说离散程度最小,最为稳定;同时半极差最小,表征中间半数观测值的散步也是最为集中,即离散程度最小;最后极差最小,表征工业用地的楼面价最高值和最低值之间的差距是最小的。商业用地的标准差、半极差、极差都是最大的,分别为:1288.24、1809.97、5249.13。与工业用地的离散情况恰好相反:观测点的楼面价离散程度最大,同时中间半数观测值的散步也是离散程度最大,楼面价的最高值和最低值之间的差距是最大的。住宅用地和商住混合用地的标准差、半极差、极差的大小分别排在第二和第三位置,对应的离散程度和最高值与最低值之间的差距也是在第二和第三的位置。3从分位数来看:商业用地有一半的数据楼面价在2370.58以上,商住混合用地和住宅用地只有中间一半的数据楼面价在(1337.01,2292.03),(1358.48,2415.94)区间内,而工业用地最大值也才1143.71。故而与前面均值一样,可以判断出商业用地的楼面价明显高于其他类型的用地,且工业用地的楼面价最小,这一结果印证了市场情况。4从偏度和峰度来看:四种用地类型的楼面价偏度均为正值,说明该四种用地类型的左侧数据更为集中,右侧数据更为分散,为右偏。并且从具体数值来看,商业用地的楼面价偏度为0.889,右侧数据最为分散,住宅用地紧随之,工业用地最小。就峰度而言,工业用地的楼面价偏度为-0.562,表征其尾部数据更为分散,为轻尾;而其他三类用地中的楼面价峰度均为正值,为厚尾。商住混合用地楼面价的峰度为0.732,尾部数据最集中;商业用地和住宅用楼面价的峰度分别为0.424和0.423,相差不大。
本文标题:土地数据分析与建模
链接地址:https://www.777doc.com/doc-5324825 .html