您好,欢迎访问三七文档
实验目的:探讨农产量、农村人口、播种面积、受灾面积、农村机械总动力的关联性。数据来源:国家统计数据库导入数据:农产量(万吨)农村人口(万人)播种面积(千公顷)受灾面积(千公顷)农业机械总动力(万千瓦)北京市124.77263226.2914.6271.54天津市156.29270306.6458.533333595河北省2910.1740096216.52627.59861.12山西省94218513146.671786.52655.0425内蒙古自治区1981.7112954244770.3633332891.64辽宁省159117123124.12171.7866672142.93吉林省246012794427.72670.632001.13黑龙江省4353.01170311391.037393.73401.27上海市121.68219193.2716.399.2258江苏省3230.134305272.041202.63810.57浙江省789.1521811290.09463.3133332384.03安徽省3069.87248435506605.5683842101.325108.85福建省666.86111217631231.012133265.6933331175.0092江西省2002.5625183604.61351.6766673358.93山东省4316.348947030.092341.8711080.66河南省538959109683.612987.3533339817.843湖北省2309.130894012.531827.13057.24湖南省2902.736394799.11824.874352.39广东省1314.535282538.5643.32190.177广西壮族自治区1463.229523067.51109.612550.9337海南省187.604049440430.433876119.9396.07重庆市1137.213842229.49495.1967.41四川省3194.650176419.41598.7633332952.66贵州省1168.2726632984.73779.8666671606.4196云南省1576.9230174200.131667.5233332159.402西藏自治区90.53221169.4353.04358.44陕西省1131.421313133.9733331220.6666671832.9785甘肃省906.217752740.031880.7966671822.65青海省102.69324275.72159.58388.68宁夏回族自治区340.7337826.88365.533333702.55新疆维吾尔自治区115212991984.71244.31503.31全国53082.07764568497108985.757747213.68999987496.1013实验过程:①生成数据集(以下均为2009年数据,number为各个省、直辖市、自治区代号,y为农产量(单位:万吨),x1为农村人口(单位:万人),x2为播种面积(单位:千公顷),x3为受灾面积(单位:千公顷),x4为农业机械总动力(单位:万千瓦)):dataexperiment;inputnumberyx1x2x3x4@@;cards;1124.77263226.2914.6271.542156.29270306.6458.5359532910.1740096216.52627.59861.12494218513146.671786.52655.0451981.7112954244770.362891.646159117123124.12171.792142.937246012794427.72670.632001.1384353.01170311391.037393.73401.279121.68219193.2716.399.23103230.134305272.041202.63810.5711789.1521811290.09463.312384.03123069.8735506605.572101.325108.8513666.8617631231.01265.691175.01142002.5625183604.61351.683358.93154316.348947030.092341.8711080.6616538959109683.612987.359817.84172309.130894012.531827.13057.24182902.736394799.11824.874352.39191314.535282538.5643.32190.18201463.229523067.51109.612550.9321187.6440430.43119.9396.07221137.213842229.49495.1967.41233194.650176419.41598.762952.66241168.2726632984.73779.871606.42251576.9230174200.131667.522159.402690.53221169.4353.04358.44271131.421313133.971220.671832.9828906.217752740.031880.791822.6529102.69324275.72159.58388.6830340.7337826.88365.53702.5531115212991984.71244.31503.31;run;②基本统计量分析:procunivariatedata=experiment;varyx1x2x3x4;run;结果:各地区农产量均值为1712.32万吨,标准差为1404.26;各地区农村人口均值为2209.58万人,标准差为1544.86;各地区播种面积均值为3515.67千公顷,标准差为2797.99;各地区受灾面积均值为1523.02千公顷,标准差为1539.50;各地区农业机械总动力均值为2822.46万千瓦,标准差为2773.71。结果分析:从各个变量的标准差来看,各地区的各项数据波动很大(标准差很大)。③由于前面生成的数据集仅有2009年一年各地区的农产量,对于显著性差别分析数据不充分,所以添加2007年和2008年各地区的农产量数据进行分析:dataabc;doi=1to3;donumber=1to31;inputy@@;output;end;end;cards;102.07147.152841.551007.051810.6918352453.77613462.94109.23132.24728.642901.4635.06093719044148.765245.222185.442692.21284.71396.600383177.510883027.00491100.860261460.7193.861067.91048824106.18415323.52867.04125.45148.932905.8110282131.31860.328404225115.673175.49775.553023.3652.3283361958.14260.55365.482227.2328051243.441394.7183.47741153.2314011581518.5995.031111888.5101.8329.24930.5124.77156.292910.179421981.7159124604353.01121.683230.1789.153069.872484666.8611122002.564316.353892309.12902.71314.51463.2187.6040491137.23194.61168.271576.9290.531131.4906.2102.69340.71152;procnpar1waydata=abcWilcoxon;classnumber;vary;run;结果:结果分析:由结果得到PrChi-Square的值小于0.0001,远小于临界概率值0.05,所以结论为在5%显著性水平下全国各地区的年农产量有显著性差异。思考:为什么全国各地区的年农产量会有显著性差异呢?是否与农村人口数、播种面积、受灾面积、农业机械总动力等因素有关呢?④回归分析:procregdata=experiment;modely=x1x2x3x4;run;结果:结果分析:从结果看出PrF的值小于0.0001,所以回归方程是显著的,而各自变量的Pr|t|值中X1的为0.94540.05,X2、X3、X4的均小于0.05,所以变量X1对农产量y影响不显著,变量X2、X3、X4对农产量y影响显著。然而选择哪些变量进行回归分析才能建立“最优”回归方程呢?实验选用逐步回归的方法继续进行分析:procregdata=experiment;modely=x1x2x3x4/selection=stepwise;run;结果:结果分析:从输出结果来看,变量X2、X3、X4对农产量y影响显著,用其能建立“最优”回归方程。建立“最优”回归方程:procregdata=experiment;modely=x2x3x4;run;结果:结果分析:由于结果中常数项Pr|t|的值为0.7948,大于0.05,所以不显著,故消去常数项。程序为:procregdata=experiment;modely=x2x3x4/noint;run;结果输出:回归方程:y=0.53197*x2–0.25023*x3+0.08213*x4思考:一次线性回归已达“最优”,但回归中是否可能含二次项呢?画残差图分析。procregdata=experiment;modely=x2x3x4/p;plotresidual.*x2='*';run;结果:y=-22.866+0.5362x2-0.2514x3+0.0825x4N31Rsq0.9597AdjRsq0.9552RMSE297.2-600-400-2000200400600800x20100020003000400050006000700080009000100001100012000结果分析:残差图接近正常的残差图,可认为回归方程不含二次项。⑤聚类判别:procclusterdata=experimentmethod=wardstdpesudocccouttree=aaa;varx2x3x4;idnumber;proctreedata=aaahorizontalgraphicsn=4out=bbb;copyx2-x4;run;procsortdata=bbb;bycluster;procmeansdata=bbb;bycluster;varx2x3x4;run;结果输出:R2准则支持分为两类、三类和四类;伪F统计量支持分为六类、五类和四类;伪t2统计量支持分为三类、两类和四类。综合分析,认为用离差平方和法分为四类比较合适。分类结果为:G1={北京市,西藏自治区,上海市,天津市,海南省,青海省,浙江省,福建省,宁夏回族自治区},G2={山西省,湖北省,江西省,云南省,辽宁省,甘肃省,吉林省,广东省,贵州省,重庆市,广西壮族自治区,陕西省,新疆维吾尔自治区,内蒙古自治区,江苏省,湖南省,四川省,安徽省},G3={河北省,山东省,河南省},G4={黑龙江省}。由此看出,根据播种面积、受灾面积和农业机械总动力三个条件进行分类的结果与根据农产量分类的结果基本一致。实验结论:2009年各地区农产量均与播种面积、受灾面积和农业机械总动力有密切的关联性,与农村人口无关。另外,全国31个省市自治区可根据农产量分为4类。
本文标题:SAS实验报告
链接地址:https://www.777doc.com/doc-2037618 .html