您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 我国农民纯收入与消费的聚类与典型相关研究
我国农民纯收入与消费的聚类与典型相关研究罗世兴,沙景华中国地质大学人文经管学院,北京(100083)E-mail:luoshixing@163.com摘要:本文以全国31个省市自治区为研究对象,选取了两组12个变量,运用层次聚类分析以及典型相关分析方法,分析了全国各地区农村居民纯收入水平以及其跟消费支出的相关性。结果表明全国各地区农民收入水平可分成四类,并且工资性收入、财产性收入和转移性收入与各支出呈显著的正相关关系,而家庭经营性支出的减少会降低农村居民的高层次消费的支出。关键词:农民纯收入,聚类分析,典型相关分析改革开放以来,我国农村经济持续快速增长,农村居民收入与消费水平不断提高。但从20世纪90年代初开始,农民收入增长缓慢,三农问题日益凸现。近年来随着党中央对三农问题的重视,以及建设社会主义新农村,构建社会主义和谐社会的提出,提高农民收入问题成为一项紧迫的任务。1指标与样本以农村居民年均纯收入(X)和人均生活支出(Y)两组指标为分析计算基础。第一组变量(4个):工资性收入(X1)、家庭经营收入(X2)、财产性收入(X3)、转移性收入(X4);第二组变量(8个):食品支出(Y1)、衣着支出(Y2)、居住支出(Y3)、家庭设备用品及服务支出(Y4)、医疗保健支出(Y5)、交通和通讯支出(Y6)、文教娱乐用品及服务支出(Y7)、其他商品及服务支出(Y8)(单位:元/人)。本文以全国31各省、市、自治区为研究对象,数据主要来源于中国统计年鉴(2007)。2研究方法层次聚类法是首先确定距离的定义及计算公式,然后根据距离的远近,通过合并距离接近的数据或者分解距离较远的数据进行分类,直到所有的数据各成一类为止[1]。典型相关分析由Hotelling在1936年提出,是研究两组变量间相关关系的多元统计分析方法。典型相关分析利用降维的思想,用从两组间分别提取的主成分的相关性来描述两组变量整体的线性相关关系[2]。设有两组变量:X=(X1,X2,…,Xp)′和Y=(Y1,Y2,…,Yq)′。若将两组变量各组成一个线性组合:V=L′X=L1*X1+L2*X2+,…,+Lp*Xp;W=M′Y=M1*X1+M2*Y2+,…,+Mq*Yq其中,Li(i=1,2,…,p)与Mj(j=1,2,…,q)为典型系数。称V、W为典型变量,它们之间的相关系数ρ称为典型相关系数,即ρ=cov(V,W)/[Var(V)var(W)]1/2选取典型变量最优组合的原则为:在所有线性组合V、W中,选取典型相关系数为最大的V、W,即选取L(1)′和M(1)′,使V1=L(1)′X与W1=M(1)′Y之间的相关系数达到最大,然后选取L(2)′、M(2)′,使V2=L(2)′X与W2=M(2)′Y之间的相关系数在与V1和W1不相关的组合V、W中达到第2高。如此继续下去,直到所有分别与V1,V2,…,VK-1和W1,W2,…,Wk-1都不相关的线性组合Vk和Wk为止。软件,对构成农民纯收入的四个组成部分:工资性收入、家庭经营收入、财产性收入以及转移性收入进行层次聚类分析,得到关于收入来源的层次聚类谱系图(见图1),再将谱系图的聚类情况转化成地区分类表(见表2)。CASE0510152025LabelNum+---------+---------+---------+---------+---------+安徽12 四川23 山西4 江西14 湖南18 广西20 宁夏30 云南25 陕西27 甘肃28 贵州24 重庆22 西藏26 青海29 河南16 湖北17 海南21 新疆31 吉林7 黑龙江8 内蒙古5 辽宁6 山东15 河北3 天津2 江苏10 福建13 广东19 浙江11 北京1 上海9 图1层次聚类谱系图全国各地区农民纯收入构成聚类表类别地区第Ⅰ类上海、北京第Ⅱ类浙江、天津、江苏、广东、福建第Ⅲ类山东、辽宁、河北、吉林、黑龙江、湖北、内蒙古、河南、海南、新疆第Ⅳ类江西、湖南、山西、四川、安徽、重庆、广西、宁夏、西藏、青海、陕西、云南、甘肃、贵州根据图1与表1,我们可以把全国各地区农民纯收入按来源分成四类:第一类是上海和北京,这两个地区的农民纯收入中各种来源的收入都比较高。工资性收入占纯收入的比重最大,不同的是北京地区家庭经营性收入大于财产性收入和转移性收入,而上海地区转移性收入仅次于工资性收入,在收入构成中居第二位;第二类是浙江、天津、江苏、广东、福建,这些地区工资性收入和家庭经营收入都比较高,但是两种收入来源之间的内部差距相对于第一类地区较小。作为沿海省市,地理位置优越,而且对外开放比较早,程度深,国家政策支持较多。值得注意的是在福建地区,家庭经营收入超过工资性收入,而其他四个地区则相反。山东、辽宁、河北、吉林、黑龙江、湖北、内蒙古、河南、海南、新疆属于第三类,家庭经营收入比重最大,工资性收入也占重要位置。这些地区地理位置和市场化程度都不如沿海发达,但是山东和内蒙古国民经济近些年发展迅速,人们收入水平增长较快。第四类的江西、湖南、山西、四川、安徽、重庆、广西、宁夏、西藏、青海、陕西、云南、甘肃、贵州大都位于中部或者西部地区,经济发展,对外开放程度以及交通,基础设施等方面不如前三类,农民纯收入仍以家庭经营性收入为主,工资性收入也占重要地位。尤其是西部地区,国家财政支持和政府补贴的力度较大。2006年全国平均农民纯收入达到3587.04元,全国31个省市自治区共11个地区超过平均水平。上海最高,达到9138.65元,北京其次,为8275.47元。第一,二类以及第三类的山东、辽宁、河北、吉林均属于超过全国平均水平的地区。总之,我国目前农民纯收入大体也呈东中西阶梯分布。东部经济发达地区,农民纯收入中工资性收入比重最大,家庭经营收入其次,同时获得各级政府的转移性收入水平也比较高。中西部地区由于地理位置,交通运输以及对外开放程度等因素的制约,农民纯收入水平较低,且以家庭经营性为主,但通过劳动力转移等形式使工资性收入也发挥了重要作用。尤其是政府实施西部大开发,以及中部崛起战略,对这些地区的财政支持和补贴加强,有利于缩小地区间农民收入差距。4典型相关分析4.1典型相关模型由于第一类与第二类包含的样本量太小,均不超过10个,不能很好地代表相关关系。为了避免数据的“过度拟合”,保证相关分析的准确性,本文运用DPS(DataProcessingSystem)软件,以全国31个地区的观测值为样本,进行典型相关性分析。典型相关分析结果表明,前两对典型相关系数较高,达到5%的显著性水平,而其后两队不具有显著相关性(见表2)。由于X与Y有显著的交互效应,因此可以建立典型相关模型(见表3)。卡方值dfp值10.98630.0051123.9982320.000120.77490.187639.3297210.009030.65620.469517.7680120.122940.41890.82454.535550.4751表3典型相关模型NO.典型相关系数典型相关模型V1=0.6143*x1+0.2237*x2+0.0816*x3+0.3495*x410.9863W1=0.1161*y1+0.2622*y2-0.0048*y3+0.28*y4+0.4482*y5-0.0863*y6-0.0288*y7+0.0672*y8V2=-0.0821*x1-0.7527*x2-0.6223*x3+0.8558*x420.7749W2=-0.5256*y1-0.7316*y2-0.3725*y3+2.9217*y4-1.0421*y5-0.9594*y6+0.4628*y7+0.2231*y8从第一对典型相关模型的典型系数可以看出:第1典型变量V1主要受工资性收入(x1)的支配,第2典型变量W1主要受衣着支出(Y2)、居住支出(Y3)和医疗保健支出(Y5)的支配,所以第一对典型变量主要反映了X1与Y2、Y3、Y5较显著的相关性;第二对典型相关模型的第1典型变量V2主要受转移性收入(X4)和家庭经营收入(X2)的支配,而第2典型变量W2主要受衣着支出(Y2)、家庭设备用品及服务支出(Y4)、医疗保健支出(Y5)和交通和通讯支出(Y6),表明X2和X4与Y2、Y4、Y5和Y6有较强的相关性。4.2典型相关结构依据分析结果,建立第一,二对典型变量和原始变量的典型相关结构(见图2,图3)。由图可知,各收入支出的原始变量与各典型变量有明显的相关性。第一对典型变量中,收入组变量工资性收入(X1)、家庭经营收入(X2)、财产性收入(X3)和转移性收入(X4)与第一典型变量V1的相关系数分别为0.9590、0.1423、0.9029和0.8737。这些变量的相关系数都为正值,且X1、X3、X4的相关程度都超过了0.8000的显著水平。由于在V1表达式中系数符号与相关系数符号一致,不存在校正变量。在支出组食品支出(Y1)、衣着支出(Y2)、居住支出(Y3)、家庭设备用品及服务支出(Y4)、医疗保健支出(Y5)、交通和通讯支出(Y6)、文教娱乐用品及服务支出(Y7)、其他商品及服务支出(Y8)与W1的相关系数分别为0.9120、0.9108、0.9342、0.9527、0.9788、0.9311、0.9104和0.9060,均超过显著水平,说明W1与支出组各变量相关程度很高。说明工资性收入(X1)、财产性收入(X3)和转移性收入(X4)的增加会各类型的支出。第二对典型变量中,收入组变量工资性收入(X1)、家庭经营收入(X2)、财产性收入(X3)和转移性收入(X4)与第一典型变量V1的相关系数分别为0.1015、-0.9111、0.0288和0.3979。X2与V2相关系数最大,但为负相关。由于X1与X3在V1表达式中系数符号与相关系数符号相反,这样的变量称为校正变量。在支出组食品支出(Y1)、衣着支出(Y2)、居住支出(Y3)、家庭设备用品及服务支出(Y4)、医疗保健支出(Y5)、交通和通讯支出(Y6)、文教娱乐用品及服务支出(Y7)、其他商品及服务支出(Y8)与W1的相关系数分别为0.1970、-0.1666、0.1338、0.2856、-0.1585、-0.0812、-0.1149和0.0331,相关程度较低。说明家庭经营收入(X2)的减少会较小幅度地减少衣着支出(Y2)、医疗保健支出(Y5)、交通和通讯支出(Y6)和文教娱乐用品及服务支出(Y7)。图2第一对典型变量的典型相关结构表4观测值得变异能由第一典型变量解释的比例项目X1X2X3X4总的V10.91970.02020.81520.76340.6296V20.01030.83000.00080.15830.2499求和0.93000.85020.81600.92170.8795表5观测值得变异能由第二典型变量解释的比例项目Y1Y2Y3Y4Y5Y
本文标题:我国农民纯收入与消费的聚类与典型相关研究
链接地址:https://www.777doc.com/doc-1177387 .html