您好,欢迎访问三七文档
1案例我国各地区城镇居民消费性支出的主成分分析下表列出了1999年全国31个省、直辖市和自治区(港、澳、台不在其中)的城镇居民家庭平均每人全年消费性支出的八个主要变量数据,请从八个变量中识别出主成分。表1变量表1x:食品5x:交通和通讯2x:衣着6x:娱乐教育文化服务3x:家庭设备用品及服务7x:居住4x:医疗保健8x:杂项商品和服务表1消费性支出数据单位:元地区1x2x3x4x5x6x7x8x北京2959.19730.79749.41513.34467.871141.82478.42457.64天津2459.77495.47697.33302.87284.19735.97570.84305.08河北1495.63515.90362.37285.32272.95540.58364.91188.63山西1406.33477.77290.15208.57201.50414.72281.84212.10内蒙古1303.97524.29254.83192.17249.81463.09287.87192.96辽宁1730.84553.90246.91279.81239.18445.20330.24163.86吉林1561.86492.42200.49218.36220.69459.62360.48147.76黑龙江1410.11510.71211.88277.11224.65376.82317.61152.85上海3712.31550.74893.37346.93527.001034.98720.33462.03江苏2207.58449.37572.40211.92302.09585.23429.77252.54浙江2629.16557.32689.73435.69514.66795.87575.76323.36安徽1844.78430.29271.28126.33250.56513.18314.00151.39福建2709.46428.11334.12160.77405.14461.67535.13232.29江西1563.78303.65233.81107.90209.70393.99509.39160.12山东1675.75613.32550.71219.79272.59599.43371.62211.84河南1427.65431.79288.55208.14217.00337.76421.31165.32湖北1783.43511.88282.84201.01237.60617.74523.52182.52湖南1942.23512.27401.39206.06321.29697.22492.60226.45广东3055.17353.23564.56356.27811.88873.061082.82420.81广西2033.87300.82338.65157.78329.06621.74587.02218.27海南2057.86186.44202.72171.79329.65477.17312.93279.19重庆2303.29589.99516.21236.55403.92730.05438.41225.80四川1974.28507.76344.79203.21240.24575.10430.36223.46贵州1673.82437.75461.61153.32254.66445.59346.11191.48云南2194.25537.01369.07249.54290.84561.91407.70330.952西藏2646.61839.70204.44209.11379.30371.04269.59389.33陕西1472.95390.89447.95259.51230.61490.90469.10191.34甘肃1525.57472.98328.90219.86206.65449.69249.66228.19青海1654.69437.77258.78303.00244.93479.53288.56236.51宁夏1375.46480.89273.84317.32251.08424.75228.73195.93新疆1608.82536.05432.46235.82250.28541.30344.85214.40资料来源:2000年《中国统计年鉴》我们希望对上述八个指标数据进行主成分分析。从128,,,xxx的样本相关阵ˆR出发进行主成分分析,SAS软件的输出结果如输出1所示。3输出1对全国31个地区消费性支出的主成分分析从输出1可以看出,前两个和前三个主成分的累计贡献率分别达到80.6%和87.8%,第一主成分1ˆy在所有变量(除在*2x上的载荷稍偏小外)上都有近似相等的正载荷,反映了综合消费性支出的水平,因此第一主成分可称为综合消费性支出成分。第二主成分2ˆy在变量*2x上有很高的正载荷,在变量*4x上有中等的正载荷,而在其余变量上有负载荷或很小的正载荷。4可以认为这个主成分度量了受地区气候影响的消费性支出(主要是衣着2x,其次是医疗保健4x①)在所有消费性支出中占的比重(也可理解为一种消费倾向),第二主成分可称为消费倾向成分。第三主成分很难给出明显的解释,因此我们只取前面两个主成分。表2和表3是把31个地区分别按第一和第二主成分得分从小到大重新排序后的结果。从表2可以看出,东部地区的第一主成分得分普遍较高,中部地区一般,而西部地区则普遍较低。从表3可见,北方地区的第二主成分得分普遍较高,而南方地区则普遍较低,这是由于北方地区气候寒冷,用于衣着、医疗保健等消费的比重相对较高,而南方地区则相反。这也进一步支持了上述对第二主成分的解释。图1是关于第一和第二主成分得分的散点图,该图等价于各变量经标准化后的八维数据点群在具有最大投影点群分散程度的二维平面上的投影。它对各地区的综合消费性支出和受地区气候影响的消费性支出占的比重有较直观的描述。表2按第一主成分排序的31个地区地区1ˆy2ˆy地区1ˆy2ˆy江西-2.234-1.867新疆-0.6970.647河南-1.947-0.388四川-0.5330.041黑龙江-1.9270.636广西-0.251-2.058吉林-1.8590.151山东-0.1470.983山西-1.8480.404福建0.201-1.337内蒙古-1.8260.509湖南0.219-0.203安徽-1.796-0.519江苏0.407-0.311甘肃-1.5490.526云南0.4350.479宁夏-1.5010.906西藏0.4372.365辽宁-1.3130.844重庆1.1150.409贵州-1.298-0.341天津2.0060.044海南-1.157-1.913浙江3.5830.531青海-1.0450.426北京5.4262.466陕西-0.859-0.501广东5.583-3.072河北-0.7690.580上海5.866-0.195湖北-0.717-0.247①可从表1计算出医疗保健在消费性总支出中占的比率841iixx,然后进行由大到小的排序,各地区的顺序依次为:宁夏、黑龙江、青海、河北、辽宁、北京、浙江、陕西、甘肃、山西、吉林、河南、新疆、内蒙古、天津、云南、山东、广东、湖北、四川、重庆、湖南、海南、江苏、上海、西藏、贵州、广西、安徽、江西和福建,大致由寒冷的北方地区排到温暖的南方地区。这是由于气候的寒冷易导致医疗保健费用的增加,因此,可以认为除衣着2x外医疗保健4x也是受地区气候影响的变量。5表3按第二主成分排序的31个地区地区1ˆy2ˆy地区1ˆy2ˆy广东5.583-3.072山西-1.8480.404广西-0.251-2.058重庆1.1150.409海南-1.157-1.913青海-1.0450.426江西-2.234-1.867云南0.4350.479福建0.201-1.337内蒙古-1.8260.509安徽-1.796-0.519甘肃-1.5490.526陕西-0.859-0.501浙江3.5830.531河南-1.947-0.388河北-0.7690.580贵州-1.298-0.341黑龙江-1.9270.636江苏0.407-0.311新疆-0.6970.647湖北-0.717-0.247辽宁-1.3130.844湖南0.219-0.203宁夏-1.5010.906上海5.866-0.195山东-0.1470.983四川-0.5330.041西藏0.4372.365天津2.0060.044北京5.4262.466吉林-1.8590.151图1前两个主成分的散点图从图1中可以看出,上海、广东和北京在最右边,城镇居民综合消费性支出是最高的;其次是浙江和天津;江西在散点图的最左边,表明综合消费性支出是最低的;北京和西藏在散点图的最上边,说明受地区气候影响的消费性支出占的比重最高;广东在最底部,表明受地区气候影响的消费性支出占的比重最低。6注:该例中,如果我们只是要根据128,,,xxx来比较各地区城镇居民消费性支出的总水平,则消费性总支出801iixx无疑是最合适的,它的含义确切且富有很好的实际意义。但如果我们要比较的不是总水平而是整体水平,则使用单个变量0x就有其不足之处,它的信息量不够足,未能较充分地提取128,,,xxx中的有用信息。本案例所进行的主成分分析却能弥补此种不足,(从ˆR出发的)前两个主成分1ˆy和2ˆy合在一起能够包含有128,,,xxx的较多信息,除了1ˆy能在某种意义上反映消费性支出总水平外,2ˆy还能进一步反映对各地区消费性支出差异起较重要作用的某种消费倾向。1ˆy和0x之间存在着高达0.989r的正相关性,虽然这两个变量高度相关,且意义相近,但两者还是有着本质区别,主要表现在如下几点:(1)128,,,xxx中各变量对0x的作用有很大的不同(如1x的作用就特别大),而1ˆy是对128,,,xxx作标准化变换(意味着对每项消费性支出平等看待)后得到的,依据1ˆy的表达式,128,,,xxx中的每个变量对1ˆy的作用是大致相同的。(2)某地区的0x值取决于该地区128,,,xxx的绝对数值,而其1ˆy值则取决于该地区128,,,xxx中的每个变量值在所有31个地区中的相对大小,它是这八个变量值相对大小的综合值;(3)0x的含义是完全清楚的,而1ˆy的含义是在某种意义上(即在某线性组合意义上)的,不像0x的含义那么清楚。
本文标题:主成分分析案例
链接地址:https://www.777doc.com/doc-2032678 .html