您好,欢迎访问三七文档
多元统计分析实例邹斌文地形——水文系统要素的主成分分析地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息。事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力的方法。我们要研究某一地区气候、地表特征和地貌之间的关系,一共选取了20个流域盆地,并测量了9个要素,它们分别是:x1流域盆地总高差(m)x2流域盆地山口的海拔高度(m)x3流域盆地周长(km)x4河道总长度(m)x5河道总数x6平均分叉率x7河谷昀大坡度(度)x8河源数x9流域盆地面积(k㎡)流域盆地要素数据表x1x2x3x4x5x6x7x8x9176054901.7042.481302.78631.8200.1432189144502.7654.394305.83337260.312332555251.52.66363.04221.1250.162451547602.755.321174.84430.1980.221551360901.1422.08325.125.7260.1016157086406.1310.21764.2924.9611.367221084158.7615664.526.6562.99851570401.31.26133.522.2100.0899119262588.44730.6062866.529.12252.05710154062805.17411.383824.0723.3630.7631195085202.886.87623.6527.2470.4761285094607.487.79304.911.6241.7513123759372.0462.993282.7229.6190.2521455374804.1222.84074.31213050.741528170503.368.24834.198.2670.48116124265253.527.49513.7929.2410.7231788978363.2958.665653.7432.4500.62718134253403.127.81698.3433560.457194523487910.3778.515074.4939.33985.4620327560505.0511.53503.5730.4381.153将以上表格中数据输入spss中,进行主成分分析,可得以下结果:相关系数矩阵表(CorrelationMatrix)x1x2x3x4x5x6x7x8x9Coiorrelatnx11.000-.219.660.723.440.082.561.452.784x2-.2191.000.264-.164-.150-.184-.568-.158.073x3.660.2641.000.746.580.256.074.595.908x4.723-.164.7461.000.888.158.340.897.898x5.440-.150.580.8881.000.188.218.999.674x6.082-.184.256.158.1881.000.182.204.140x7.561-.568.074.340.218.1821.000.226.249x8.452-.158.595.897.999.204.2261.000.689x9.784.073.908.898.674.140.249.6891.000总方差分解表(TotalVarianceExplained)InitialEigenvaluesExtractionSumsofSquaredLoadingsComponentTotal%ofVarianceCumulative%Total%ofVarianceCumulative%14.86054.00054.0004.86054.00054.00021.69818.86872.8681.69818.86872.86831.00911.21184.0801.00911.21184.0804.92210.25094.3305.3173.52297.8516.1101.21799.0687.071.79199.8598.012.13899.9979.000.003100.000ExtractionMethod:PrincipalComponentAnalysis.(1)首先将流域盆地要素数据表中的原始数据,作标准化处理,计算得相关系数矩阵(见相关系数矩阵表)。(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见总方差分解表)。由总方差分解表可知,第一,第二,第三主成分的累计贡献率已高达84.08%,故只需求出第一,第二,第三主成分z1,z2,z3即可。主成分载荷矩阵从主成分载荷矩阵可以看出,第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,这是由于这六个地理要素与流域盆地的规模有关,因此第一主成分可以被认为是流域盆地规模的代表:第二主成分z2与x2有较大的正相关,与x7有较大的负相关,而这两个地理要素是与流域切割程度有关的,因此第二主成分可以被认为是流域侵蚀状况的代表;第三主成分z3与x6有较大的正相关,而地理要素x6是流域比较独立的特性——河系形态的表征,因此,第三主成成可以被认为是代表河系形态的主成分。以上分析结果表明,根据主成分载荷,该区域地貌-水文系统的九项地理要素可以被归为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值昀大者作为代表,则流域面积,流域盆地出口的海拔高度和分叉率可作为这三类地理要素的代表,利用这三个要素代替原来九个要素进行区域地貌-水文系统分析,可以使问题大大地简化。可见,可以利用主成分分析把多要素地理系统简化为1~3个主成分上的分类,它的效果是很好的。第一次多元统计作业回归分析一、设河流的一个断面的年径流量为y,该断面上的上游流域的年平均降水量为x1,年平均饱和差为x2,现共有14年的观测记录:时间(a)x1x2y时间(a)x1x2y17201.8029085792.2215125532.6713595152.4113135751.75234105763.0310645482.07182115471.8320055722.49145125681.9022464533.5969137201.9827175401.88205147002.90130(1)试求关于x1,x2的二元线性回归方程;(2)对回归方程和每一个回归系数的显著性做检验;(3)求出每一个回归系数的置信水平为0.95的置信区间;(4)求出回归方程的复相关系数;(5)设某年x1=600,x2=2.50,求的E(y)的点估计及置信水平为0.95的置信区间.利用SPSS软件,进行回归分析1、在SPSS中通过文件选项打开已经建好的*.xl数据表格。2、选择主菜单[Analyze]=[Regression]=[Linear…],在LinearRegression对话框中,选择Y进入[Dependent]因变量框,选择X1、X2进入[Independent(s)]自变量列表框。3.在统计的窗口中选定置信区间。单击继续返回主菜单,单击[OK]。4、回归结果输出:Regression统计描述(DescriptiveStatistics)MeanStd.DeviationNy176.6463.78614x1583.2977.70514x22.3036.5565614ANOVA(b)ModelSumofSquaresdfMeanSquareFSig.45486.864222743.43233.779.000(a)7406.35111673.3051RegressionResidual52893.21413TotalaPredictors:(Constant),x2,x1bDependentVariable:yModelSummary(b)ChangeStatisticsDurbin-WatsonModelRRSquareAdjustedRSquareStd.ErroroftheEstimateRSquareChangeFChangedf1df2Sig.FChange1.927(a).860.83525.948.86033.779211.0001.604aPredictors:(Constant),x2,x1bDependentVariable:y系数Coefficients(a)UnstandardizedCoefficientsStandardizedCoefficients95%ConfidenceIntervalforBModelBStd.ErrorBetatSig.LowerBoundUpperBound1(Constant)184.61372.3042.553.02725.473343.754x1.320.097.3893.301.007.106.533x2-84.36113.515-.736-6.242.000-114.107-54.615aDependentVariable:y答:1.从coefficients中,可以得出二元线性回归方程为:y=0.32x1-84.361x2+184.6132.Coefficients(a)表已对回归方程和每一个回归系数的显著性做出了检验:在方差分析中:F=37.779;Sig.=0.000,所以回归方程线性相关显著。在显著性水平α=0.05条件下,对回归方程的系数β0、β1、β2作t检验。在ceofficients分析结果中可知:对β0有t=2.553,p=0.027;对β1有t=3.301,p=0.007;对β2有t=-6.242,p=0.000,对回归系数的检验结果显示:p值均小于0.05.所以y对x1、x2线性关系显著。我们可以看出其结果是显著的。3.置信水平为0.95的置信区间,β1(0.106,0.533),β2(-144.107,-54.615),常数项β0为(25.473,343.754)4.从ModelSummary(b)可知:复相关系数RSquare为0.8605.将x1=600,x2=2.5带入y关于x1、x2的二元线性回归方程:y=0.32x1-84.361x2+184.613中即可求得E(y)的点估计为165,也可以用SPSS求出。置信水平为0.95的置信区为(105,225)第三次多元统计作业1.设已有六个样品,每个样品对某项指标进行了测试,分别等于1,2,5,7,9,10.它们先各自成一类,供六类,使用类与类之间的昀大距离进行聚类分析。利用SPSS,进行昀大距离法聚类,输出结果如下:相似矩阵(ProximityMatrix)MatrixFileInputCasex1x2x3x4x5x6x1.0001.0004.0006.0008.0009.000x21.000.0003.0005.0007.0008.000x34.0003.000.0002.0004.0005.000x46.0005.0002.000.0002.0003.000x58.0007.0004.0002.000.0001.000x69.0008.0005.0003.0001.000.000VerticalIcicleCaseNumberofclustersx6x5x4x3x2x11XXXXXXXXXXX2XXXXXXXXXX3XXXXXXXXX4XXXXXXXX5XXXXXXXCASE0510152025LabelNum+---------+---------+---------+---------+---------+x55x66x33x44x11x22昀大距离法聚类谱系图x1=1,x2=2
本文标题:多元统计分析实例
链接地址:https://www.777doc.com/doc-6324668 .html