您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 统计分析与Spss应用第五章(描述性统计分析)
第五章描述性统计分析描述性统计只对统计数据的结构和总体情况进行描述,并不能深入了解统计数据的内部规律。Spss的许多模块都可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在descriptivestatistics菜单中,他们就是计算各种统计量或绘制统计图来实现描述功能。descriptivestatistics菜单主要内容(1)频数分布表分析(Frequencies):其特色就是产生频数表,对分类数据和定量资料都适用。(2)统计描述分析(Descriptive)进行一般性描述,适用于服从正态分布的定量资料。(3)Explore过程:用于对数据分布状况不清楚时的探索性分析,它会杂七杂八给出一大堆可能用到的统计指标和统计图,让研究者参考。(4)Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验我们常用的X2检验也在其中完成(5)Ratio过程;用于对两个连续性变量计算相对比指标,它可以计算出一系列非常专业的相对比描述指标。常用的描述统计量集中趋势指标(centraltendency):均数(means)众数(mode),中位数(median),总和(sum),离散趋势指标:标准差(standarddeviation),方差等,最大值、最小值等。其中标准差方差只适用正态分布。百分位数指标(percentile):包括四分位数,各个百分位数等,适用于任何分布类型资料。分布指标(distribution):偏度系数(Skewness)和峰度系数(Kurtosis),反映了数据偏离正态分布的程度其它:M统计量(M-estimators)、极端值(outlier)等,主要用于对存在异常值的数据进行描述;标准误(S.E.mean),标准误则反映了样本均数的波动程度。描述集中趋势的统计量(1)均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。适用于定距数据。特点:利用了全部数据,易受极端值的影响。(2)众数(mode)(在frequency菜单中计算)一组数据中出现频数最多的变量值。(例:服装尺码)适用于各类数据,主要用于定类数据。特点:众数可能不唯一,不受极端值的影响。计算描述统计量描述离散程度的统计量(1)标准差(standarddeviation--StdDev)(2)方差(variance)(3)极差(range):最大值(minimum)-最小值(minimum)极差很小表明所有数据几乎集中在一起应用于相同样本容量的两组数据离散程度比较计算描述统计量描述对称程度的统计量偏度(skewness):描述某变量所有变量值分布形态的偏斜程度和方向的统计量.偏度为0表示对称;大于0表示正偏差大(右偏),频数最大的值比均值小,极值大于均值;小于0表示负偏差大(左偏)。Σ=−=niiSDxx133/)(1-n1Skewness计算描述统计量描述陡峭程度的统计量峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。峭度为0表示与正态分布峭度相同。大于0表示比正态分布陡,尖峰。小于0表示比正态分布缓;平峰。其他:标准误差(S.E.mean)5.1frequencies过程频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的,它不仅可以产生单变量详细的频数表,显示文件中指定变量特定值发生的频数,还可以获得某些描述统计量或按要求给出某百分位点的数值以及常用的条图、圆图等统计图。5.1.1对话框界面及各部分选项说明【Displayfrequencytables复选框】确定是否在结果中输出频数表。【Statistics钮】单击后弹出Statistics对话框,用于定义需要计算的其他描述统计量。分布指标百分位数指标集中趋势指标离散趋势指标计算百分数时选此项图形参数选择对话框返回【Charts钮】弹出Charts对话框,用于设定所做的统计图。Charttype单选钮组定义统计图类型,有四种选择:无、条图(Barchart)、圆图(Piechart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(Withnormalcurve)。ChartValues单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度)。【Format钮】弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。5.1.2分析实例一例6.1某地101例健康男子血清总胆固醇值测定结果存在文件danguchun.sav中,请绘制频数表、直方图,计算均数、标准差、中位数M、p2.5和p97.5。操作过程如下:1.Analyze==DescriptiveStatistics==Frequencies2.Variables框:选入X3.单击Statistics钮:4.选中Mean、Std.deviation、Median复选框5.单击Percentiles:输入2.5:单击Add:输入97.5:单击Add:6.单击Continue钮7.单击Charts钮:8.选中Barcharts9.单击Continue钮10.单击OK结果解释最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0例,均数Mean=4.69,中位数Median=4.61,标准STD=0.8616,P2.5=3.04,P97.5=6.45。系统对变量x作频数分布表(此处只列出了开头部分)Vaild右侧为原始值,Frequency为频数,Percent为各组频数占总例数的百分比(包括缺失记录在内),Validpercent为各组频数占总例数的有效百分比,CumPercent为各组频数占总例数的累积百分比。5.2Descriptives过程Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。确定是否将原始数据的标准正态变换结果存为新变量。选入需要描述的变量,可选入多个变量列表顺序字母顺序均数升序均数降序。DescriptiveStatistics1012.707.224.6995.86162101血清总胆固醇ValidN(listwise)NMinimumMaximumMeanStd.Deviation一个典型的Descriptives过程结果统计表最上方为表格名称,左下方为分析变量名,可见样本量N为101例;均数:Mean=4.6995,最大值:Maximum=7.22,标准差:STD=0.8616,最小值:Minimum=2.70。5.3Explore过程主要用于对资料数据的性质、分布状况等完全不清楚时的进行分析,故称探索性分析。在常用的描述性统计指标的基础上,它又增加了有关数据详细分布特征的文字与图形描述,如茎叶图、箱式图等,显得更加详细全面。还可以为以方差齐性为目的的变量变换提供线索,有助于用户制定继续分析的方案。选入需要分析的变量选入分组变量选择一个变量,他的取值将作为每条记录的标签选择所需要的描述统计量选择所需要的统计图选缺失值的处理方式Statistics对话框Descriptives复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。M-estimators复选框:作中心趋势的粗略最大似然确定,该统计量是用哪个迭代法计算出来的,输出四个(Huber,Andrew,Hampel,Tukey)不同权重的最大似然确定数。其中huber法适用于数据接近正态分布的情况,另三种适合数据中有许多异常值时。Outliers复选框:输出五个最大值与五个最小值。Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数。血清总胆固醇Stem-and-LeafPlotFrequencyStem&Leaf1.002.78.003.001233349.003.55668999924.004.00000111122233333334444425.004.555555666667777777778889917.005.011111112223333349.005.5567788896.006.1123331.006.51.00Extremes(=7.2)Stemwidth:1.00Eachleaf:1case(s)茎叶图,整数位为茎,小数位为叶。这样可以非常直观的看出数据的分布范围及形态5.4交叉表分析过程crosstabs返回交叉表分析主对话框返回选择统计量对话框返回精确检验对话框返回显示单元格值对话框返回格式对话框返回卡方检验Chi-SquareTests47.163a40.203.186b.160.21244.48340.289.262b.233.29148.225.117b.095.1389.514c1.002.003b.000.006.002b.000.00563961.974d40.014.016b.008.02565.95740.006.009b.003.01655.621.011b.004.0189.398e1.002.003b.000.006.001b.000.00238147.883f40.183.191b.165.21652.03540.096.115b.094.13647.618.072b.055.089.683g1.408.411b.378.443.200b.174.227394PearsonChi-SquareLikelihoodRatioFisher'sExactTestLinear-by-LinearAssociationNofValidCasesPearsonChi-SquareLikelihoodRatioFisher'sExactTestLinear-by-LinearAssociationNofValidCasesPearsonChi-SquareLikelihoodRatioFisher'sExactTestLinear-by-LinearAssociationNofValidCases地区分类东北部东南部西部ValuedfAsymp.Sig.(2-sided)Sig.LowerBoundUpperBound99%ConfidenceIntervalMonteCarloSig.(2-sided)Sig.LowerBoundUpperBound99%ConfidenceIntervalMonteCarloSig.(1-sided)28cells(51.9%)haveexpectedcountlessthan5.Theminimumexpectedcountis.02.a.Basedon1517sampledtableswithstartingseed2000000.b.Thestandardizedstatisticis3.084.c.30cells(55.6%)haveexpectedcountlessthan5.Theminimumexpectedcountis.14.d.Thestandardizedstatisticis3.066.e.32cells(59.3%)haveexpectedcountlessthan5.Theminimumexpectedcountis.07.f.Thestandardizedstatisticis.827.g.返回观测量统计处理摘要返回交叉表及卡方检验结果返回分析实例1、分析不同性别的受访者的工资水平与订阅报纸的比例之间是否存在差异。使用的数据文件为data05-05,“inccat”变量为工资分类情况、“Ne
本文标题:统计分析与Spss应用第五章(描述性统计分析)
链接地址:https://www.777doc.com/doc-4881203 .html