您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > spss-17中文版统计分析典型实例精粹
第3章SPSS基础统计描述SPSS基础统计描述是进行统计分析的基础和前提。使用一些数学统计量来直观地描述原始数据的集中程度、离散状况和分布情况,之后就可以对数据的总体特征进行较为准确的归纳,从而便于选择合适的统计分析方法。基础统计描述主要包括数据描述、频数分析、探索分析、交叉列联表分析、P-P图、Q-Q图等,下面将具体介绍。3.1数理统计量概述SPSS在描述性统计分析中,提供了多个统计量来描述数据特征,这些统计量包括均值、中位数、众数、方差、标准差、四分位数、十分位数、百分位数、峰度系数、偏度系数等。在进行描述性统计分析之前,首先要对这些统计量在统计学上的定义及其计算公式有所了解。3.1.1均值(Mean)和均值标准误差(S.E.Mean)均值(平均数、平均值)表示的是某个变量所有取值的集中趋势或平均水平。例如,某班学生数学考试的平均成绩、公司员工的平均收入、某年级学生的平均身高、某高校高招录取平均分等。平均数有总体平均数和样本平均数之分。总体平均数:若一组数据X1,X2,……,XN代表一个大小为N的有限总体,则其总体平均数为:样本平均数:若一组数据x1,x2,……,xn代表一个大小为n的有限样本,则其样本平均数为:样本数据是从总体数据中抽取出来的,但在不同次抽样中得到的样本是不同的。虽然在一定程度上,样本数据可以反映总体数据的特征,但由于抽样等原因,样本数据是总体数据的随机变量。同样,虽然样本均值可以反映总体数据的特征,但在不同次抽样中所得的样本均值是不同的,并且它们与总体均值间存在差异。均值标准误差(StandardErrorofMean,S.E.Mean,简称标准误)就是描述这些样本均值与总体均值之间平均差异程度的统计量。3.1.2中位数(Median)中位数是将总体数据的各个数值按大小顺序排列,居于中间位置的变量,用Median表示。中位数将所有的数据等分成两半,中位数两端的数据个数相同,因此它也被称为二分位数。中位数的确定,仅仅取决于它在数列中的位置,不受极端值的影响,因此可以用它表示总体的一般水平。同时,中位数比算术平均数具有更好的稳定性。一个大小为N的数列,要求其中位数,首先应把该数列按大小顺序排列,如果N为奇数,那么该数列的中位数就是位置上的数;如果N为偶数,中位数则是该数列中第与第位置上的两个数值的平均数。3.1.3众数(Mode)众数是指总体数据中出现次数最多的变量,用Mode表示。它同样不受数据极端值的影响,从而在一定程度上提高了平均水平的代表性。例如,制衣厂可以根据消费者所需服装尺码的众数来安排生产。此外,如果众数的值出现的频数或频率较大,那么说明众数的代表性就越高,数列的集中趋势也就越显著。确定众数没有明确的公式,一般只能用手工统计,故较为烦琐。SPSS所提供的统计功能可以减少诸如此类烦琐的过程。众数、中位数与算术平均数之间存在一定的关系,这种关系决定于总体分布的状况。当总体分布呈对称的钟形分布时,算术平均数位于分布曲线的对称点上,而该点又是曲线的最高点和中心点,因此,众数、中位数和算术平均数三者相等。当总体分布呈非对称的钟形分布时,由于这三种平均数受极端数值影响程度的不同,因而它们的数值就存在一定的差别,但三者之间仍有一定的关系。当分布右偏时,算术平均数受偏高数值影响较大,其位置必然在众数之右,中位数在众数与算术平均数之间。反之,当次数分布左偏时,算术平均数受偏小数值的影响较大,其位置在众数之左,中位数仍在众数与算术平均数之间。以上的均值、中位数和众数都是反映数据集中趋势的统计量。3.1.4全距(Range)全距,又称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对差,借以表明总体标志值最大可能的差异范围。全距越长,说明数据越离散;反之,全距越小,说明数据越集中。用符号表示全距的计算公式为:全距的缺点在于其方法过于粗略,因为它只考虑总体两端数值的差异,没有考虑中间数值差异的情况,因而它是测定离散程度的一种粗略的方法,不能全面反映总体数据的差异程度。要充分利用每一个数据的信息,就需要利用方差和标准差。3.1.5方差(Variance)和标准差(StandardDeviation)方差是总体所有变量值与其算术平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。其中,为总体平均数,为样本平均数,N为总体的个数,n为样本的个数。虽然标准差有计量单位,而方差无计量单位,但两者的作用一样,故在此仅介绍标准差。标准差用平方的方法消除了正负号,因而它是最常用、最重要的离散趋势统计量。标准差越大,表示变量值之间的差异越大,各数据距离均值越远,则平均数的代表性就越低。反之,标准差越小,表示变量值之间的差异越小,各数据距离均值较近,则平均数的代表性就越高。标准差在实际生活中也有广泛的应用。例如,可以用标准差来测定居民收入分配的差异程度,还可以用来反映平均收支、平均结余、平均产量等经济变量的代表性等。全距、方差和标准差都是反映数据离散趋势的统计量。3.1.6峰度(Kurtosis)和偏度(Skewness)峰度是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。峰度的具体计算公式为:偏度与峰度类似,它也是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性。这个统计量同样需要与正态分布相比较,偏度为0表示其数据分布形态与正态分布的偏斜程度相同;偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。偏度的具体计算公式为:3.1.7四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles)四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数,即中位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间部分的数据越集中;四分位数越大,则意味着中间部分的数据越分散。与四分位数类似,十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为10等份,与这9个点位置上相对应的数值称为十分位数,分别记为D1,D2,……,D9,表示10%的数据落在D1下,20%的数据落在D2下,……,90%的数据落在D9下。同理,百分位数是将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的数值称为百分位数,分别记为P1,P2,……,P99,表示1%的数据落在P1下,2%的数据落在P2下,……,99%的数据落在P99下。通过四分位数、十分位数和百分位数,可以大体看出总体数据在哪个区间内更为集中,也就是说,它们在一定程度上可以反映数据的分布情况。上面的峰度系数、偏度系数和四分位数、十分位数、百分位数,都是反映数据分布状况的统计量。3.2数据描述描述性统计分析是对数据进行基础性的描述。通过得出的数据的平均值(Mean)、和(Sum)、标准差(Stddeviation)、最大值(Max)、最小值(Min)、方差(Variance)、全距(Range)、均值标准误差(S.E.Mean)、峰度(Kurtosis)、偏度(Skewness)等统计量,来估计原始数据的集中程度、离散状况和分布情况。数据描述功能的操作步骤如下:打开【分析】(Analyze)菜单,选择【描述统计】(DescriptiveStatistics)命令下的【描述】(Descriptives)命令,如图3-1所示。这里,需要提醒的是如果数据文件尚未打开,【分析】(Analyze)菜单下的任一功能都不能使用,SPSS会弹出一个对话框,如图3-2所示,提醒用户打开文件。打开文件后,【分析】(Analyze)菜单下的统计功能才能正常使用。选择【描述】(Descriptives)命令后,SPSS将打开描述性(Descriptives)对话框,如图3-3所示。在该主对话框中,用户可以通过单击按钮从左边原变量中选择一个或者几个变量进入右边的变量(Variable(s))列表框中。对话框底部有一个将标准化得分另存为变量(Savestandardizedvaluesasvariables)复选框,选择该项,将对变量(Variable(s))列表框中被选中变量的数据进行标准化,然后将标准化的结果保存到新变量中。新变量的变量名为原变量的变量名前面添加字母z,并被添加在数据编辑窗口中变量的最后一列。数据标准化的计算公式为:通过标准化,可以将均值为、标准差为的原变量转化成均值为0、标准差为1的新变量。描述性(Descriptives)主对话框的下端有5个按钮,如果还未将左边原变量中的变量添加至变量(Variable(s))列表框中,则【确定】(OK)和【粘贴】(Paste)按钮为灰白显示,不可单击,但【重置】(Reset)、【取消】(Cancel)和【帮助】(Help)按钮可以单击。通过单击【重置】(Reset)按钮,用户可以将已进入右框的变量全部转移至左框的变量列表中,重新进行选择。单击【选项】(Options)按钮,将打开描述:选项(Descriptives:Options)对话框,如图3-4所示。在该对话框中,用户可以选择所要统计的统计量和图表输出方式。具体对话框中各选项的意义如下:(1)在对话框中最上面一行是均值(Mean)和合计(Sum)。(2)离散(Dispersion)栏中的统计量包括:标准差(StdDeviation)最小值(Minimum)方差(Variance)最大值(Maximum)范围(极差)(Range)均值的标准误(S.E.Mean)(3)分布(Distribution)栏中的统计量包括:峰度(Kurtosis)偏度(Skewness)(4)显示顺序(DisplayOrder)栏中,用户可以自行选择输出变量的排序方式,包括:变量列表(VariableList):在结果输出窗口中,用户选择输出的变量将按照变量在数据编辑窗口中原来的排列顺序进行排列。字母顺序(Alphabetic):在结果输出窗口中,用户选择输出的变量将按照变量名的字母排列顺序进行排列。按均值的升序排序(AscendingMeans):SPSS将计算每个输出变量的平均值,并按照平均值从小到大对输出变量的顺序进行排列。按均值的降序排序(DescendingMeans):SPSS将计算每个输出变量的平均值,并按照平均值从大到小对输出变量的顺序进行排列。用户可在选项(Options)对话框第一行、离散(Dispersion)栏和分布(Distribution)栏中,选中所需统计的统计量(可多项选择)。SPSS默认的描述统计量包括均值、标准差、最小值、最大值。在显示顺序(DisplayOrder)一栏里,用户只可选择一种变量排序方式,SPSS的默认选项为变量列表(VariableList)。进行选择后,单击【继续】(Continue)按钮,即可返回描述性(Descriptives)主对话框。单击【确定】(OK)按钮,即可在结果输出窗口中得到描述性统计分析结果输出表格。3.3频数分析对于一组数据,考察不同的数值出现的频数,或者是数据落入指定区域内的频数,可以了解数据的分布状况。从SPSS15.0开始就提供了频数分析这一功能。通过频数分析,用户在得到描述性统计结果的同时,还能了解变量取值的分布情况,从而使总
本文标题:spss-17中文版统计分析典型实例精粹
链接地址:https://www.777doc.com/doc-5632589 .html