第四章SPSS的基本统计分析.

1、第四章SPSS的基本统计分析基本统计分析•频数分析•计算基本描述统计量（分布特征测度）•图形分析工具•列联分析频数分析•目的粗略把握变量值的分布状况。例：研究被调查者的特征（如：性别、年龄、收入）研究被调查者对某个问题的总体看法（如：教学方式、选修课程）研究被调查者某方面的状态（如：购买家电的类型、居民月支出状况）•采用的方法–计算频分布表：包括计算频数、百分比、累计百分比–绘制统计图形：条形图、饼图频数分析•基本操作步骤(1)菜单选项:analyze-descriptivestatistics-frequencies(2)选择几个待分析的变量到variables框.(3)chart选项，选择所需要的图形频数分析•应用举例储户的职业分析特点：定类数据频数分布表输出按频数升降序输出储户收入水平分析特点：定序数据除使用频数、百分比、总数外，还可以充分使用累计百分比频数分析•频数分析中的其他分析•计算分位数:适用于定距数据–数据按升序排序后，找到若干个分位点上的变量值–quartiles:计算四分位数25%(QL)、50%(中位数)、75%(QU)–cutpointsfornequalgr。

2、oups:n等份–percentile:自定义百分位点•分位数的应用•在排除极端值影响的条件下，通过计算分位数差，比较两组样本数据的离散程度–例:(QL=50,QU=80)和(QL=70,QU=75)的比较•分位数、中位数、众数的应用举例不同户口所在地的储户取款金额比较利用分位数（不显示频数分析表）计算描述统计量•目的–精确把握变量的总体分布状况，了解数据的集中趋势、离散趋势、对称程度、陡峭程度。•基本方法–计算基本描述统计量计算描述统计量•描述集中趋势的统计量–均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。•适用于定距数据。•特点：利用了全部数据，易受极端值的影响。•描述离散程度的统计量–标准差(standarddeviation--StdDev):表示某变量的所有变量值离散程度的统计量。•SPSS中计算的是样本标准差。–方差(variance):标准差的平方。•SPSS中计算的是样本方差。–极差(range):最大值(maximum)—最小值(minimum)计算描述统计量•描述对称程度的统计量–偏度(skewness):描述某变量分布形态的偏斜程度和方向的统计。

3、量.•偏度为0表示对称;•大于0表示正偏差大(右偏),频数最大的值比均值小,极值大于均值;•小于0表示负偏差大(左偏)计算描述统计量•描述陡峭程度的统计量–峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。•峭度为0表示与标准正态分布峭度相同。•大于0表示比标准正态分布陡，尖峰。•小于0表示比标准正态分布缓；平峰。计算描述统计量•其他统计量•–标准误差(standarderrorS.E):抽样分布中的标准差，反映样本误差。•–均值标准误差(meansofS.E)•中心极限定理认为：样本均值~N(u,2/n)•反映样本均值与总体真值间的平均离散程度•样本数越大，样本均值的离散程度越小，对真值的估计越准确计算描述统计量•基本操作步骤(1)菜单选项:analyze-descriptivestatistics-descripive(2)选择将参加计算的数值型变量名到variables框。•分析比较不同户口所在地储户取款情况•比较集中趋势•比较离散趋势•比较偏斜程度•比较陡峭程度•实现方式：数据拆分•其他功能–数据标准化处理•新变量的均值为0,标准差为1;•小于0表示在平。

4、均水平下,大于0反之.•正态分布的数据标准化后呈标准正态分布（68.2%，95.4%，99.7%）•savestandardizedvaluesasvariables选项•将变量作标准化后,结果存入名为“Z+原变量名”的新变量中.–数据标准化处理应用举例•你能以较简便的方法快速找到取款数目出众的储户吗？SDxxzii/)(计算描述统计量基本统计分析的图形工具•以制作条形图为例绘制简单条图（单式条图）绘制复式条图绘制堆积条图（分段条图）定义统计图中数据的表达类型：同一变量若干条记录的分组汇总条图反映了不同变量的汇总条图反映了个体观察值户口所在地边远郊区中心城市Count2202001801601401201008060•以制作条形图为例•第一种模式下的三种图形：用于某变量在各分类情况的比较基本统计分析的图形工具户口所在地边远郊区中心城市Count140120100806040200收入水平1000元以下1000~3000元3000~5000元1500元以上户口所在地边远郊区中心城市Count3002001000收入水平1500元以上3000~5000元1000~3000元1000元以。

5、下•以制作条形图为例•第二种模式下的三种图形：用于若干变量的统计量的比较未来收入情况收入情况N2626058565452504846基本统计分析的图形工具户口所在地边远郊区中心城市N250403020100收入情况未来收入情况户口所在地边远郊区中心城市N2100806040200未来收入情况收入情况•箱线图•(箱线图中以四分位差的1.5倍为标准剔除值）3030N=SEXmalefemaleMATH10090807060504030206060N=CHIMATH12010080604020基本统计分析的图形工具•直方图和P-P图基本统计分析的图形工具MATH90.085.080.075.070.065.060.055.050.045.040.035.030.01086420Std.Dev=15.18Mean=61.5N=60.00NormalP-PPlotofMATHObservedCumProb1.00.75.50.250.00ExpectedCumProb1.00.75.50.250.00交叉分组下的频数分析•目的了解不同变量在不同水平下的数据分布情况•例：学习成绩与性别有关联吗？(。

6、两变量)•例：职业、性别、爱逛商店有关联吗？(三变量)•分析的主要步骤–产生交叉列联表–分析列联表中变量间的关系产生交叉列联表•基本操作步骤(1)菜单选项:analyze-descriptivestatistics-crosstabs(2)选择一个变量作为行变量到row框.(3)选择一个变量作为列变量到column框.(4)可选一个或多个变量作为控制变量到layer框.–控制变量的层次设置:同层为水平数加;不同层为水平数积.(5)是否显示各分组的棒图(displayclusteredbarcharts)产生交叉列联表•应用举例户口与收入水平有关联吗吗？行变量：户口；列变量：月收入不同户口不同收入水平的储户对物价水平的看法一致吗？行变量：收入水平；列变量：物价水平；控制变量：户口•产生交叉列联表•应用举例•不同户口不同收入水平的储户对物价水平水平的看法一致吗？产生交叉列联表•进一步计算–cells选项:选择在频数分析表中输出各种百分比.•row:行百分比(Rowpct);•column:列百分比(Colpct);•total:总百分比(Totpct);分析列联表中变量间的关系•目的：通过。

7、列联表分析，检验行列变量之间是否独立。•方法：–卡方检验：对品质数据的相关性进行度量分析列联表中变量间的关系•卡方检验年龄与工资收入交叉列联表低中高青40000中05000老00600低中高青00500中06000老40000分析列联表中变量间的关系•卡方检验基本步骤(1)H0:行列变量之间无关联或相互独立(2)构造卡方统计量统计量服从(r-1)*(c-1)个自由度的卡方分布count:观察(实际)频数expectedcount:期望频数(期望频数反映的是H0成立情况下的数据分布特征)Residual:剩余(观察频数-期望频数)eeofff22)(分析列联表中变量间的关系•卡方检验基本步骤(3)计算卡方统计量的值，并得到该统计量值的概率P值(4)决策。概率P与显著性水平比较，小于等于则拒绝H0,否则不能拒绝•实现步骤•statistics选项•cells选项分析列联表中变量间的关系•应用举例–户口对平均收入水平的分布会产生影响吗？–独立性检验：从一个总体中随机抽样。按某两个属性变量将样本进行分类–不同行业人对的自己职业的选择标准是否存在差异？–一致性检验：从两个总体中独立抽样，。

8、根据一个属性变量将样本进行分类。制造业服务业物质报酬10545稳定性4035分析列联表中变量间的关系•卡方检验的要求:–一般要求列联表中期望频数小于5的格子数不超过20%，否则会夸大卡方值，容易得出拒绝结论，可以合并单元格。–卡方值会受样本数的影响分析列联表中变量间的关系•行列变量相关性的其他测度指标–phi系数：适用于2×2列联表–当行列变量独立时：有：–当行列变量完全相关时：有：–越接近于1，相关性越强。越接近0，相关性越弱212111CACA2121211222112CCRRAAAAn02211AA1•分析列联表中变量间的关系•行列变量相关性的其他测度指标–列联C系数(contingencycoefficient）,通常为[0,1),取值受到行列数的影响（见EXCEL）–V系数[0,1]–值越大表示行列变量的相关性越大nC22)]1(),1min[(2crnV多选项分析•多选项分析的基本思路–定义多选项变量集–多选项频数分析–多选项交叉分组下的频数分析多选项分析•定义多选项变量集目的:将已分解的变量定义为一个集合,便于进行多选项分析–菜单选项。

9、:analyze-multipleresponse-definesets–从原变量中选取被分解的变量(数值型)到variablesinsets框–指定被分解的变量是按多选项二分法(dichotomize)分解还是按多选项分类法(categories)分解的–为变量集命名。系统自动在名字前加字符$.多选项分析•多选项频数分析–菜单选项:analyze-multipleresponse-frequencies•多选项交叉分析下的频数分析–菜单选项:analyze-multipleresponse-crosstabs多选项分析•多选项分析实例分析居民的储蓄目的•采用多选项分类法组织数据在某次市场调查中收集了北京、上海和广州三个城市的受访者对几种常见饮料的喜好情况，可选的饮料有茶、牛奶、咖啡、果汁、矿泉水。（数据是从原始数据库中抽出的一小部分资料），作以下分析：•采用二分法组织数据•受访人群中最受欢迎的饮料是哪种？•男、女喜爱的饮料有无差异？•三个城市的人群对饮料的喜好有无差异？作业•根据第三章的关于学生成绩的合并后的SPSS数据文件做以下处理：–对各门课程分组后，做频数分析，–绘制某两门课程。

10、成绩的直方图–绘制男女生构成的饼图–分别计算男女生各门成绩的基本描述统计量，并对数据的集中趋势、离散程度和偏度加以比较（数字和图形的对比）。