您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第2讲.SPSS描述性统计分析
第二章SPSS描述性统计分析本章主要内容:SPSS频数分析SPSS描述统计分析SPSS探索性分析SPSS列联表分析统计分析的目的,是研究总体的数量特征。但是,实践中能够得到的往往是从总体中随机抽取的一部分观察对象,它们构成了样本。通过对样本样本的研究,来对总体的实际情况作出可能的判断。因此,在数据收集、整理完毕,进行深入分析之前,首要的工作就是去了解数据的整体情况,随后才能做深入的推断。为了实现上述的分析,往往有两种实现方式:1)数值计算,通过数值来准确的反映数据的基本统计特征;2)图形绘制,即绘制常见的基本统计图形,通过图形来直观展现数据的分布特点。通常,两种方式混合使用。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在菜单栏的“分析→描述统计”子菜单中。SPSS频数分析概述:频数分析是描述性统计中最常用的方法之一,他能够了解变量取值的状况,对把握数据分布特征非常有用。频数分析过程是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位的数值以及常用的条形图、饼图等统计图。整体分析与设计的内容SPSS频数分析一、操作(实践数据:产品的销售量.sav)1)菜单“分析→描述统计→频率”。2)对话框中,左侧选择一个或多个待分析变量,移入右侧。3)“显示频率表格”,勾选该复选框,可输出频数分析表。整体分析与设计的内容SPSS频数分析二、几个重要的设置对话框“统计量”按钮对应的对话框:1)四分位数:显示25%、50%、75%的分位数。2)割点:勾选后可输入数值A,将数据平分为A等分。例如,输入5,表示输出20%、40%、60%、80%的百分位数。3)百分位数:选中后,可激活右侧的文本框和列表。可输入、更改和删除自定义的百分位数。输出反映数据离散程度的统计量。输出反映数据集中程度的统计量。输出描述数据分布形状及特征的统计量。整体分析与设计的内容SPSS频数分析“图表”按钮对应的对话框:注:1)选择直方图选项,则不能再设置图表值选项。2)在选中直方图选项后,可以进一步选择在直方图上显示正态曲线。3)仅适用于连续型的数值型变量。“格式”按钮对应的对话框:将所有变量集中在一个图形中输出,以便比较。每个变量单独输出一个图形。控制频数表输出的分类数量,当频数表的分组数大于设定值时,禁止其输出。用以避免产生巨型表格。整体分析与设计的内容SPSS的频数分析基本统计信息汇总表。N表示进行统计分析的样本总量;Valid表示有效样本量:Missing表示缺失样本数目。Percentiles列出了销售数据的四分位数频数分析表。Frequency表示变量值落在某个区间(或类别)中的次数;Percent是各频数占总样本数的百分比;ValidPercent是有效百分比;CumulativePercent是累积百分比,指各百分比逐级累加起来的结果。三、输出结果分析整体分析与设计的内容SPSS的频数分析从图形特征看,数据呈右偏分布。历史销售数据总体数值偏大;同时,最大值“27”差不多是最小值“14”的一倍,说明这种产品的销售量不是很稳定,具有较大的波动性。整体分析与设计的内容SPSS的描述统计分析一、原理统计量是研究随机变量变化综合特征的重要工具,描述性统计量的分类如下:对数据特征的描述集中趋势离散程度分布形态均值众数中位数其他指标全距标准差方差离散系数其他指标偏度峰度整体分析与设计的内容SPSS的描述统计分析1、集中趋势集中趋势是指一组数据向某一中心值靠拢的倾向。均值(Mean):反映了某变量所有取值的集中趋势或平均水平。12...nxxxxxnn均值往往会受到异常大和异常小的数值影响,所以对于严重的偏态分布,均值会失去应有的代表性。众数(Mode):分布数列中最常出现的标志值,频数或频率最大。众数适用于单峰对称的情况。对于多峰的分布则不适用。中位数(Median):指将分布数列中各单位的标志值依其大小顺序排列,位于中间位置的标志值称为中位数。中位数来描述连续变量,会损失很多信息。例如,其他变量比中位数大多少或小多少等。整体分析与设计的内容SPSS的描述统计分析2、刻画离散程度的描述性统计量离散程度是指一组数据远离其中心值的程度,即考察数据分布的疏密程度。全距(Range):也称“范围”,是数据中最大值和最小值之差,又称“极差”。Range=最大值-最小值211()1niiSxxn全距说明了数据的整体变动范围,但不能反映其间变量分布情况。标准差(StandardDeviation):指变量取值距离均值的平均离散程度的统计量。方差(Variance):是标准差的平方。方差在使用上存在一点不足:量纲不统一。整体分析与设计的内容3311()/1niiSkewnessxxSnSPSS的描述统计分析3、刻画分布形态的描述性统计量分布形态是指数据是否对称,偏斜程度如何,分布陡缓程度如何等。偏度(Skewness):是描述变量取值分布形态对称性的统计量。当偏度值为0,说明数据对称分布;当偏度值大于0,表示变量取值右偏,在直方图中有一条长尾拖在右边;当偏度值小于0,表示变量取值左偏,在直方图中有一条长尾拖在左边。峰度(Kurtosis):用来描述变量取值分布形态陡缓程度的统计量,是指分布图形的尖峰程度。当数据分布和标准正态分布陡缓程度相同时,峰度为0;峰度大于0说明数据分布比正态分布陡峭,为尖峰分布;峰度小于0为平峰分布。4411()/31niiKurtosisxxSn整体分析与设计的内容SPSS的描述统计分析二、操作描述性统计分析过程是统计描述应用最多的一个过程。在这个过程中,可以将原始数据转换为标准值,并以变量形式保存,供以后分析。菜单:“分析→描述统计→描述”。示例数据:奥斯卡获奖者年龄.sav标准化处理,同时产生相应的Z得分,并作为新变量保存在数据窗口。新变量为原变量名+前缀Z。标准化的计算公式:iiXXZSXi是变量X的第i个取值;S是标准差。整体分析与设计的内容SPSS的描述统计分析三、输出分析N栏显示男、女样本容量相同;从均值上看女男;男的全距和标准差都小于女的,说明男演员获奖年龄波动幅度小于女演员;从峰度和偏度看,两组数都不服从正态分布。整体分析与设计的内容SPSS探索性统计分析一、方法原理探索性数据分析(ExplorataryDataAnalysis,简称EDA)的基本思想是从数据本身出发,而不拘泥于模型假设;采用灵活的方法来探讨数据分布的大致情况,为进一步结合模型的研究提供线索,为传统的统计推断提供良好的基础,并且减少盲目性。在实践中,数据分析往往分两个步骤,即探索性数据分析和实证分析。探索性数据分析是从复杂的数据中分离出数据的基本模式和特点,让分析者发现其中的规律,以便选择分析方法;而对于探索性数据分析中发现的数据规律,分析者需要使用特定的统计模型进行实证分析,以确定规律是否正确。一般的,探索性分析主要考察以下内容:1)检查数据是否有错,并决定是否删除异常数据。2)获得数据分布特征。3)对数据初步观察,发现一些内在规律。整体分析与设计的内容SPSS探索性统计分析二、操作探索性数据分析过程用于计算指定变量的探索性统计量和有关的图形。从这个过程中可以获得箱图、茎叶图、直方图、各种正态检验图、频数表、方差齐性检验等结果,以及对非正态或正态非齐性数据进行变换,以表明和检验连续变量的数值分布情况。菜单:“分析→描述统计→探索”(示例数据:中国南北城市温差.sav)因变量列表,即待分析变量列表。可从左侧列表中选择一个或多个变量。因子列表,用作数据分组分析。如果选择了多个变量,则组合分组。标注个案,可选择一个变量做标签。当发现异常值时,可利用该变量做标记。若不选这个变量,系统默认以id变量为标签。整体分析与设计的内容SPSS探索性统计分析二、按钮对应的界面介绍统计量对话框输出前面所讲述的各个描述统计量,并可设置均值的置信区间。求出中心趋势的最大似然比的稳健估计量。界外值要求输出显示5个最大值与最小值。在输出窗口被表明为极端值。输出结果显示5%,10%,25%,50%,75%,90%和95%的百分位数。“选项”对话框从所有分析中,将因变量或分组变量中带有缺失值的观测量予以剔除。从当前分析中,将有缺失值的观测量均予以剔除。将分组变量中的缺失值单独分组进行统计。整体分析与设计的内容SPSS探索性统计分析二、按钮对应的界面介绍“图”对话框箱图。1)按因子水平分组,每个因变量生成一个单独的箱图,便于组间比较。2)不分组:所有因变量生成一个复合的箱图。描述性图。分茎叶图和直方图两种。输出显示正态概率与离散正态概率图。幂估计:对每一组数据产生一个中位数的自然对数与四分位数的自然对数的散列点图,达到方差齐次性要求的幂次估计;并据此散布图,来估计将各组方差转换成同方差所需的幂次。转换:对原始数据进行变换。可在下拉列表中选择转换的幂值。未转换:不对数据进行转换,产生原始数据的散布图。注:“无”是不产生该选项的图形。整体分析与设计的内容SPSS探索性统计分析三、输出结果北方城市温度标准差大于南方城市,说明北方城市一年温度变化较南方大。从分布形态上来看,南方城市为尖峰、右偏特征;北方城市表现为平峰,左偏特征。基本信息汇总,无缺失值。整体分析与设计的内容SPSS探索性统计分析三、输出结果茎叶图。1)Frequency表示观测值频数;2)Stem(茎)表示实际观测值除以图下方茎宽(StemWidth)的整数部分;3)Leaf(叶),表示观测值除以茎宽的小数部分。4)“EachLeaf”:表示每片叶子代表n个观测量。茎叶图在反映整体趋势的同时,还能反映具体的数值大小,因此,在分析小样本时优势明显。M估计量:1)Huber,稳健估计量;2)Tukey,复权估计量;3)Hampel,非稳健估计量;4)Andrew,波估计量。例子中来看:两者差距较大,差异性明显。南方温度均值都高于北方,数据呈正偏态分布,平均值受影响较大。整体分析与设计的内容SPSS探索性统计分析三、输出结果箱图:1)中间粗线为中位数;2)方框两端分别表示上四分位数(75%)和下四分位数(25%);3)两者之间的距离为四分位数间距。--可知,整个方框内包括了中间50%的样本数据;4)方框外的上、下两个细线分别表示除去异常值外的最大、最小值;5)箱图的上、下两端的圆圈和星号,表示异常值。基本概念:1)上四分位数和下四分位数之间的差,称为四分位数差(IQR,InterQuartileRange)。2)大于上四分位数的1.5倍四分位数差,或小于下四分位数的1.5倍四分位数差,称为异常值。3)极端异常值,是超出3倍四分位数差的值整体分析与设计的内容SPSS列联表统计分析一、方法原理在实践中,研究者往往希望对两个甚至多个分类变量的频数分析进行联合观察。例如,考察不同年龄阶段和不同行业的人群购买商品房的意愿,就需要将年龄和行业这两个分类变量交叉起来构成复合频数表,简称为列联表。列联表是指一个频率对应两个变量的表(一个变量用来对行分类,另一个变量用来对列分类),经常被用于分析调查结果,其基本的任务有两个:1)根据收集到的样本数据产生二维或多维交叉列联表。2)在列联表的基础上,对两两变量之间是否存在相关性进行分析。整体分析与设计的内容SPSS列联表统计分析一、方法原理交叉列联表:两个或两个以上的变量交叉分组后想成的频数分布表。一个二维rxc的列联表如下所示:..iijjijjinnnn整体分析与设计的内容SPSS列联表统计分析一、方法原理行列变量间关系:行、列变量的独立性检验。独立性检验是指对列联表中行变量和列变量无关的这样一个零假设进行的检验,即检验行、列变量之间是否独立。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行、列变量往往不是连续等距变量,不符合计算简单相关系数的前提要求,所以一般采用的检验方法是卡方检验,其公式为:2
本文标题:第2讲.SPSS描述性统计分析
链接地址:https://www.777doc.com/doc-1902591 .html