您好,欢迎访问三七文档
SPSS学习笔记SPSS学习笔记描述样本数据一般的,一组数据拿出来,需要先有一个整体认识。除了我们平时最常用的集中趋势外,还需要一些离散趋势的数据。这方面EXCEL就能一次性的给全了数据,但对于SPSS,就需要用多个工具了,感觉上表格方面不如EXCEL好用。个人感觉,通过描述需要了解整体数据的集中趋势和离散趋势,再借用各种图观察数据的分布形态。对于SPSS提供的OLAPcubes(在线分析处理表),CaseSummary(观察值摘要分析表),Descriptives(描述统计)不太常用,反喜欢用Frequencies(频率分析),BasicTable(基本报表),Crosstabs(列联表)这三个,另外再配合其它图来观察。这个可以根据个人喜好来选择。一.使用频率分析(Frequencies)观察数值的分布。频率分布图与分析数据结合起来,可以更清楚的看到数据分布的整体情况。以自带文件Trendschapter13.sav为例,选择Analyze-DescriptiveStatistics-Frequencies,把hstarts选入Variables,取消在DisplayFrequencytable前的勾,在Chart里面histogram,在Statistics选项中如图1图1分别选好均数(Mean),中位数(Median),众数(Mode),总数(Sum),标准差(Std.deviation),方差(Variance),范围(range),最小值(Minimum),最大值(Maximum),偏度系数(Skewness),峰度系数(Kutosis),按Continue返回,再按OK,出现结果如图2图2表中,中位数与平均数接近,与众数相差不大,分布良好。标准差大,即数据间的变化差异还还小。峰度和偏度都接近0,则数据基本接近于正态分布。下面图3的频率分布图就更直观的观察到这样的情况图3二.采用各种图直观观察数据分布情况,如采用柱型图观察归类的比例等。同样以自带文件Trendschapter13.sav为例,我们可以观察一下各年的数据总和的对比:1.选择Graph-Bar-Simple,在“Datainchartare”一项选择Summaryofgroupsofcases,然后按Define,出现图4,图42.选择BarsRepresent-Otherstatistic(e.g.mean),把hstarts一项选入Variable里面,把YEAR,Periodic一项选入CategoryAxis项中,并按ChangeStatistic键,出现图5:图53.在Statistic选项中选Sumofvalues一项,按Continue返回,按OK即可出现图6:图6从图中可以非常直观的看出1965年-1975年间,每年的总体数量对比和各数值多少。三.通过列联表来观察,数据的交错关系。以软件自带的文件UniversityofFloridagraduatesalaries.sav来说明1、选择Tables-BasicTable,在弹出对话框中,选择Graduate到Summaries栏,College到Down,Gender到Across栏,如图7图72、选择Statistics按键,选取Count和layer%到CellStatistics一栏,并按Continue键,如图8图8三、选择Layout按键,选择SummaryVariableLabels-Inseparatelabels(汇总的标签,如本例的Graduate,放在表外),StatisticsLabels-Acrosstop(数据的标签横放在顶部,如本例的Count和Layer%),并在Labelgroupswithvaluelabelsonly前选择打勾(表示只需要具体的标签名就可以,不需要汇总名,如本例Gender和College),如图9图9四、选择Total按键,在Totalsovereachgroupvariable一项前选勾,则输出表会有增加汇总一栏,如图10图10提示,需要什么表格形式可以根据要求来调整,但对输出按键都需要熟悉,多尝试几次就可以看出不同的区别。图11为输出的表格图11重要提示:如果结果变成变量的汇总(SUM),则先选择Data-WeightCases,把Graduate的选项先选入WeightCasesby内,再选回DonotweightCases,按OK即可。对于其他带有编号的一项都可以这样做。这一点不知为何,本人屡次试过总需要这样调整。参考图12图12几种常用的统计方法应用一般来说,最最常用的统计分析有假设检验和回归分析,在SPSS中也有很好的对应工具来做这些分析,但对其基本思路和要求都必须了解,这样才能更灵活的发挥。下面抄录《EXCEL在市场调查中的应用》一书中关于这方面的内容:1.假设检验目的:是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。基本思想:小概率反证法思想。即P0.01或P0.05在一次试验中基本不会生发。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,否则,还不能认为假设不成立。方法:t检验,u检验,秩和检验,卡方检验应用条件:A、各组资料具有可比性B、具正态分布C、方差齐性(即先作F检验,如FF0.05,则P0.1,具方差齐性)2.方差分析目的:又称为变异系数分析或F检验。用于推断两组或多组资料的总体平均数是否相同,检验两个或多个样本平均数的差异是否具有统计意义(也可认为是检验多个总体均值是否有显著性差异注1,这样可能更简单一点)。基本思想:用组内均方去除组间均方的商,即F值,与1比较,若F值接近1,则说明各验均数间的差异没有统计学意义,否则表示有统计学意义。应用条件:A、各组资料具有可比性B、具正态分布C、方差齐性(即F检验)提示,在应用SPSS中,只要死死的记住一个显著系数0.05就可以应用(如果是双尾系数需要除以2),一般的大于0.05接受原假设,小于0.05则拒绝。简单的说,一般结果拒绝就是说样本有差异,样本相对独立,都是表示同一种意思,读这方面书的时候,希望不要让这些名词混乱了思路。SPSS的方差检验中,需要注意下面问题:方差检验中,PostHoc键有LSD的选项:当方差分析F检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著地不同,则需要进行多重比较来检验。LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。2IndependentSamples检验中的Mann-WhitneyU检验与KIndependentSamples中的Kruskal-Walllis(克鲁斯卡尔—瓦里斯)H检验法思想类似,常用来作为非参数检验。2RelatedSamples非参数检验中,一般有Sign普通符号检验法和Wilcoxon威尔科克森符号秩检验法。前者用于研究的问题只有两个可能的结果:“是”或“非”,并且二者遵从二项分布;后者是普通符号检验法的改进,除了可以检验是非外,还可以了解差异的大小。KRelatedSamples非参数检验中,主要有Friedman秩和检验与CochranQ检验二种选择,前者是对多个样本是否来自同一总体的检验,而后者是用于只分为“成功”和“失败”两种结果的定类尺度测量的数据。附录:SPSS假设检验方法使用对照表图13其中相关、配对或有交互作用可以理解为EXCEL的重复,独立或无交互作用可以理解为EXCEL中的无重复。图13表大部分参考《数据分析与SPSS应用》一书,特别说明3.回归分析目的:研究一个变量Y与其它若干变量X之间的一种数学工具。它是一组试验或观测数据的基础上,寻找被随机性掩盖的变量之间的依存关系。A.直线回归方程Yc=abXB.回归关系的检验:求回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。a.方差分析:基本思想是将总变异分解为SS回归和SS乘余,然后利用F检验来判断方程是否成立。b.t检验:基本思想是利用样本回归系数b与总体平均数回归系数进行比较来判断回归方程是否成立。下面摘录《数据分析与SPSS应用》一书关于相关回归和时间序列分析一些概念解释。数据变量间主要存在二类关系:一类是函数关系,一类是相关关系。前者是变量间有确定关系,即一个变量的值能够在其他变量取值确定的情况下,按某种函数关系唯一确定;后者是变量间虽然具有的联系,并非确定关系,如价格与销量量,价格高了,销售量可能会上去,但无法确定销售量是多少。通过散点图来观察,如果点都集中在一条直线附近,是线性相关,如果在一条曲线附近,则为非线性相关。如果一个变量因另一个变量的增加而增加,减少而减少,则二个变量间存在正相关关系,反之则为负相关关系。极端的相关是完全相关和零相关。如某地区购买自行车多少与购买大蒜多少无关,是为零相关。按我的理解,相关分析就是推断变量与变量之间关系的密切程度,回归就是在相关的基础上,找出变量间的拟合模型,从而进一步推测出未来的趋势和变量。而时间序列则是以时间的作为观察的序列,来推断变量间的关系的一种模型。以自带文件Trendschapter13.sav为例,说明一下如何应用这三种分析工具。1.相关打开Trendschapter13.sav文件,可以看到,这个文件的数据是以时间来排序的,在每个值前增加一行序列号变量,如图14图14一个时间序列的影响因素有四种变动:A长期趋势(SecularTrend),B季节变动(SeasonalVariation),C循环变动(CyclicalVariation),D不规则变动(IrregularVariation)。我们可以观察一下这些数据是否存在某种关系,打开Graphs-Sequence,如图15图15把hstarts选入Variables项,把No.选入TimeAxisLables,然后按OK,出现图16:图16从图可以看出,数据总是在一个周期内反复在上下波动,虽然高低的位置不一样,但这种波动显然是随着时间的不同而变化。因此可以察看,因变量与时间的关系如何。选择Data-DefineDates,出现图17图17在Year一栏填入1965,Month一栏填入1,表示数据从1965年1月开始计算。选择Analyze-Correlate-Bivariate,出现图18图18把hstarts,Year和Month都选入Varibales选项,CorrelationCoefficients选择Pearson和Spearman(其实只需要选Spearman就可以,这里只是试一下,作为比较)。注:相关检验中有Pearson(皮尔森)相关系数和Spearman(斯皮尔曼)等级相关,前者也称皮尔森相关系数,是对两个定距变量关系的刻画;后者是用来考察两个变量中至少有一个定序变量时的相关关系。Zero-orderCorrelations(零阶偏听偏相关系数)是按Pearson简单相关系数公式计算得到的相关系数。在皮尔森系数r是对两个定距变量关系的刻画:若-1≤r≤1,|r|越大,表明两个变量之间的相关程度越强。若0r≤1,表明两个变量之间存在正相关。若r=1,则表明变量之间存在着完全正相关的关系。若-1≤r0,表明两个变量之间存在负相关。若r=-1,则变量间的关系为完全负相关。若r=0,表示两个变量之间无线性相关,即零相关。按Option按键,如图19图19在Statistics选择MeansandstandarddeviationsCross-productdeviationsandcovariances,注意,这二个选择是Pearson才有的,如果开始只选择Spearman,则此二项不能选。返回后,按OK如图20:图20从图20看到Year的Pearson系数为0.219,Sig值为0.012,小于P值0.05,与Hstarts显著相关,Month的Pears
本文标题:SPSS-学习笔记
链接地址:https://www.777doc.com/doc-4142713 .html