您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > SPSS数据分析和实践
数据分析实践SPSS应用•选择系统:ks1•开机密码:ks610•网上邻居:510-t•拷贝文件夹“training”到本机•开始程序SPSSforWindows•窗口下方显示:SPSSprocessorisready课程目标1.了解一些统计思想和思维方式例如概率、假设检验、小概率事件原理2.了解SPSS软件的特征3.掌握SPSS的基本操作4.能够应用SPSS进行基本的统计分析5.可以有效的对SPSS进行进一步的自学课程安排第一讲数据分析方法概述第二讲SPSS概述第三讲SPSS基本操作第四讲应用案例简介第五讲几种分析技术的应用第一讲数据分析方法概述什么时候用数据分析?商业问题数据问题!商业问题解决方案把商业问题转化为数据问题数据分析及分析结果把数据结果转化为商业解决方案•背景:拥有一定量的数据•产生需求:从数据中提取信息数据分析统计学•数据分析的依据•统计学:随机性与规律性统计工具•利用统计学原理•服务于数据分析数据分析、统计学、统计工具之间的关系数据分析过程原始数据、二手数据确定研究目标、范围选择研究方案选择数据收集方式和分析技术分析评估所需样本量建立项目预算描述性统计分析推断性统计分析人工智能等数据挖掘特有的算法计分析清理数据使之适合于分析应用对数据进行变换评估数据质量,填充缺失数据对表格、图形进行编辑用word、excel、text、html展示数据数据的价值和利用数据无处不在数据包含的信息很多,但是数据中的信息往往是分散的,单个数据很难直接被应用起来统计学就是把数据转化为信息的科学统计学statistics:thescienceofcollecting,analyzing,presenting,andinterpretingdata.Copyright1994-2000EncyclopediaBritannica,Inc.(不列颠百科全书)统计软件介绍•统计软件的发展,使得统计从统计学家的工具变成了大众的游戏。只要你输入数据,点几下鼠标,做些选项,马上得到漂亮结果。•是否傻瓜式的统计软件的使用可以代替统计课程了?•数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。•国外法律或医学方面的软件都有不少警告,不时提醒你去咨询律师或医生。•但统计软件则不那么负责。只要数据格式无误、方法不矛盾(比如不用零作为除数)就一定给你结果,而且一般没有任何警告。•另外,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。•这就使得使用者大伤脑筋。没有统计学家能解释软件的所有的输出。因此,就应该特别留神,明白自己是在干什么。不要在得到一堆毫无意义的垃圾之后还沾沾自喜。统计软件介绍•统计软件的种类很多。•有些功能齐全,有些价格便宜;•有些容易操作,有些需要更多的实践才能掌握。•还有些是专门的软件,只处理某一类统计问题。•面对太多的选择往往给决策带来困难。•这里介绍最常见的几种。统计软件介绍SPSS•很受欢迎;容易操作,输出漂亮,功能齐全,价格合理。•它也有自己的程序语言,但基本上已经“傻瓜化”。•它对于非专业统计工作者是很好的选择。•帮助功能很好。Excel•严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。•而且凡是有MicrosoftOffice的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行•当然,画图功能是都具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。•多数专门一些的统计推断问题还需要其他专门的统计软件来处理。SAS•这是功能非常齐全(不如R齐全)的软件;•尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国政府机构认可而使用。•尽管现在已经尽量“傻瓜化”(远不如SPSS“傻”),但仍然需要一定的训练才可以进入。•也可以对它编程;帮助系统很差,查寻不易。对于基本统计课程不那么方便S-plus•这是R出现之前统计学家最喜爱的软件。•不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。•它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。R软件•这是一个免费的,由志愿者管理的软件。•其编程语言与S-plus所基于的S语言一样,很方便。•还有不断加入的各个方向统计学家编写的统计软件包。从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。•网上程序资源是方法最齐全的软件。•是用户量增加最快的统计软件。•由于易学,它没有“傻瓜化”。Others•Minitab:•这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍•Statistica:•也是功能强大而齐全的“傻瓜化”的软件,我国用的也不如SAS与SPSS那么普遍•Eviews:一个主要处理回归和时间序列的软经济类件。Others•FORTRAN:•这是应用于各个领域的历史很长的非常优秀的数学编程软件,功能强大,也有一定的统计软件包。•计算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易•MATLAB:•这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。•编程类似于S和R。但是统计方法不多。统计软件介绍•当然,还有其他的软件,没有必要一一罗列。其实,聪明的读者只要学会使用一种“傻瓜式”软件,使用其他的仅仅是举一反三之劳;最多看看帮助和说明即可。理念•统计模型的严格数学表达很复杂、繁琐,但是其背后的思想往往很简单•做为统计学的使用者,重要的是掌握统计学的思想、解决问题的步骤和结果的解读,至于那些研究方法本身的事情,交给统计学家去做吧•复杂的方法未必是可行的方法,越是简单的方法,越容易得到广泛采用,也往往给使用者带来更多的价值•统计学只是一个工具,SPSS更是工具的工具,不要指望它能够“自动”解决你面临的商业问题•要注意统计学方法的适用条件,滥用统计学会造成“严重”的负效果第二讲SPSS简介SPSS由来及其名称•1968年由斯坦福大学的几位研究生开发,是最早的统计分析软件之一•原名statisticalpackageforsocialsciences,即社会科学统计软件包•2002年更名为statisticalproductandservicesolutions,统计产品和服务解决方案SPSS软件的特点易用性(菜单操作)权威性:结果具有权威性兼容性中文(中文数据兼容性、汉化)接口(入口与出口)功能性:强大、企业级统计分析解决方案成熟统计方法大数据量问题SPSS软件结构示意图DatabaseSPSSClientSPSSServer登录并请求连接并请求数据数据发回结果处理数据服务器客户端SPSS软件的模块:Client/Server•SPSSBase----基础模块,整个框架的基础•SPSSAdvanced----混合线形模型、一般线形模型、方差分析等•SPSSRegression---Logistic回归、非线性回归、Probit回归等•SPSSTrends----时间序列分析(ARIMA模型、指数平滑、自回归等)•SPSSCategories----分类数据分析•SPSSConjoint---正交设计和分析、联合分析等,适用于市场研究•SPSSTables----交互式创建各种表格(如堆积表、嵌套表等)•SPSSMaps----在地图上展示数据•SPSSMissingValueAnalysis----缺失值分析•SPSSExactTestAnalysis----精确检验•SPSSComplexSamples----复杂抽样•其它利用SPSS完成一个简单任务•打开一个已存在的数据文件:某银行雇员数据•了解该银行雇员中性别、民族、年龄构成•将结果保存•恭喜!你已经基本学会了SPSS的操作!•在鼠标点击中完成所有工作!操作如此简单!•下面是不是不用学了?DataEditor----数据编辑窗口DataViewVariableViewViewer----结果管理窗口SPSS操作界面----五个窗口应用SPSS进行统计分析的四种方法菜单操作——简单易用,操作方便示例编程运行——灵活丰富,最大程度的发挥SPSS效能示例(菜单中添加)Include命令——保证程序的可重复使用和嵌入示例ProductionFacility——程序运行的批处理、自动化,后台执行示例SPSS的帮助系统•帮助菜单•对话框帮助•结果教练•无处不在的What’sthis?第三讲SPSS基本操作录入练习1序号2姓名3性别1男2女4工作年月日(mm/dd/yyyy)5是否喜欢足球1非常喜欢2喜欢3无所谓4不喜欢5非常不喜欢6每天上网的小时数:小时7拥有以下哪些电器:笔记本电脑、台式电脑、mp3、mp4、电子书录音笔、数码相机、数码摄像机一手数据的录入:•一手数据与二手数据•数据分析对数据的要求:二维表•利用SPSS录入调查数据–在数据编辑窗口的变量视图中定义变量及其属性–在数据编辑窗口逐行录入问卷记录–检查录入错误,保存文件•多选题数据的录入•练习几个基本概念:记录Case:表示每一名受访者的信息,被访者、个人、研究对象,一行变量Variable:也称为字段,表示问卷中的每个问题,一列几个基本概念:•变量的测度水平(Measurement):–尺度型(Scale)–名义型(Nominal)–定序型(Ordinal)几个基本要求:变量名:•首字符必须是字母或中文,或者是@•不能含有空格等非法字符•不能以句点或”_”结尾•不能超过64个字符(32个汉字)•同一个文件中变量名不能重复•不能与SPSS保留字相同。SPSS的保留字有:ALL、AND、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH多选题示例•招聘渠道:–网络–招聘会–校园招聘–猎头–内部推荐–报纸•获取新闻的途径:–电视–网络–报纸–杂志–电台多重二分法示例二手电子数据的利用:打开已存在的电子数据•读取SPSS格式的数据•读取Excel等格式的数据•读取文本数据(Fixed和Delimiter)•读取数据库格式数据•读取其它格式数据•其它读取SPSS文件读取excel文件读取文本格式的数据demo.txt读取文本格式的数据----向导1读取文本格式的数据----向导2分隔符分隔的文本文件:是指变量之间用符号(如逗号、句号、空格、TAB键等)分隔开固定宽度的文本文件:是指每个变量在每一行中所占的列位置是固定的,如第二个变量,均在第3-5列。读取文本格式的数据----向导3casecases读取文本格式的数据----向导4读取文本格式的数据----向导5读取文本格式的数据----向导6Gss91Sm.dat读取固定宽度的文本格式数据在此例中,我们只想读入六个变量(原数据文件包括了更多的信息):受教育年数,婚否,初次结婚年龄,性别,年龄,快乐与否。数据字典如下:变量位置变量标签值标签教育年数1-2受教育年数1=1年,。。。98=不知道,99=无答案婚姻状态3婚姻状态1=已婚,2=丧偶,3=离异,4=分居,5=未婚,9=无答案初次结婚年龄4-5初次结婚年龄18=18岁,ETC,0=拒答,98=不知道99=无答案性别6F=女性,M=男性年龄7-821=21岁,ETC,98=不知道,99=无答案快乐14总的来讲,你是否快乐1=很快乐,2=快乐,3=不太快乐,8=不知道,9=无答案读取固定宽度的文本格式数据•在第二步中选择”Fixedwidth”从数据库中读取数据Northwind.mdb步骤:配置ODBC在SPSS中通过ODBC接口和数据库进行连接,并读取数据从数据库中读取数据我的电脑控制面板管理工具数据源SPSSDataAccessPackage从数据库中读取数据从数据库中读取数据—向导2从数据
本文标题:SPSS数据分析和实践
链接地址:https://www.777doc.com/doc-4372982 .html