您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > SPSS-问卷的数据处理解析
StatisticalProgramforSocialSciences第一讲SPSS简介及数据编码录入1简介SPSS是StatisticalProgramforSocialSciences的简称,即社会科学统计程序,由美国SPSS公司1970年代推出,迄今已有近30年的历史。是国际著名三大社会科学统计软件包之一(SAS、SPSS、Statis)。2进入SPSS之前的准备工作2-1-1数据资料的形式:矩阵式数据数据要求每一横行为一个个案(Case),纵列按变量排列,形成矩阵格式。2-1数据资料的形式及编码编码录入2-1-2编码的概念:根据一定的规则将研究资料转换为可进行统计分析的数码资料的过程。问题025:您认为打工的外地人对北京市的社会秩序是否有影响?(单选)1□有很大影响2□有较大影响3□没有影响4□不好说4编码答案2-1-3编码的步骤:1)确定变量;•变量:用来反映文意概念的量化形式。在统计中往往指最小的分析单位。编码就是对变量进行编码。变量由两个部分构成:变量名和变量值。要注意区分何为变量,何为变量值。在调查问卷中还要注意区分问题和变量。问题009:您有几个儿子?几个女儿?1□儿子_______人2□女儿________人23问题变量1变量2变量1的值变量2的值2)制作编码表变量名码位码数尺度编码不适用不知道未回答缺失值备注num1-44IntervalDirectW0151CategoryD99W01a6-72ID9999W0281CD99W0391OrdinalD99W04101OD0,9W05.1111C0-199W05.2121C0-199W05.3131C0-199W05.4141C0-199W05.5151C0-199W05.6161C0-199W05.7171C0-199W06181CD99W07191CD79W08.120-212ID97989999W08.222-232ID97989999W08.324-252ID97989999直接过录0-1编码变量名:一个数据文件中,一个变量只能有一个唯一名称。码位:某一变量在数据文件中占据的栏位码数:某一变量由几位数组成。该变量是数值型(Numeric)——如定距、定比,还是字串型(String),如定类、定序。前者在统计中可以做高级运算,后者则不可以。不适于被访人回答的问题的编码。一般采用7,97,997等。被访人回答不知道时的编码。一般采用8,98,998等。被访人拒绝回答某变量时的编码。一般采用9,99,999等。问卷中出现漏答时的处理编码。一般采用9,99,999等。问题001:您的性别:1□男2□女问题002:您目前的婚姻状况(单选):1□未婚2□已婚3□离婚后未再婚4□离婚后再婚5□丧偶后未再婚6□丧偶后再婚7□未婚同居23问题011:您家中是否有下列物品:(可多选)1□电话2□传真机3□有线电视4□卫星电视5□大哥大6□BP机1000113)编码:根据编码表对问卷进行编码,而后将编码结果记录在问卷上或编码纸上。2-2数据录入外部式录入内部式录入采用DOS、WPS、CCED等软件,按ASCII码方式录入成文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。采用SPSS数据编辑器(SPSSDataEditor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。一、按照问卷处理的步骤进行描述1、数据输入1)数据编码在进行问卷调查之后,首先要对问卷资料进行整理,包括对调查所得的各种原始资料进行审查、检验和分类汇总。在完成了资料的基本整理以后,就要开始对资料进行编码。所谓资料的编码就是使用一个规定的数字或字符代表一个种类回答。对资料进行编码,可以使众多的资料简化为一连串数字,使这些资料能输入并存储在计算机中,便于进一步分析研究。例如,我们正在进行一项消费者对某种商品评价的调查,要求被调查者回答以下问题:①消费者的性别。②消费者的职业。③消费者的年龄。④消费者对此商品综合评价分数(0~10)。编码说明书如下:问题序号及内容编码及说明1.性别2.职业3.年龄1.男2.女1.工人2.农民3.军人4.机关干部5.学生6.公司职员7.教师8.其他1.18岁以下2.19-30岁3.31-45岁4.46岁以上4.评价如10编码的含义为:①用数字1代表男性;2代表女性。②根据分析的需要,将消费者的职业分为工人、农民、军人、机关干部、学生、公司职员、教师和其他8大类,并分别用数字1~8代表。③根据分析的需要,将消费者的年龄分为18岁以下、19~30岁、31~45岁、46岁以上四组,并分别用数字1~4代表。④根据分析需要,用数字1~10分别代表消费者对商品评价的。举一个具体例子:消费者甲,男性,职业是农民,年龄为36岁,对商品评价为10分。其编码为10203010。在资料编码中,应把握好以下问题:①正确掌握分类的尺度,避免过细导致过于复杂,或者过粗造成资料信息流失。②为保证每一类回答都有类可归,又避免分类过细,可设置一个“其他”的分类。③每一个问题中的分类应含义明确,避免与其他分类产生交叉。④对错误或疏漏的回答可作为特殊的分类,并指定一个特殊的数字或字符代表,如用0或-1等,而不应将其归入其他类中。但是在多项选择题中就要注意到,不同的题型使用不同的方法进行分析的时候,编码也会有所不同,用二分法进行编码时和用分类法进行编码时就会有所不同,根据对一个题目的拆分内容不同编码也不同,具体的说明在数据录入部分会说明。2)数据录入编码结束以后,就要把数据录入到电脑中,但是在此之前还需要对变量进行定义。这些在SPSS中都可以在DataView中完成,包括对变量名、变量类型、变量标签、指标签、缺失值和变量尺度等变量的属性进行规定,规定好以后就可以输入问卷数据了。需要特别注意的是字符型变量的录入。字符型变量仍然可以转化为数字录入,但是必须在DataView中对本变量的Value进行规定,用0表示男,1表示女。定义好之后在录入的时候就不必输男或女,只需要输入1或0就可以了。在具体处理各种类型问题的数据录入的时候,情况要区分为单项选择题、多项选择题和开放题型三种情况。①单项选择题:单选题情况比较简单,只需要将各题的选项数字录入到所对应的题目序号位置就可以了。但是要注意的是,输入的时候按照一行一份问卷(即一行一个个案),一列一个问题(即一列一个变量)进行录入。②多项选择题:多选题比单选题要复杂,通常的处理方法有如下两种:二分法和分类法。当一个多项选择题没有规定要选多少个选项的时候,对多选题的录入采用二分法。二分法要求按照选项来把问题拆开,有几个选项就拆为几个变量,然后每个变量再分别赋值,选择了则赋值为1,不选则赋值为0。比如下面的题目,4、(代表题号)选择您喜欢的颜色_____(可以多选)。红色、橙色、黄色、绿色、蓝色、其他。根据二分法,就可以处理成这样:选择您喜欢的颜色?4.1红色:1=有选,0=没选4.2橙色:1=有选,0=没选4.3黄色:1=有选,0=没选4.4缘色:1=有选,0=没选4.5蓝色:1=有选,0=没选4.6其他:1=有选,0=没选这样对这道题进行拆分之后,就可以像处理单项选择题一样来处理多选题了。当一个多项选择题规定要了选择的项目数时,就采用分类法。它是多选题中要求要选择几个选项,就定义几个单选变量。每个变量的选项都和多项选择题的选项相同。每个变量代表被调查者的一次选择,即记录的是被选中的选项的代码。比如,有一道多选题(设为题1),请选出三个最喜欢的洗涤剂品牌,1汰渍,2碧浪,3立白,4雕牌,5其他。这时则设置三个单选变量,1.1、1.2、1.3,如果被调查者选择的是汰渍,雕牌和其他,则变量值1.1取值为1,1.2取值为4,1.3取值为5。不过此时要注意,在对数据进行分析的时候,一定要把这几个变量打包在一个集里,SPSS才能识别这是对多选题的处理。关于多项选择题的分析,将在最后一部分的实例中进行详细说明。量表分析在社会调查研究中,常常涉及到需要测量一些比较抽象的量,例如“经济地位”、“传统价值观”、“现代化成都”、“生活态度”、“兴趣爱好”等等。这样就需要围绕有关的研究目的或主题设计合理的问卷,那么根据设计出的问题(这里主要是指量表的设计)得到的问卷结果数值是否可靠、准确?这就涉及到问卷信度和效度的分析问题,而在SPSS中,可以很方便地进行这一方面的分析。因此,在进行问卷调查前,应先对问卷进行信度和效度的分析。信度,用T表示真分数,B表示偏差分即系统误差,E表示测量误差即随机误差,X表示按照量表测到的实得分数,那么XTBE=++。若X=T则称此量表是可信的。信度一般规定为真分数的方差在总方差中所占的比例,即信度=22221TEXXssss=-或者定义为;信度=22TXss。效度,由0xXTTBE=+++,此式即把真分数T分解成了xT设计问卷想得到的东西和0T与测量目的无关的东西。若X=T=xT,则称此量表是有效的,所以效度一般定义为是与测量目的有关的分数的方差2xTs和总方差2Xs中所占的比例,即效度=0222221xTTEXXsssss+=-,或者定义为效度=22xTXss。二者的关系:信度高时效度不一定高,效度高时信度一定高。下面主要说明信度分析,常用的信度分析的方法有:重复检测法、交错法、折半法、克朗巴哈a信度系数法。这里重点说明最后一种方法,克朗巴哈提出的用212(1)1KiiTKKsas==--å来测量累加李克特量表的信度,其中K表示量表中题项的总数,2is代表第i题得分的题内方差,2Ts为总题项(总得分)的方差。这种方法是目前最常用的信度系数。经验上,如果克朗巴哈系数大于0.9,则认为量表的内在信度很高,如果克朗巴哈系数大于0.8,则认为是克接受的,如果系数大于0.7,则认为量表的设计存在一定的问题,但仍有一定的参考价值;如果克朗巴哈系数小于0.7,则认为量表设计存在很大问题应考虑重新设计。用SPSS进行信度分析时注意的问题:由于综合评价量表中通常包含若干个子方面,因此,信度分析应针对各个方面主格进行,不可直接对整个量表进行分析。如果某特征下设的多个评估项目并非全部同向,存在反向计分题时,应对它们进行反向处理后再进行信度分析。对于事先设计好的量表进行预测试,就可以用得到的数据在SPSS中进行信度分析,选择菜单项Analyze下的Scale,ReliabilityAnalysis,把参与信度分析的表量选择好,并且选择信度系数和要输出的统计量,就可以对量表进行信度分析了。在进行了信度和效度分析之后,还可以进行问卷的难易度和鉴别度进行分析,这些主要是在进行一些试卷研究的分析中采用的。如果在问卷中有一个题目是以量表的形式出现的,那么分析问卷中的此题可以用因子分析来进行,如现要对远程学习者对教育技术资源的了解和使用情况进行了解,设计一个李克特量表,远程学习者对于教育技术资源的了解和使用。将该量表发放给20人回答,可以得到回收后的原始数据,然后就可以用SPSS进行因子分析的操作,具体操作步骤如下:①录入数据②因子分析(1)选择“AnalyzeDataReductionFactor…”命令,将变量“A1”到“A10”选入“Variables”框中(2)设置描述性统计量(3)设置对因子的抽取选项,即选择因子模型的估计方法,在本题目中选择主成分法(4)设置因子转轴,即选择因子载荷矩阵的旋转方法,在本题目中选择方差最大旋转法(5)设置因子分数,即计算因子得分,并且使用回归法来求因子得分(6)设置因子分析的选项③结果分析当SPSS把结果输出时,就可以对结果进行分析了!(1)KMO及Bartlett’检验(2)对共同度的分析,即公共因子对原始变量的方差贡献(3)陡坡图,SPSS中显示出来的图示可以较为直观得保留的因子数目,即当从第几个因素以后,坡线甚为平坦,因而以保留几个因素较为适宜。(4)整体解释的
本文标题:SPSS-问卷的数据处理解析
链接地址:https://www.777doc.com/doc-2995944 .html