您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 数据文件的建立与编辑
第二章数据文件的建立与编辑第二章SPSS数据的建立编辑【学习提要】本章主要内容包括SPSS数据文件的特点及其组织方式、数据变量的类型、变量的定义、数据的输入与保存、数据的定位、插入(或删除)个案(或变量)、用户变量集的定义及其使用和SPSS数据文件的合并。•SPSS数据文件是一种有结构的数据文件,它包括数据的结构和内容两部分。其中,数据的结构记录了数据类型、取值说明、数据缺失情况等必要信息,数据的内容才是那些待分析的具体数据。•基于上述特点,建立SPSS数据文件时应完成两项任务,第一,描述SPSS数据的结构;第二,录入编辑SPSS的数据内容。这两部分工作分别在SPSS数据编辑窗口的数据视图和变量视图中完成。§2-1SPSS数据的建立SPSS数据文件的特点•个案(Cases)。在数据处理中,一个研究对象就是一个个案,相当于一个记录,在SPSS数据表格中表现为“一行”。每一个个案记录的是一个研究对象各属性的具体数值,如某学生的所有信息(姓名、性别、年龄、各科学习成绩等)。•样本(Sample)。样本是指具有共同属性的所有研究对象,如某学校一年级学生的所有信息。样本含多个个案,在SPSS数据表格中表现为“n行”。•变量(Variable)。问卷中的每个问题,在SPSS数据表格中表现为“一列”。•变量值(Value)。问卷中的答案就是变量值,也称为观测值。在SPSS系统里,单元格中的数值就是变量值。SPSS数据的基本组织方式•SPSS中的变量与数学中的变量定义是一致的,是指其值可变的量。SPSS中的变量基本属性有四个:变量名、变量类型、变量标签、变量长度。SPSS的变量与常量SPSS变量的起名规则一般是:•变量名的字符个数不多于8个;•首字符应以英文字母开头,后面可以跟除了!,?,*之外的字母或数字;•下划线、圆点不能为变量名的最后一个字母;•变量名不区分大小写字母;•允许汉字作为变量名,汉字的总数不能超过4个;•变量名不能与SPSS内部特有的具有特定含义的保留字相同,如ALL,BY,AND,EQ,GE,GT,LE,LT,NE,NOT,OR,TO,WITH;•SPSS有默认的标量名,它以字母“VAR”开头,后面补足5位数字,如VAR00001、VAR00012等。•总之,在变量起名时,为方便记忆,变量名最好与其代表的数据含义相对应。如果变量名不符合SPSS的起名规则,系统会自动给出错误提示信息。SPSS变量有三种基本类型:数值型、日期型、字符型具体可以参考教科书操作符与表达式数学运算操作符关系运算符逻辑运算符+:加(LT):小于&(And):与-:减(GT):大于|(Or):或*:乘=(LE):小于等于~(Not):非/:除=(GE):大于等于**:幂=(EQ):等于():括号~=(NT):不等于【界面介绍】定义新变量定义变量即要定义变量名(Name)、变量类型(Type)、宽度(Width)、小数位数(Decimals)、变量标签(Label)、数值标签(Values)、缺失值(MissingValues)、单元格长度(Columns)、单元格字符排列方向(Align)和度量尺度(Measure)。1.定义变量名•在Name下的单元格中输入变量名,变量名必须示以字母为首,其长度不能超过8个字母的字符串。在SPSS系统里,可以用中文作变量名,不过尽量不要使用它,这里涉及一个兼容性的问题。2.定义变量类型、宽度及小数位数•在Type下选择变量类型,单击该单元格,出现图标,再单击这个图标中的按钮,打开变量类型(VariableType)对话框,从中选择变量类型,系统默认为数值型。3.定义变量标签•在Label下的单元格中输入标签,SPSS允许定义长达255个字节的变量标签。4.定义数值标签数值标签是对变量的每一可能取值进一步描述当变量是定性或定序变量时,这是非常有用的。系统默认为None(无),当需要定义数值标签时,单击含有“None”的单元格,便进入数值标签(ValueLabels)窗口。5.定义缺失值•SPSS有系统缺失值和用户缺失值两类,系统默认为None(无)。当需要定义缺失值时,单击Missing下含有“None”的单元格,便进入的缺失值(MissingValues)窗口。缺失值有以下三种选项:没有缺失值(Nomissingvalues)、定义1~3个单一数为缺失值(Discretemissingvalues)、定义指定范围为缺失值,同时指定另外一个不在这一范围的单一数为缺失值(Rangeplusoneoptionaldiscretemissingvalues)。•6.定义度量尺度•统计学依据数据的度量尺度(Measure)将数据划分为三大类,即定距型数据(Scale)、定序型数据(Ordinal)、定类型数据(Nominal)。•定距型数据通常是指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据;•定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以用数值或字符表示。如职称变量可以有低级、中级和高级三个取值,可以分别用1,2,3等表示。数值1,2,3都有固有大小或高低顺序的,但数据间却是不等距的;•定类型数据没有固有的大小或高低顺序,一般以数值或字符表示分类数据。如性别变量中的男、女取值,可以分别用1,2表示。数值1,2不存在固有的大小或高低顺序,而是一种名义上的指代。•SPSS中可根据变量的具体含义指定变量属于上述类型。•其他还有单元格长度(Columns)、单元格字符排列方向(Align)一般使用系统默认值就可以了。数据的输入与保存•SPSS数据文件中的数据是在SPSS的DataView窗口中以表格的方式进行录入的。•数据录入时可以逐行录入,即:录入完一个数据后,按Tab键,黑框便自动跳到本行的下一个变量列上;•也可以逐列录入数据,即:录入完一个数据后,按Enter键,黑框便自动跳到本列的下一行上。数据的导入•第一种方法:【File】→【Open】→【Data】第二种方法:复制、粘贴【实验案例】•例2-1某班部分学生数学、英语和语文三门课的成绩见表2-2。请建立相应的SPSS数据文件并将其保存为Excel工作表格式文件。数据见2-1-1.•实验操作步骤⑴点击左下角的VariableView切换到变量定义窗口,定义定类型字符变量“姓名”和“性别”,定距型数值变量为“年龄”、“数学”、“语文”,定序型日期变量“日期”。⑵再切换到数据编辑窗口DataView并录入数据(见数据文件“2-1-1.sav”)。⑶依次点击菜单命令【File】→【Saveas】弹出图2-8所示的对话框。在“Saveastype”框选择“Excel97andlater(*.xls)”,在“Filename”框中输入要存盘的文件名即可保存为Excel工作表格式文件。练习•1自己操作,熟悉并掌握数据文件的建立;•2使用SPSS的帮助功能,利用帮助功能引导操作。变量的管理•1.插入变量在数据视图中插入新变量在变量视图中插入新变量•2定义变量属性(Definecariablesproperties)可在建立变量(名义尺度、有序尺度、度量尺度)的描述性变量标签中提供帮助。其主要功能包括扫描实际的数据值并列出每个被选变量所有的唯一值;识别无标签的数值并提供自动标签功能;从另一个变量复制值标签到被选变量或从被选变量复制值标签到其他变量。实际中基本起到扫描和复制值标签的功能。注意字符串变量不能够被定义纸标签或缺失值种类。3.复制数据属性复制数据属性功能仅用于复制变量名称及变量属性,不能复制数据值。实践应用:可在建立同一个调查文件的空白数据库或者引用其他数据库的相关变量属性的过程中提供帮助。个案的管理•1.验证数据在进行数据录入时,有可能会造成错输或者漏输某项数据或者某个个案,造成数据文件中存在缺失值或者错误值,导致偏倚。可以利用验证(validation)模块对活动的数据集中可疑或无效的个案、变量或数据值加以识别,并予以剔除。•在数据文件validation.sav中查找编号、性别输入错误及月龄超出50~80此范围的个案,并进行剔除。•操作步骤:•1.调用数据•2.数据—验证——加载预定义规则,打开载入预定义的验证规则对话框•3.单击确定按钮,即可加载PASW所预先设置的变量验证规则•4.选择数据—验证规则——验证数据,打开variables选项卡,将需要验证的变量选入分析变量框中•5.单击单变量规则,打开单变量规则选项卡。单击变量x1,在规则栏中选择标记缺失值。•6.同理,选择变量性别x2,在规则列表中选择1,2二分法。•7.单击第三个变量月龄,由于研究范围是50~80月龄之间的幼儿,因此需要自定义该验证规则。此时,单击定义规则,打开定义验证规则,单击新建按钮,在规则定义中输入名称为月龄验证,在有效值菜单中输入范围.•8.单击继续按钮,完成月龄验证规则的自定义,并返回单变量规则,在规则栏中选择刚才建立的月龄验证鬼咋•9.单击确定,即可验证数据。•2.标识重复个案在进行大样本的调研工作中,可能会重复访问某个被访问对象或重复录入某分问卷,造成数据文件中包含重复个案,导致偏离。标识重复个案模块可对重复个案进行查找,并予以剔除。在数据文件identify.sav中查找编号id重复的个案,并剔除。3.排序个案已知数据文件hong1.dbf,请根据体重x6从小到大排序。•4.选择个案可以按照一定的准则选择个案,然后进行统计分析或作图。可通过定义变量值或范围、日期或时间范围、案例行号、数学表达式、逻辑表达式或函数设定选择个案的准则。例对数据库文件hong1.dbf,用三种准则选择满足指定条件的部分个案并进行频率分析。准则1:满足条件2.01=x63.0的婴儿体重,进行关于血红蛋白的频率分析。准则2:随机抽取30%的个案,对血红蛋白进行频率分析。准则3:选取第10例到第33例的婴儿。对血红蛋白进行频率分析。•5.加权个案可在统计分析中对个案给予不同的权重。加权变量中的数值表示数据文件中单个个案的观察数。某地144名正常男子的红细胞数的整理数据见表3-1,试进行描述性统计分析。见数据weight.sav6.其他个案管理功能(1)标识异常个案(2)排序变量数据文件的管理•1.行列装置•例对数据body1.sav进行行列装置•注意:如需单独对某个或某几个个案或变量进行转换,则可使用数据重组模块restructure.2.合并文件数据整理中,需对多个数据文件进行纵向连接或横向合并,形成一个新的文件。例现有3个数据文件cd1.sav,cd2.sav和cd3.sav。试将cd3.sav的个案追加到cd1.sav的后面。将数据文件cd2.sav的变量添加到数据文件cd1.sav内。3.汇总数据可根据多个分组变量对其他变量分别进行汇总统计,并创建一个新的汇总文件,每个个案将包含一个分组。例对数据文件child.sav按性别、年龄进行汇总数据,计算体重、身高、坐高、胸围及头围各组的平均值。
本文标题:数据文件的建立与编辑
链接地址:https://www.777doc.com/doc-3700123 .html