您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > Epidata数据库的整理
2020/4/291统计数据的整理2020/4/29drchenbw@126.com22020/4/29drchenbw@126.com3EpiData的使用情况2020/4/29drchenbw@126.com4EpiData基本情况选择合适的数据管理软件是保证数据质量的重要方面参照EpiInfo的免费软件,由丹麦学者LauritsenJM等人1999年发起,BruusM编写程序而完成,目前为3.1版可在Windows95/98/NT/2000/XP环境下使用2020/4/29drchenbw@126.com5建立数据录入程序,可满足数据的校验录入、双份比较数据库可转变成dBase、Excel文件以及SAS、SPSS和Stata统计分析软件的数据格式为数据管理软件,暂不具有统计分析功能,适于单表,也适于含子表的情形2020/4/29drchenbw@126.com6数据库的建立Epidata(rec)字段数限制999行内写完,记录数29万。Excel字段数限制在256多个Access256个字段个数FoxPro字段数限制在256多个,但可建立表单间的连接。2020/4/29drchenbw@126.com72EpiData的一些限制单用户程序,无网络版记录数最好不要超过200,000~300,000字段数限制999行内写完2020/4/29drchenbw@126.com8数据库的相互转换软件-stat/transferStat/Transfer可实行SAS、SPSS、STATA、EXCEL、FOXPRO、Mintab、matlab、splus、Gauss、Epiinfo等数据的相互转换。2020/4/29drchenbw@126.com9EpiData程序可用于定义数据结构;应用校验原理进行数据录入;编辑/纠正已经录入的数据;确认变量间的一致性、逻辑性;双份录入数据的比较;显示或打印数据核查错误结果留存;显示或打印数据核查错误结果留存;导出数据供统计分析使用。2020/4/29drchenbw@126.com10EpiData的三种文件类型QES文件(调查表文件):定义调查表(问卷)的结构;REC文件(数据文件):存放数据以及已经定义好的编码;CHK文件(核查文件):定义了数据输入时字段的有效性规则。2020/4/29drchenbw@126.com11在EpiData表现为建成QES文件2020/4/29drchenbw@126.com12QES文件字段定义•字符型:用下划线•数字型:用#号,每位一#,##.#•逻辑型:用Y或N,Y、N•日期型:mm/dd/yyyydd/mm/yyyyyyyy/mm/dd•字段名框在{}之中,在3.0版本上也可不用2020/4/29drchenbw@126.com13Epi-data数据库2020/4/29drchenbw@126.com14变量编码根据一定的规则将研究资料转换为可进行统计分析的数码资料的过程。问题:您认为打工的外地人对北京市的社会秩序是否有影响?(单选)1□有很大影响2□有较大影响3□没有影响4□不好说4编码答案2020/4/29drchenbw@126.com15问题:您有几个儿子?几个女儿?1□儿子_______人2□女儿________人23问题变量1变量2变量1的值变量2的值2020/4/29drchenbw@126.com16确定变量如:一个问题中有几个变量:变量由两个部分构成:变量名和变量值。要注意区分何为变量,何为变量值。在调查问卷中还要注意区分问题和变量。2020/4/29drchenbw@126.com17问题001:您的性别:1□男2□女问题002:您目前的婚姻状况(单选):1□未婚2□已婚3□离婚后未再婚4□离婚后再婚5□丧偶后未再婚6□丧偶后再婚7□未婚同居21单选题的变量设置2020/4/29drchenbw@126.com18问题011:您是否有以下疾病:(可多选)1□稳定性心绞痛2□脑梗死3□糖尿病4□痛风5□肾脏疾病6□其他100011复(多)选题的变量设置2020/4/29drchenbw@126.com19变量标记又称变量标签(variablelabel)是对字段内容的一种描述或说明,自动生成设置“以调查表第一个词命名”:例如hos医院名称#,“hos”为字段名,“医院名称”为变量标记2020/4/29drchenbw@126.com20产生REC文件前可提问输入文件标记2020/4/29drchenbw@126.com21变量设置由三个部分组成:变量名、变量标签、及字段类型。如姓名:{name}姓名____________婚姻:{marry}婚姻状况#(1=未婚2=已婚3=丧偶4=离异5=分居6=其他)调查时间:{invtime}调查时间yyyy/mm/dd(录入格式:年/月/日)变量名变量标鉴字段类型录入说明2020/4/29drchenbw@126.com22变量说明变量名的定义要以字母开头,不能以数字、字符开头。变量名的长度一般不能长于8个字节。变量标签(variablelabel)是对字段内容的一种描述或说明,可自动生成2020/4/29drchenbw@126.com23生成字段名----几条规则优先选择用花括号{}括进的文本(“选项”)字段前为空,字段名就取前一个字段名再加上一个数字。如果不存在前一个字段名则使用隐含字段名FIELD1首字符为数字,则在首字符前插N大小写取决于“文件”菜单中“选项”2020/4/29drchenbw@126.com24若选用以调查表第一个词命名;如何自动添加文件名:2020/4/29drchenbw@126.com25在两种模型式分别看下面这段话生成变量间的差异.如:已有{dyear}年饮酒史##,曾经{dstop}戒酒次##,平均每次{stptime}坚持月##,现在{ncont}饮酒#2020/4/29drchenbw@126.com26二数据文件生成(REC)在EpiData表现为生成REC文件本文件基于QES文件而生成产生REC文件前可提问输入文件标记警惕:覆盖文件操作一定要慎重(原来数据库是否已存在数据,若一经覆盖变为空)2020/4/29drchenbw@126.com272020/4/29drchenbw@126.com28三添加字段控制(CHK)本步骤可以使数据输入过程按给定的一些规则和算法完成,这是EpiData功能的最强大体现。添加输入控制的指令以文件形式单独保存,该文件后缀为CHK。程序运行时,自动寻找与扩展名REC相同文件的CHK文件注意:CHK文件与REC文件名称一致且放在同一个路径下。2020/4/29drchenbw@126.com29字段控制的基本功能标签:给出各数字对应的描述性文本限定特定值(数值范围,合法值)指定输入的顺序(跳转)某些字段不得缺项,必须输入重复上一条记录的某字段值2020/4/29drchenbw@126.com30定义是否死亡的范围为0-1。当等于0时跳转到变量胎。数据检验—增加/更改检验项2020/4/29drchenbw@126.com311Rangelegal:合法值的范围.如:1-9\3,52Jump跳转0nzzd13mustenter:必需输入项.4Repeat:重复5Valuelable:值标签2020/4/29drchenbw@126.com32四输入数据选中“输入数据”,给定数据文件,即显示数据录入界面注意事项无键入内容,仅按回车,以缺失值论字段填满,光标自动跳到下一个字段任何时候要退出录入,按F10键即可2020/4/29drchenbw@126.com33数据库打开方式(1)菜单”文件”→”打开文件”→选择要打开的数据库(*.rec);(2)菜单“数据输入/输出”→“数据输入/编辑”→选择要打开的数据库(*.rec);(3)在工作流程栏上点击“4.输入数据”→选择要打开的数据库(*.rec)2020/4/29drchenbw@126.com342020/4/29drchenbw@126.com35变量内容2020/4/29drchenbw@126.com36记录只是被标记为删除,实际上,这条记录仍然存在于数据库中,是可恢复的。2020/4/29drchenbw@126.com37重复前一条记录在当前变量上录入的数据将在接下来的新记录上重复显示。在数据录入过程中,重复显示的数据可以修改。如果某些录入内容在不同记录间改动很少(例如,调查员姓名、调查者所属地区等),这项重复功能可以省去很多重复键入的工作。缺点:新的数据一直提示要保存!2020/4/29drchenbw@126.com38五、双份录入和对比核查两位录入员将同样的调查表输入到两份数据文件中“对两个数据文件进行有效性检查”原理--------两个录入员在同样的字段犯同样输入错误的概率很小,一旦发现输入不一致,则必然有一位出错。2020/4/29drchenbw@126.com392020/4/29drchenbw@126.com40数据的导出2020/4/29drchenbw@126.com41核对结果:(1)数据1与数据2的名称(2)变量名称(3)有效检查结果:------------------------------------------------------------------------------数据文件1|数据文件2------------------------------------------------------------------------------记录键字段:(Rec.#6)|记录#6hos=3|id=200402951|name=dj||ryzdtw=loa|ryzdtw=loA------------------------------------------------------------------------------记录键字段:(Rec.#12)|记录#12hos=3|id=200310547|name=hl||cyzdicd1=O62.1|cyzdicd1=O62------------------------------------------------------------------------------2020/4/29drchenbw@126.com42核对的步骤(1)在窗口中同时打开两个文件。(2)先从病例观察表中查找何者为错。如“cyzdicd1=O62.1”,则表示数据2出错;(3)打开数据2,然后将鼠标放在变量“id”上,然后“跳转—查找记录-200310547”。(4)字段查找“跳转—字段查找”。则就可找到所要改的记录下的字段。2020/4/29drchenbw@126.com43数据文件修改对一个已经包含数据的数据文件可以进行修改。可以增加字段,改变字段的定义或删除字段注意:如果删除字段或改变字段名,数据会丢失!2020/4/29drchenbw@126.com44数据导出EpiData软件产生的数据文件以“REC”作为扩展名,一般不能被其它软件程序所调用数据备份转出为文本文件数据转成dBaseIII格式数据转成Excel格式转出成Stata、SPSS、SAS所用的数据2020/4/29drchenbw@126.com452020/4/29drchenbw@126.com46录入数据时注意问题应注意及时保存(如录入完的当天)数据!以保证数据被破坏时减少到最小程度。应小心修改数据库,特别是删除字段或改变字段名,数据会丢失!CHK文件与REC文件名称一致且放在同一个路径下。否则REC文件不起作用!2020/4/29drchenbw@126.com47数据的质量控制1双
本文标题:Epidata数据库的整理
链接地址:https://www.777doc.com/doc-5124851 .html