您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > STATA软件操作(一)基础数据处理
医学统计学实习课STATA软件的应用(1)1.Stata简介由美国计算机资源中心(ComputerResourceCenter)研制;现在为Stata公司的产品;目前最高版本11.0;操作灵活、简单、易学易用,同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点。STATA的用户界面命令回顾窗口变量名窗口命令窗口结果窗口STATA语法格式[特殊选项]关键词命令参数[,命令选项]STATA的运算Stata的加、减、乘、除及乘方运算符依次是+、-、*、/和^。Stata的关系运算符有:==(等于)、(大于)、=(大于等于)、(小于)、=(小于等于)、~=(不等于)Stata的逻辑运算符有:&(“与”)、|(“或”)、~(“非”)STATA的最基本操作list变量列表(缩写:l)列出内存中数据的内容display表达式(缩写:di)直接输出表达式的计算结果计算di2+3disqrt(5)运算操作di1*5di100*(100+1)/2di54di54&43di54&43di54|43di54&43di~54STATA的函数:helpfunctions数学函数abs(x),sqrt(x),exp(x),ln(x),log10(x)……统计函数norm(u),invnorm(p),ttail(df,t),invttaill(df,p)……字符串函数length(s),substr(s,n1,n2),string(x),real(s)……特殊函数int(x),max(x1,x2,…),autocode(x,k,min,max)……随机数函数uniform(seed),invnorm(uniform())STATA的变量STATA的变量名可以由英文字母,数字,下划线组成。大小写有区别A≠a关键字或系统变量不得用作变量名。系统变量_N_n_pi结果变量STATA的数据输入与储存数据输入直接从键盘输入;使用数据编辑窗口输入;打开已有数据文件和拷贝;粘贴方式交互数据。直接从键盘输入命令:input变量名列表数据输入以“end”结束不可重复输入变量inputxx1.12.23.34..5.66.end.inputxyxy1.122.343.564.4.5..86.877.end.inputxyxy1.12........6.877.end.inputxzxalreadydefinedr(110);使用数据编辑窗口输入进入数据编辑窗口直接输入“edit”在工具条上点击双击每一列的标题可以更改变量名每一行代表一条记录每一列代表一个变量打开已有数据文件与表格式文件交互粘贴与Excel,Word的表格等直接通过复制-粘贴的方式交互数据。STATA的数据输入与储存数据存储save命令FileSaveAs菜单方式命令方式STATA的数据打开数据打开use命令Fileopeninsheetusing“C:\data.txt”数据库的维护数据库的排序:sort变量清单gsort+/-变量清单sortx按变量x中数值从小到大进行排列gsortx按变量x中数值从小到大进行排列gsort-x按变量x中数值从大到小进行排列STATA数据库的删除操作删除变量或记录dropx1x2/*删除变量x1和x2dropx1-x5/*删除数据库中介于x1和x5间的所有变量(包括x1和x5)dropin10/12/*删去第10~12个记录dropifx0/*删去x0的所有记录dropifx==./*删去x为缺失值的所有记录dropifx==.|y==./*删去x或y之一为缺失值的所有记录dropifx==.&y==./*删去x和y同时为缺失值的所有记录drop_all/*删掉数据库中所有变量和数据STATA数据库的保留维护保留变量或记录keepin10/20/*保留第10~20个记录,其余记录删除keepx1-x5/*保留数据库中介于x1和x5间的所有变量(包括x1和x5),其余变量删除keepifx0/*保留x0的所有记录,其余记录删除STATA的变量赋值用generate产生新变量gen新变量=表达式genbh=_n/*将数据库的内部编号赋给变量bh。gengroup=int((_n-1)/5)+1/*按当前数据库的顺序,依次产生5个1,5个2,5个3……。直到数据库结束。geny=log(x)ifx0/*产生新变量y,其值为所有x0的自然对数值log(x),当x=0时,用缺失值代替。STATA的变量赋值egen[类型]新变量=fcn(argument)[,选择项]fcn是功能项:seq(),fill(),rsum(),rmean(),rmin(),rmax(),rfirst(),rlast()例:setobs12egena=seq()egenb=seq(),from(1)to(3)block(3)egenc=fill(24)egend=rsum(abc)egene=rmax(abc)STATA数据库的替换替换已存在的变量值replace变量=表达式replacebolck=6ifblock==0/*将block=0的数全部替换为6。replacez=.ifz0/*将所有小于0的z值用缺失值代替。replaceage=25in17/*将第17条记录中的变量age替换为25。STATA数据库的更名变量更名rename原变量名新变量名renamevar1x/*把var1更名为xSTATA数据库结构维护纵向连接数据库:appendusing文件名横向连接数据库:merge关键变量using文件名例x0x1id245014501210024002230038003159042004x0x1id355024501200024002300018003395032004380032505ex1ex2STATA数据库结构维护行列互换xpose,clear[varnameformat(%fmt)]选项:varname/*将原数据库中的变量名放在一个名为_varname的变量中format(%fmt)/*转换的同时,将所有变量转换为规定格式%fmt例:ex7xpose,clearformat(%9.1f)xpose,clearvarnameSTATA数据库结构维护列数据的接龙将一个或多个变量的值依次接到某个变量后stack变量名1变量名2…,into(新变量名)clearstack变量名1变量名2…,group(#)clear*/#必须能被变量数整除STATA数据库结构维护动态观察数据两种结构转换reshapelong变量,i(个体识别变量)j(时间变量)/*将横向结构数据转变为纵向结构数据reshapewide变量,i(个体识别变量)j(时间变量)/*将纵向结构数据转变为横向结构数据例:reshapelongh,i(no)j(time)reshapewideh,i(no)j(time)noh1h21156.6142.32148.8134.43133.1150.34140.7141.95139.2143.56140.2138.17134.9142.98141.4140.99138.5134.710148.9141.211144.4135.512145.4140.2reshapelongh,i(no)j(time)notimeh11156.612142.321148.822134.431133.132150.341140.742141.951139.252143.561140.262138.171134.972142.981141.482140.991138.592134.7101148.9102141.2111144.4112135.5121145.4122140.2ex8STATA数据库结构维护频数的展开expand命令例:expandf01092158ba数据库结构的转换频数的展开fab900501210811expandffab900501210811900900900900900900900900501501501501210811811811811811811811ex9STATA的作图作图命令graphgra[变量名][,图形类型通用选择项特殊选择项]图形类型histogram/*直方图,为缺省值。oneway/*一维散点图twoway/*二维散点图、线图matrix/*二维散点图阵bar/*条图、百分条图pie/*圆(饼)图box/*箱式图star/*星形图直方图人数身高(cm)124132140148156164010203040142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.9graph7x(version7)graph7x,bin(10)freqxlab(124,132to164)ylab(0,5to40)norml1(人数)b2(身高)xlab(124(8)164)ylab(0(10)40)bin(#)指定直方图中的分组数,缺省值为5freq指定以频数为纵轴画图,缺省时为以频率为纵轴xlab\ylab指定坐标轴刻度b2()\l1()在图形下方添加副标题\在图形左侧添加标题normal在直方图上加上正态分布曲线人数身高124132140148156164010203040练习输入数据包含变量exercise将变量更名为x,y将数据按y由大到小排序产生新变量id,使之等于每个观察对象的当前顺序产生新变量z,当y取值小于5时使z=0,当y大于等于5时,使z=1;删除y取值缺失的记录。练习某市1982年110名7岁男童的身高(cm),试画出频数分布图。112.4119.3120.1116.4117110.8125.1115.4122.5121.5118.3116.3126.2124.4112.7114.8123.2114.8126.1113.2119.8123.5110.3122.8124.4122113116.3120117.7121.5116.8132.5117.4114.9121.8119.7125.6118.4123.8130.5128118.1122.4118.4117.2114.3123121119.5129.11201
本文标题:STATA软件操作(一)基础数据处理
链接地址:https://www.777doc.com/doc-4240539 .html