您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 人事档案/员工关系 > 中国工业企业数据库与Stata简介
宏观经济分析与政策模拟讨论班中国工业企业数据库与Stata简介1、中国工业企业数据库介绍2、数据格式转换——Stat-Transfer软件介绍3、Stata12介绍4、Stata操作实例主要内容1.数据库介绍中国工业企业数据库来源于国家统计局。数据库的统计对象为规模以上工业企业,包括全部国有工业企业和年主营业务收入500万元及以上的非国有工业企业,与《中国统计年鉴》的工业部分和《中国工业统计年鉴》的覆盖范围一致。区别是工业企业数据库是企业层面的原始数据,而“年鉴”是按不同维度得到的加总数据。截止2011年,数据库共收录了58万多家工业企业,占中国工业总产值的95%左右,覆盖了中国工业40多个大类、90多个中类、600多个小类,每个企业提供超过上百个变量,是目前国内最为全面和权威的企业层面数据。该数据库是我国经济学和管理学研究领域的重要资料,利用该数据库已有很多学者做出了非常有价值的研究成果。受数据取得难度的限制,拥有该数据库的研究机构在国内还并不多,因此该数据库在研究领域有广阔的应用前景。1.数据库介绍1.数据库介绍数据库里的企业用“法人代码”(FRDM)作为标志。数据库覆盖的企业不会一成不变,每年都有新增企业和减少企业,绝大部分企业的资料是连续的。尽管原则上每个企业的法人代码不会改变,在极少数情况下,企业会改换企业名称或法人代码。数据库从1995年开始,最近更新到2011年。1.数据库介绍数据库对每个企业给出两类信息,一是企业经营成果有关的信息,包括资金流量表、资产负债表和损益表的主要信息,以及雇用员工和生产活动信息;二是对企业身份、生产经营活动内容和状态进行定性描述的信息,以代码的形式出现,在使用时需要使用参照代码表。2.Stat-Transfer介绍•Transfer软件专用于转换不同格式的数据文件,Access数据通过Transfer软件可转换为Stata格式的数据。•(1)数据转换(Transfer)选项卡•(2)变量选择(Variables)选项卡•(3)记录选择(Observations)选项卡•(4)其他选项(Option)选项卡在Transfer这个界面上,通过几个下拉式菜单,选择需要转换数据库的源文件和目标文件的类型、名称,点击转换(Transfer)就可实现数据间的简单转换。软件支持的数据类型包括我们常用的SAS、SPSS、STATA、S-Plus、Excel、EpiInfo等等。如果在转换数据时,只对其中的一部分观察值感兴趣,可以利用“变量选择”或者“记录选择”,进行部分数据转换。2.Stat-Transfer介绍在变量选择上,可选择全部变量,亦可选择部分变量,同时还可在转换中重新设置变量输出的数据类型,如浮点型(float),日期型(date),时间型(time),字符型(string)等。软件还支持优化(Optimize)功能;UseDoubles选项在转换时可将有小数位的变量设置成双精度型(double),保证数据的精度;DropConstants选项,则自动将变量值恒为常数或缺失值的变量略去,这在数据繁多时特别能体现出其优越性。2.Stat-Transfer介绍在记录选择上,可选择全部记录,亦可选择部分记录。这一部分的记录选取,用户可以通过条件限定来实现。如:要求Variable1的值大于300或者Variable2的值为偶数,在选项卡的文本框中输入相应的约束条件:whereVariable1300,或者whereVariable2%2=0。还可以利用软件自带的函数来实现一些较复杂的数据选取,例如,按20%比例进行简单随机抽样(wheresamp_rand(0.2)),按10%比例进行系统抽样(间隔抽样)(wheresamp_syst(10))。2.Stat-Transfer介绍Transfer软件还提供了一些其它的功能,如在转换过程中更换变量名,自动运行变量输出类型的优化功能,设置日期时间型数据的读写格式,对缺失值的各种处理方式的设定,随机种子的产生或设定,设置文本格式文件的读取格式,Excel工作簿中工作表的选取,覆盖文件前确认提示等其它功能。2.Stat-Transfer介绍3.Stata12介绍Stata软件是现今较为流行的统计计量分析软件,具有强大的数据处理和分析功能,且操作简单、使用灵活、易学易用、运行速度极快。Stata的另一个特点是它的许多高级统计模块均是编程人员用宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。安装好Stata后,点击电脑桌面上的Stata图标,即可打开Stata。此时可以看到,在最上方有一排菜单,即“FileEditDataGraphicsStatisticsUserWindowHelp”。在此之下,有五个窗口,分别为:左上“Review”(历史窗口):记录着自启动Stata以来的命令。右上“Variables”(变量窗口):记录着Stata内存中的所有变量。右下“Properties”(性质窗口):显示当前数据文件与变量的性质中上“Results”(结果窗口):显示执行Stata命令后的输出结果。中下“Command”(命令窗口):在此窗口输入Stata命令。3.寻求帮助与网络资源通过多种途径可以获得Stata的帮助,主要的途径有三个:手册、Stata自带帮助和网络帮助。Stata手册是一本学习Stata使用的权威书籍,它按字母顺序排列出了Stata所有相关的命令。Stata的自带帮助系统是使用最方便,也是最常用的方法,我们可以在记住极少量基本命令的基础上,方便地运用Stata命令。3.help和searchStata自带帮助系统:help显示出Stata所有帮助内容的目录结构。比如想了解regress的用法,可在StataCommand中输入如下语句:helpregressStata会提供关于regress用法的详细说明,并配以例子。3.help和search网络帮助可以采用如下命令获得finditscat3searchscat3这两条命令等价,均为寻找绘三维立体图的命令scat3。由于scat3不是Stata内置命令,所以需要通过这两个命令搜索并下载安装后才能使用。区别:help用于查找精确的命令名,search是模糊查找,findit与search命令类似,但其可以进一步搜索网络上的信息。3.几个主要的网站(1)STATA公司官方网站(2)STATA资源链接(3)STATA出版社(4)STATA电子杂志(5)STATA技术公告版://fm://、Stata操作与实例4.1Stata的日志4.2do文件4.3数据导入4.4变量的生成与处理4.5数据的合并4.6数据类型转换4.7描述统计4.8画图4.9回归分析4.1Stata的日志log文件以后缀“.log”表示,用于记录Stata的运行结果。可点击菜单“File”→“Log”→“Begin”,然后输入日志(log)的文件名,并存储在指定的位置。此后,在Stata中的所有操作及其输出结果,都将被记录在此日志中,直至选择退出。如果要暂时关闭日志(不再记录输出结果),输入命令“logoff”。如果要恢复使用日志,输入命令“logon”。如果要彻底退出日志,输入命令“logclose”。如果要查看日志文件中的内容,点击存储位置上的日志文件图标即可。4.1Stata的日志•例:•(开始运行)•logusingD:\Econometrics\logfiles\20150510.log•………………….•(Stata命令)•…………………..•logclose•(结束运行)•从而20150510.log就记录了从“logusing”命令到“logclose”命令之间Stata运行的所有结果。4.2do文件用Stata的do文件编辑器记下做过的工作:在Stata窗口上部的工具栏中有一个小按钮,把鼠标放上去会出现“NewDo-fileEditor”,点击它就会出现do文件编辑器。在do-file文件中,用*表示注释内容,Stata在运行do-file文件时会跳过这些注释语句。4.3将数据导入Stata打开Stata软件后,点击Data→DataEditor图标,即可打开一个类似Excel的空白表格。然后,用Excel打开文件,复制文件中的相关数据,并粘贴到DataEditor中。导入数据的另一方法是,点击菜单“File”→“Import”,然后导入各种格式的数据。Stata默认的数据文件扩展名为.dta,打开stata内置的auto.dta数据库,命令:useauto注意:Stata中字母的大小写是严格区分的,因此Stata建议对于变量名一律使用小写字母。4.3将数据导入Statause命令的基本语句,具体格式如下:use[varlist][if][in]usingfilename[,clearnolabel]含义说明:use是打开数据的命令语句,varlist代表变量名称,if是条件语句,in是范围语句,usingfilename代表数据文件路径。(1)打开数据文件中的全部数据如果想要打开auto数据文件中的全部数据,输入命令:useautoauto.dta美国汽车产业的横截面数据(1978年),变量主要包括:price=汽车的价格,mpg=每加仑油所行驶的英里数,weight=汽车的重量,foreign表示是否是进口车,如果foreign=0代表是国产车,如果foreign=1代表是进口车。4.3将数据导入Stata(2)打开数据文件中的部分变量有时,并不需要将数据文件中的所有变量全部打开,因为原始数据内容丰富,含有很多变量,而研究可能只涉及其中的几个变量。所以若只打开auto文件中的make和price这两个变量,应该使用如下命令:usemakepriceusingautousemakeprice部分表示需要打开make和price两个变量,usingauto部分表示打开的数据文件路径及名称。4.4变量生成与处理(1)生成新变量命令格式:generatenewvar=exp[ifexp][inrange]含义说明:newvar是生成的新变量,exp是由现有变量生成新变量的算术或逻辑表达式,[ifexp]和[inrange]指定对哪些观测计算新变量值。比如:gena=f314*f314(新变量a等于f314的平方)genF=f314/v210变量含义:f314固定资产净值年平均余额v210从业人员平均人数4.4变量生成与处理(2)对现有变量重新赋值命令格式:replaceoldvar=exp[ifexp][inrange]含义说明:oldvar为现有的变量。对满足[ifexp]和[inrange]的样本,oldvar将根据表达式exp重新赋值。比如:replacev211=.ifv211=0(若工业增加值非正,令其取缺失值)replacev211=25in10(令第10个观测中v211为25)gen和replace…if常常在一起使用4.4变量生成与处理(3)改变变量名命令格式:renameoldvarnewvar含义说明:oldvar是原变量名,newvar是新变量名。(4)删除变量或观测dropvarlist(去掉varlist指定的变量)drop_all(去掉全部变量)dropifexp(去掉符合表达式exp的
本文标题:中国工业企业数据库与Stata简介
链接地址:https://www.777doc.com/doc-6400309 .html