您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第4章-Stata简介
第4章Stata简介4.1为什么使用StataStata是目前在欧美昀流行的计量软件,操作简单、功能强大。使用Stata的用户很多,对于昀新计量方法,常可下载由用户写的Stata命令程序(user-writtenStatacommands),十分方便。官方的Stata版本也经常更新,以适应计量经济学的迅猛发展。Stata14已于2015年4月发布,但由于在中国普遍使用的仍是Stata13或更低版本,故本书主要介绍Stata13。24.2Stata的窗口安装Stata后,点击电脑桌面上的Stata图标,即可打开Stata。此时可以看到,在昀上方有一排菜单,即“FileEditDataGraphicsStatisticsUserWindowHelp”。在菜单之下,则为一系列图标,起着快捷键的作用。在图标之下,有五个窗口,分别为(如图4.1)3图4.1Stata13的主要窗口左上“Review”(历史窗口):记录着自启动Stata以来的命令。中上“Results”(结果窗口):显示执行Stata命令后的输出结果。中下“Command”(命令窗口):在此窗口输入Stata命令。右上“Variables”(变量窗口):记录着Stata内存的所有变量。右下“Properties”(性质窗口):显示当前数据文件与变量的性质。4为了使屏幕分割更美观实用,可用鼠标将以上窗口拉到任意大小与位置。然后点击菜单“Edit”→“Preferences”→“GeneralPreferences”→“Windowing”→“Locksplitter”,锁定当前画面。在以后重启Stata时,将自动显示这个画面设置。54.3Stata操作实例以Nerlove(1963)对电力行业规模报酬的经典研究来介绍Stata的实际操作。该数据集nerlove.xls(Excel文件)包括了1955年美国145家电力企业的横截面数据。1.将数据导入Stata打开Stata软件后,点击DataEditor(Edit)图标(也可点击菜单“Window”→“DataEditor”),即可打开类似Excel的空白表格。用Excel打开文件“nerlove.xls”,复制所有数据,粘贴到DataEditor中。6Stata会问你“第一行为数据还是变量名”(Isthefirstrowdataorvariablenames?),点击相应的选择即可(对于此数据集,应选“Treatfirstrowasvariablenames”)。导入数据的另一方法是(特别在数据量很大的情况下),点击菜单“File”→“Import”,然后导入各种格式的数据。但不如直接从Excel表中粘贴数据方便直观。关闭DataEditor(Edit)后,即会看到右上方的“Variables”窗口出现了5个变量,分别为tc(totalcost,总成本),q(totaloutput,总产量),pl(priceoflabor,小时工资率),pf(priceoffuel,燃料价格),与pk(usercostofcapital,资本的租赁价格)。7点击Save图标(也可点击菜单“File”→“Save”),将数据存为Stata格式的文件(扩展名为dta),比如nerlove.dta。以后就可用Stata直接打开此数据集。打开的方式有两种。方法一,点击Open图标(也可点击菜单“File”→“Open”),寻找要打开的dta文件位置。方法二,在命令窗口输入以下命令(假设文件在E盘的根目录)并回车(按Enter键):.useE:\nerlove.dta,clear其中,逗号“,”之后的“clear”为“选择项”(option),表示可替代内存中的已有数据。如要关闭一个数据集,以便使用另外一个数据集,可输入命令8.clear内存中数据将被清空,可再打开另外一个数据集。2.日期数据的导入(可暂时跳过此部分)3.变量的标签在变量窗口,变量的“名字”(Name)旁边显示其“标签”(label)。目前的标签过于简略,缺乏变量的解释信息。点击倒数第3个图标,即可打开变量管理器(VariablesManager)(或点击菜单“Data”→“VariablesManager”),然后编辑变量名、9标签以及变量的存储格式。例:把tc,q,pl,pf与pk的标签分别改为“totalcost”,“totaloutput”,“priceoflabor”,“priceoffuel”与“usercostofcapital”。Stata严格区分大小写字母(casesensitive),建议对于变量名使用小写字母。4.审视数据想看数据集中的变量名单、标签等,可输入命令.describe其中,“describe”的下划线表示,可将该命令简写为“d”。10给数据集加一个标签,说明来自“Nerlove1963paper”:.labeldataNerlove1963paper再次运行命令“describe”,就会看到数据集的标签“Nerlove1963paper”。Note:datasethaschangedsincelastsavedSortedby:pkint%8.0gusercostofcapitalpffloat%8.0gpriceoffuelplfloat%8.0gpriceoflaborqint%8.0gtotaloutputtcfloat%8.0gtotalcostvariablenametypeformatlabelvariablelabelstoragedisplayvaluesize:2,320vars:5obs:145Nerlove1963paperContainsdata11如果想看变量tc与q的具体数据,可使用命令:.listtcq如想中途停止该命令的执行,可点击Break图标,或直接在键盘上同时按“Ctrl+Break”。12r(1);Break16..556315..5014314..4233913..3493512..672511.1.1942510..501229..525138..675137..949116..09895..19754..31543..9942..66131..0822tcq13如改变主意,仍希望显示变量tc与q的全部数据:把光标放在命令窗口,并按键盘上的“PageUp”键即可调用上一命令使用“PageDown”键可调用下一命令。另一简便方法是,在左上角的历史窗口点击任何曾用过的命令:如果用鼠标单击..旧命令,则会把旧命令重新调入命令窗口,按回车后即执行,或将旧命令进行编辑后再执行;如果用鼠标双击..旧命令,则将马上自动执行。14只对数据集的一部分执行命令,比如只看tc与q的前5个数据:.listtcqin1/55..19754..31543..9942..66131..0822tcq如要罗列从第32-36个观测值,可输入命令:.listtcqin32/3636.2.03125335.2.44123534.3.29823433.2.59922032.3.154214tcq15也可通过逻辑关系来定义数据集的子集。如要列出所有满足条件“10000q”的变量tc与q的数据,可使用以下命令.listtcqifq=10000145.119.93916719144.139.42214359143.73.0511796142.67.1211477tcq其中,“=”表示“大于等于”。其他表示关系的逻辑符号为“==”(等于),“”(大于),“”(小于),“=”(小于等于),“~=”(不等于)。16查看具体数据的直接方法是,点击DataEditor(Edit)图标,或者点击该图标右边的DataEditor(Browse)图标。如要删除满足“10000q”条件的观测值,输入命令.dropifq=10000如只想保留满足“10000q”条件的观测值,可使用命令.keepifq=10000175.考察变量的统计特征如果看变量q的统计特征,可输入命令.summarizeqq1452133.0832931.942216719VariableObsMeanStd.Dev.MinMax显示变量q的样本容量、平均值、标准差、昀小值与昀大值。如计算满足条件“10000q”的子样本的统计指标,使用命令.suqifq=10000q413587.752453.9211147716719VariableObsMeanStd.Dev.MinMax18如想看更多的统计指标,使用命令.suq,detail99%1435916719Kurtosis9.47491695%864214359Skewness2.39820290%581911796Variance859628575%250711477LargestStd.Dev.2931.94250%1109Mean2133.08325%2794SumofWgt.14510%434Obs1455%1331%32PercentilesSmallesttotaloutput新增的统计指标有百分位数(percentiles),方差(variance),偏度(skewness)与峰度(kurtosis)。19如果不指明变量,将显示数据集中所有变量的统计指标。.supk145174.496618.20948138233pf14526.176557.87607110.342.8pl1451.976552.23004041.52.3q1452133.0832931.942216719tc14512.976119.79458.082139.422VariableObsMeanStd.Dev.MinMax如果要显示变量pl的经验累积分布函数(empiricalcumulativedistributionfunction),可使用命令.tabulatepl20Total145100.002.32013.79100.002.21711.7286.212.13222.0774.482128.2852.411.9128.2844.141.82617.9335.861.71510.3417.931.642.767.591.574.834.83laborFreq.PercentCum.priceof如要显示内存中3个价格变量之间的相关系数,输入命令.pwcorrplpfpk,sigstar(.05)选择项“sig”表示显示相关系数的显著性水平(即p值,列在相关系数的下方),选择项“star(.05)”表示给所有显著性水平小于或等于5%的相关系数打上星号。21如果pwcorr之后没有指定变量,则显示所有变量的相关系数。0.02630.1328pk-0.1845*0.12541.00000.0000pf0.3310*1.0000pl1.0000plpfpkpf与pl的相关系数为0.331,在5%水平上显著(p值为0.0000);pk与pl的相关系数为-0.1845,在5%水平上显著(p值为0.0263);pk与pf的相关系数为0.1254,在5%水平上不显著(p值为0.1328)。226.画图画变量q的直方图(假定组宽为1000),输入命令.histogramq,width(1000)frequency逗号“,”之后的“width(1000)”与“frequency”为“选择项”(options),分别表示将组宽设为1000,将纵坐标定为频数。020406080Frequency05000100001500020000Q23直方图不连续。如看连续的经验分布图(核密度图),使用命令:.kdensityq0.0001.0002.0003Density05000100001500020000Qkernel=epanechnikov,bandwidth=549.3791Kerneldensityestimate24如画tc与q之间的散点图,输入命令:.scattertcq050100150TC05000100001500020
本文标题:第4章-Stata简介
链接地址:https://www.777doc.com/doc-4085425 .html