您好,欢迎访问三七文档
Stata使用已保存的Stata数据1use“c:\myfile\mydata.dta”,clear2sysuseauto(录入系统数据)3webusesorghum(录入网络数据)手动录入Input[type]varname[[type]varname]……Inputstr10nameageNameage1.mike222.bruce28……end如果多个变量为同一类型,可以用括号括起来Inputstr10(nameclass)doublescore从其他文件拷贝和粘贴Excel或其他数据表直接copy和paste从其他文件导入Insheet[varlist]usingfilename[,option]Insheetusingc:\data1.txt新建矩阵matrix[input]matname=()matrixinputmymat=(1,2\3,4)matrixinputmyvec=(1.7\2.93\-5\3)同一行的用逗号分开,不同行的元素用斜杠分开。已有矩阵计算新矩阵matrixmatname=matrix_expressionmatrixd=bmatrixc=(c+c’)/2原假设:K个变量的均值都为0。或原假设:K个变量的均值相等。命令格式:hotellingvarlist[if][in][weight][,by(varname)]notable]其中,根据分类变量varname的不同组进行等均值检验。如果不设定此选项,则默认为实对各组的0均值检验。notable表示不显示各组的均值。例:考察一种新型燃料添加剂的节油功能。数据包含5个变量,id为汽车序号,bmpg1为调入添加剂之前的行驶耗油率,bmpg2为调入添加剂之前的起步耗油率,ampg1为调入燃料添加剂之后的行驶耗油率,ampg2为调入添加剂之后的起步耗油率。利用数据对添加剂的功能进行检验。(数据文件:gasexp)gendiff1=ampg1–bmpg1gendiff2=ampg2–bmpg2hotellingdiff1diff2webusegasexp2,clearhotellingmpg1mpg2,by(additive)模型估计命令格式:manovadepvarlist=term[if][in][weight][,option]模型检验命令格式:manovatestterm[,ytransform(matname)]manovatest,test(matname)[ytransform(matname)]manovatest,showorder011:,:,rijHHij…=至少存在使得webusemetabolicmanovay1y2=grouptestgroup1versusgroup2,3,4manovatest,showordermatrixc1=(3,-1,-1,-1,0)manovatest,test(c1)webusebiochemical,clearmanovay1y2y3=groupc.x1c.x2group#c.x1group#c.x2manovatestgroup#c.x1group#c.x2webusesorghum,clearmanovatime1time2time3time4time5=varietyblockmatrixm1=j(1,5,1)manovatest,showordermatc1=(1,-1,0,0,0,0,0,0,0,0\1,0,-1,0,0,0,0,0,0,0\1,0,0,-1,0,0,0,0,0,0)testforequalvarietymarginalmeansmanovatest,test(c1)ytransform(m1)matm2=(1,-1,0,0,0\1,0,-1,0,0\1,0,0,-1,0\1,0,0,0,-1)matc2=(.25,.25,.25,.25,.2,.2,.2,.2,.2,1)testforequaltimemarginalmeansmanovatest,test(c2)ytransform(m2)1相似性测度统计学中用各种距离来测度变量或观察值的相似性(similarity)或相异性。Stata计算相似性的命令格式如下:Matrixdissimilaritymatname=[varlist][if][in][,option]Option包括:Measure(默认为欧式距离)和variables(变量相似性)比如:matdisD=x1x2x3利用三个变量测度观测值的相似性。matdism=c1-c35in1/5利用变量c1-c35计算前五个观测值的相似性matdiscanbvars=,variables考察所有变量的相似性命令格式1:Clustersinglelinkage[varlist][if][in][,options]Options包括:measure(mearsure)相似性测度方法name(clname)聚类分析的名称generate(stub)生成的分类变量的前缀方法包括:single(最短),complete(最长),median(中间),centroid(重心),average(类平均),wards等。命令格式2:clustermatsinglelinkagematname[,options]比如:clustersinglelinkagex1x2x3,name(l2slnk)clustersinglea1-a60,measure(matching)name(slink)clustersx*,measure(L(1.5))clustermatsinglelinkageD,clear其中,clear(将内存信息替换为聚类信息)K均值聚类Stata命令为:clusterkmeans[varlist][if][in],k[#][option]其中,#表示分为多少组。K中位数聚类的Stata命令:clusterkmedians[varlist][if][in],k[#][option]比如:clusterkmeansx1x2x3,k(3)name(kcl)clusterkmediansx1x2x3,k(4)name(kmcl)对于系统聚类法,Stata可以计算不同分类的calinskiandHarabasz(1974)pseudo-F指数和DudaandHart(1973)Je(2)/Je(1)指数,从而判断最优的分类数。Stata中通过数据停止聚类的命令格式为:clusterstop[clname][,option]Stata中通过矩阵停止聚类的命令格式为:Clustermatstop[clname],variables(varlist)[options]其中,variables(varlist)使用varlist计算停止准则。此项对于clustermat是必需的。option包括:rule(calinski)calinskiandHarabasz(1974)pseudo-F指数,适用于系统聚类和非系统聚类.此为默认项,指数越高,分类越合适。rule(duda)DudaandHart(1973)Je(2)/Je(1)指数和T2指数,仅适用于系统聚类。指数越高,则类别数越合适。T2指数越小,则类别数越合适。比如:clusterstopmyclus,rule(duda)clusterstop,rule(calinski)group(2/20)matrix(z)命令格式:clusterdendrogram[clname][if][in][,option]option包括:vertical垂直型,此为默认项horizontal水平型showcount显示每一分支的观察值个数cutvalue(#)显示相似系数超过#的分层cutnumber(#)仅显示上部#层比如:clusterdendrograml2clnk,horizontalclusterdendrograml2clnkclustertree,cutvalue(75)showcountculstertreeifg3==3,cutnumber(5)showcount列出聚类的详细信息:clusterlistcnamelist对特定的分类数生成分类变量:clustergeneratenewvarname=groups(numlist)[,name(clname)]由分类树生成分类变量:clustergeneratenewvarname=cut(#)[,name(clname)]比如:Clustergeneratec1=groups(3/5)name(l2lnk)Clustergeng2cut=cut(227)例1根据80个学生的弹力(flexibility)、速度(speed)、力量(strength)等体能指标将这些学生分为4组,以便于对其实行不同的教学方案。(数据文件:physed)(1)计算各学生的欧氏距离。MatrixdissimilarityDe=flexibilityspeedstrengthMatrixlistDe(2)计算各变量的相似性系数距离。matdism=flexibilityspeedstrength,correlationvariablesmatlistm(3)利用最短距离法对80名学生进行聚类:clustersinglelinkageflexibilityspeedstrength,name(L2slnk)(4)根据聚类停止法则,在L2slnk聚类中将22家公司分为几类较合适:clusterstopL2slnk,rule(calinski)groups(2/20)matrix(z)(5)做分类树:clusterdendrogramL2slnk,horizontal(6)由分类树生成分类变量:clustergenerateg2cut=cut(2)(7)生成3-5组分类变量:clustergenc1=groups(3/5),name(L2slnk)例2新成立的汽车俱乐部共招募30个会员,每个会员的兴趣爱好根据其调查问卷进行了记录。调查问卷是由35个问题构成的,每个问题的答案都是“是”或“否”。在第一次聚会时,将30个会员安排成5桌,希望将相同兴趣、爱好相同的会员安排到一起。试着利用聚类法进行分析。(数据文件:wclub)(1)对30个会员进行聚类,分为5个类别:clusterkmeansbike-fish,k(5)Jaccardstart(firstk)name(gr5)Clusterlistgr5(2)观察每个类别的人数:tablegr5(3)观察每个类别的兴趣爱好的差异:Tabstatbike-fish,by(gr5)对你感兴趣的问题,选取指标,收集数据,进行聚类分析。要求:分别采用系统聚类法和K均值聚类法分析,并利用聚类停止法则选取最优分类数。画出分类树,生成分类变量。1判别分析判别分析包括线性、二次、逻辑和最小近邻判别分析。(典型)线性判别分析:discrimldavarlist,group(groupvar)[options]candiscvarlist,group(groupvar)[options]二次判别分析:discrimqdavarlist,group(groupvar)[options]discrimlogisticvarlist,group(groupvar)[options]k阶近邻判别分析:discrimknnvarlist,group(groupvar)k(#)[options]2预测predictnewvar,[,s
本文标题:stata-上机
链接地址:https://www.777doc.com/doc-4761910 .html