您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > SAS课件——第16讲 描述性统计过程
SAS软件教程(Celon)celons@163.com1描述性统计过程Means过程Freq过程Tabulate过程univariate过程plot过程chart过程rank过程SAS软件教程(Celon)celons@163.com2统计关键字名称所代表的统计量名称所代表的统计量n单元格频数pctn频数百分比,须指定相应的分母项nmiss缺失数据个数pctsum某变量(数值型)合计占指定合计值的百分比mean均数css离差平方和min最小值tderr均值的标准误max最大值cv变异系数sum合计t用来检测均值是否为零的单侧t值std标准差prt上述t值的统计显著程度range全距,即最大值与最小值之差var方差uss每一变量原始数据的平方和(未校正平方和)sumwgt加权值的总和SAS软件教程(Celon)celons@163.com3Means过程procmeans选项列表;by变量表(分组变量);class变量表(分组变量);freq变量(数值变量,用以表示相应记录出现的频数)weight变量(数值变量,用以表示相应记录的权重系数)var变量表(待分析的数值变量);id变量表(待分析的数值变量);output选项;run;means过程的一般格式SAS软件教程(Celon)celons@163.com41.procmeans选项统计关键词SAS软件教程(Celon)celons@163.com5SAS软件教程(Celon)celons@163.com62.Output语句Output语句的选择项包括:out=sas数据集指定输出数据集名。统计关键字=输出变量名字指定新数据集中的统计项,并给这些统计项的变量命名。等号右边各变量名代表var语句中对应变量的相应统计量。例如:Procmeans;varx1x2;outputout=statsmean=mambstd=sa;Run;其中ma代表x1的均值,mb代表x2的均值,sa代表x1的标准差,x2的标准差不输出。SAS软件教程(Celon)celons@163.com7例7-2-1利用means过程按班级class进行单变量统计。Score1数据集中含有学生成绩的永久数据集。注意by语句与class语句的不同。下面是Score1中的数据:SAS软件教程(Celon)celons@163.com8*ex7-2-1;libnameep'D:\sasdata\SASLX';PROCmeansdata=ep.score1maxdec=3;vart1-t3;classclas;title'statisticswithaclassvariable';run;输出中最多显示3位小数SAS软件教程(Celon)celons@163.com9*ex7-2-1;Procsortdata=ep.score1;byclas;run;PROCmeansmaxdec=3;byclas;vart1-t3;Title'statisticswithbyvariable';run;SAS软件教程(Celon)celons@163.com10使用class语句数据集不需要sort过程排序;使用by语句数据集事先要进行排序。而且两个语句使得输出格式也有些不同。请仔细体会他们的差别。SAS软件教程(Celon)celons@163.com11例7-2-2略;例7-2-3在某一年级中,测得15名男生的身高,数据存于文件“e:\sasdt\fit1.txt”中,求出身高的平均值、标准差、变异系数和95%的置信区间。*ex7-2-3;DATASTUDENT;INFILE'E:\SASDT\FIT1.TXT';LENGTHNAME$10;INPUTNUM$NAMESEX$HW;PROCMEANSDATA=STUDENTNMEANSTDCVLCMLUCML;VARH;RUN;SAS软件教程(Celon)celons@163.com12Freq过程进行统计分析首先应该对我们手头上的数据特征有一个比较明确的了解,比如数据的频率分布或者其他对数据的描述的统计量,这有助于我们对数据的特征,可能的分布有一个比较全面的了解,用于帮助我们决定进一步的研究方法和方向.我们将介绍如何用编程和INSIGHT模块进行描述性数据分析.SAS软件教程(Celon)celons@163.com13例7-3-1对学生成绩进行分段统计分析。Score2.txt为含学生成绩的数据文件,把学生的平均成绩分成A(大于等于80)、B(大于等于60,小于80)、C(小于60)三等,由FREQ过程产生每一分数段的学生人数和占总数的百分数。libnameep'e:\saslx';datab;/*读入数据*/infile'e:\sasdt\score2.txt';inputnum$t1-t3;v=MEAN(OFt1-t3);run;PROCFORMAT;/*产生成绩等级的格式*/VALUEvfmtLOW-60='C'60-80='B'80-HIGH=‘A’;run;PROCFREQdata=b;/*对成绩各等级频数分析*/FORMATvvfmt.;TABLESv;run;SAS软件教程(Celon)celons@163.com14SAS软件教程(Celon)celons@163.com15PROCFREQDATA=数据集名;TABLES变量;RUN;PROCFREQDATA=数据集名;TABLES变量*变量变量*变量.../nocolnorownocumnofreqnopercentmissinglistout=数据集outpct;WETGHT变量名;BY变量名;RUN;一般是分类变量freq过程的一般格式SAS软件教程(Celon)celons@163.com16FREQ(频数)过程--定义输出格式的FORMAT过程procformat;(用于Fitness数据集)valueoxyfmt32.5-37.5='32.5-37.7'37.5-42.5='37.5-42.5'42.5-47.5='42.5-47.5'47.5-52.5='47.5-52.5'52.5-57.5='52.5-57.5'57.5-62.5='57.5-62.5';run;当37.5oxygen≤42.537.5-42.5SAS软件教程(Celon)celons@163.com17FREQ(频数)过程--综合例子Procfreqdata=fitness;formatageagefmt.oxygenoxyfmt.;tablesgroupage/nocum;tablesage*oxygen/nocum;tablesgroup*age/listnocum;tablesgroup*age/out=outoutpct;run;procprintdata=out;run;(bstat21.sas)要求输出集中还包含列百分数和行百分数SAS软件教程(Celon)celons@163.com18SAS软件教程(Celon)celons@163.com19SAS软件教程(Celon)celons@163.com20SAS软件教程(Celon)celons@163.com21SAS软件教程(Celon)celons@163.com22SAS软件教程(Celon)celons@163.com23SAS软件教程(Celon)celons@163.com24SAS软件教程(Celon)celons@163.com25SAS软件教程(Celon)celons@163.com26菜单操作进行简单统计分析利用SAS/INSIGHT进行简单分析我们仍以GPA数据集为例进行窗口操作分析。具体操作步骤如下:SAS软件教程(Celon)celons@163.com27进入INSIGHT模块后,选择要分析的数据集dst.bclass,要看变量sex和weight的柱状图和直方图,可以:1.在表格中选中要分析的变量名sex和weight,方法是:用鼠标先选中其中一个变量列的表头,然后按住ctrl键不放,选中另一个变量列表头。2.选择菜单“分析—直方图/条形图”SAS软件教程(Celon)celons@163.com28SAS软件教程(Celon)celons@163.com29SAS软件教程(Celon)celons@163.com30SAS软件教程(Celon)celons@163.com31SAS软件教程(Celon)celons@163.com32SAS软件教程(Celon)celons@163.com33(抽取)SAS软件教程(Celon)celons@163.com34(输出)SAS软件教程(Celon)celons@163.com35SAS软件教程(Celon)celons@163.com36分析员应用及变量的取值分布用分析员应用进行频数统计并作分布图1.选菜单栏目的统计(Statistics)=统计描述(Descriptive)=频数统计(FrequencyCounts…)=弹出频数统计窗口;2.在弹出的频数统计窗口中选分析变量Y--产生频数表;3.在频数统计窗口下方选plots纽;4.在弹出菜单的条形图(Barcharts)框中点击在Horizontal前方的方框上,使之打勾;5.OK=OK.则显示结果.6.击在屏幕左边的Code上显示完成分析的SAS程序.SAS软件教程(Celon)celons@163.com37SAS软件教程(Celon)celons@163.com38Tabulate过程proctabulate选项列表;by变量名称(分组变量);class变量名称(分组变量);freq变量名称(数值变量,用以表示相应记录出现的频数)weight变量名称(数值变量,用以表示相应记录的权重系数)table页变量表达式,行变量表达式,列变量表达式/表格选项var变量名称(待分析的数值变量,统计量列入相应的表单元格);run;SAS软件教程(Celon)celons@163.com39tabulate过程中table语句用来实现具体的表格绘制过程,其后是作为表格三个维度的分组变量,表示三个维度的变量间以逗号分隔,三个维度分别是页(page)、横轴(side)和纵轴(top)。三个维度不必全部指定,如果只指定一个维度(如本例),SAS将其当作纵轴处理;如果指定两个,SAS将其作为横轴和纵轴处理,前面的变量为横轴,后面的变量为纵轴;若指定三个维度,在最前的变量为页,中间的为横轴,最后的为纵轴。SAS软件教程(Celon)celons@163.com40同一维度可以是一个变量,也可以是多个变量的排列组合,多个变量的排列组合形式如下:(1)并列:变量间以空格相间隔,如“ab”的表格形式如下:a1a2a3b1b2b3(2)交叉:变量间以星号(*)相连接,如“a*b”的表格形式如下:a1a2a3b1b2b3b1b2b3b1b2b3(3)混合形式:变量间以空格或星号分隔,必要时加圆括号,如“a*(bc)”的表格形式如下:a1a2b1b2c1c2b1b2c1c2SAS软件教程(Celon)celons@163.com41另外,和变量一同在table语句中出现的还有一些表示特定统计量的SAS关键词,可以控制相应统计量在表格中的显示。Tabulate过程可以计算的统计量及其在table语句中的名称如下表。名称所代表的统计量名称所代表的统计量n单元格频数pctn频数百分比,须指定相应的分母项nmiss单元格上有遗漏数据的记录个数pctsum某变量(数值型)合计占指定合计值的百分比mean均数css校正的总平方和min最小值tderr均值的标准误max最大值cv变异系数sum合计t用来检测均值是否为零的单侧t值std标准差prt上述t值的统计显著程度range全距,即最大值与最小值之差var方差uss未校正的总平方和sumwgt加权值的总和SAS软件教程(
本文标题:SAS课件——第16讲 描述性统计过程
链接地址:https://www.777doc.com/doc-415274 .html