您好,欢迎访问三七文档
复习武汉大学计算机学院武汉大学计算机学院题型单选填空以上主要是sas基础部分分析和问答题:第三章到第五章,每章一个大题武汉大学计算机学院第一部分sas基础武汉大学计算机学院对于常用的一些统计分析方法,SAS系统中的如下三种方法可以达到同样的目的:INSIGHT(“交互式数据分析”)Analyst(“分析家”)直接编程使用SASInsight和分析家不要求具体的步骤。命令方式中比如建库,建立数据集,set,merge等需要重点掌握。武汉大学计算机学院子窗口SAS子窗口有十几个,但初始状态下能见到的是最常用的五个子窗口:●Explorer窗口:资源管理器窗口●Editor窗口:增强的程序编辑器。●Log窗口:记录程序的运行情况。●Output窗口:显示SAS程序中各过程的运行结果。●Results窗口:管理SAS程序的输出结果。1.1.2使用SAS武汉大学计算机学院SAS每次启动时会自动指定5个逻辑库Work,Sasuser,Sashelp,Gismaps,MapsSasuser库保存与用户个人设置有关的文件Sashelp库保存与SAS帮助系统、例子有关的文件。1.1.3SAS对数据文件的管理武汉大学计算机学院逻辑库和SAS文件Libnameaa“e:\sasdata”;Dataaa.class;....SAS数据集SAS逻辑库aaE:\sasdataSas中数据集aa.ClassWindows下文件Class.sas7bdat定义一逻辑库aa新建一数据集class....武汉大学计算机学院SAS的名字SAS的名字(数据集名、变量名、逻辑库名等等)有以下命名规则:1)由英文字母、数字、下划线组成;2)第一个字符必须是字母或下划线;3)不区分大、小写字母。另外,SAS逻辑库名最多用8个字符;数据集和变量的名字最多用32个字符。1.1.3SAS对数据文件的管理name,aBC,x1,student_1,class-1,12abs,stu$武汉大学计算机学院变量分为两种类型:字符型变量和数值型变量。在INSIGHT中,为了区分变量在分析中的不同作用,又按变量的测量水平分为两类:●区间型变量(intervalvariable):区间型变量必须是数值型变量,可以对其观测值进行四则运算,计算各种统计量;●列名型变量(nominalvariable):列名型变量可以是数值型的,也可以是字符型的,在INSIGHT中常起分类作用。1.2用INSIGHT创建数据集武汉大学计算机学院SAS程序概述1.数据步与过程步SAS程序包括多个步骤和一些控制语句,一般情况下由两种类型的程序步(steps)组成:数据步(DATAsteps)和过程步(PROCsteps)。有时SAS程序还包括一些全程语句,用以控制贯穿整个SAS程序的某些选项、变量或程序运行的环境。武汉大学计算机学院2.SAS语言书写规则一个SAS语句有两个重要特征:•由SAS关键词(keyword)开始;•总是以分号“;”结束;•所有的标点符号必须采用英文半角的输入方式SAS程序概述武汉大学计算机学院1.4SAS编程初步SAS系统不仅可以用交互式方式进行数据操作和统计分析,还具备强大的编程语言功能。在SAS系统中,可以利用EDITOR窗口编写程序;武汉大学计算机学院1.4.2指定逻辑库1.一个逻辑库连接一个文件夹•建立逻辑库,又称为指定逻辑库,其实质是把一个库名和一个实际文件夹(此文件夹必须已经存在)联系起来,指定逻辑库的命令语句为全程语句,其格式如下:–LIBNAME逻辑库名路径;•例如指定的库名为“Mylib1”,路径为:“e:\data\”,SAS语句如下:libnamemylib1e:\data\;武汉大学计算机学院例如:dataf2005;inputnumbername$;cards;200541001zhao200541002qian200541003sun200541004li;run;数据集名变量名SAS编程基础CARDS语句表明后面是数据行;1.cards必须与input配合使用;2.在一个data步中只能使用一个cards;3.Cards必须是data步中最后一个语句;4.分号单独使用一行,或者省略;武汉大学计算机学院例如:dataf2005;inputnumbername$@@;cards;200541001zhao200541002qian200541003sun200541004li;run;武汉大学计算机学院计算中心IF语句IF表达式;或IF表达式THEN语句A;[ELSE语句B;]分支语句表达式1N语句B语句AY武汉大学计算机学院计算中心SELECT(选择表达式);WHEN(值列表)语句;WHEN(值列表)语句;……OTHERWISE语句;END;其中“选择表达式”是一个取数值、字符型值的变量或表达式,“值列表”为一项或者若干项,多项之间逗号分开,每项可以是一个与选择表达式相同取值类型的表达式。“语句”可以是单个语句或复合语句。执行SELECT结构时,先计算出选择表达式和值列表中的所有值,然后把选择表达式值由前向后与值列表中的值相比,发现相等值则执行对应的语句,然后退出SELECT结构(不再查看后面的值列表).如果选择表达式的值不等于任何值列表中的值则执行OTHERWISE对应的语句,这种情况下没有OTHERWISE语句会出错。选择语句表达式1表达式2表达式3表达式n-1语句n语句n-1...语句3语句2语句1...真真真真假假假假武汉大学计算机学院SAS过程步的一般形式为:PROC过程名[DATA=输入数据集][选项];过程语句/选项;过程语句/选项;RUN;各个过程步的功能一定要很清楚SAS过程步的一般形式武汉大学计算机学院(5)FORMAT语句和LABEL语句过程步中的FORMAT语句可以为变量输出规定一个输出格式,比如:procprintdata=c200501;formatmath9.1chinese9.1;run;使得列出的数学、语文成绩宽度占9位,带一位小数。武汉大学计算机学院参数与统计量参数(parameter):参数是用来描述总体特征的概括性值。如总体平均值(μ)、总体方差(2)、总体比例(π)等。统计量(statistics):统计量是用来描述样本特征的概括性值。如样本均值()、样本方差(s2)、样本比例(P)等。x会得出并识别37页所有的统计量武汉大学计算机学院1.均值(Mean)2.中位数(Median或Med)3.众数(Mode)4.百分位数(Percentile)2.1.2表示数据位置的统计量武汉大学计算机学院2.1.3表示数据分散程度的统计量1.极差(Range)与半极差(Interquartilerange)2.方差(Variance或Var)3.标准差(Standarddeviation或StdDev)4.变异系数(CoefficientofVariation或CV)武汉大学计算机学院3.计算统计量•选择菜单“Analyze(分析)”→“Distribution(Y)(分布)”,打开“Distribution(Y)”对话框。在数据集sryzc的变量列表中,选择Income为分析变量,选择R_Id,为分组变量。••单击“Output(输出)”按钮,在打开的对话框中包含描述性统计量选项。2.2.1用INSIGHT计算统计量武汉大学计算机学院选择选项矩统计量和分位数,取消默认的选项:“BoxPlot/MosaicPlot”和“Histogram/BarChart”,单击“OK”按钮,即可得到变量Income按“R_Id”分组的各种矩统计量(Moments)和分位数(Quantiles),如图所示。2.2.1用INSIGHT计算统计量武汉大学计算机学院2.3.1定量变量的图形表示1.直方图2.盒形图3.散点图4.线图主要了解各种图形的组成,不要求命令方式武汉大学计算机学院第二部分sas统计部分会要求写程序武汉大学计算机学院3.1区间估计与假设检验的基本概念3.1.1区间估计统计学中的几种分布抽样误差区间估计3.1.2假设检验武汉大学计算机学院?--??????=222)(exp21)(mpxxf01.96-1.962.58-2.5895%99%-1168.27%标准正态曲线下面积恒等于1或100%;区间1的面积为68.27%;区间96.1的面积为95.00%;区间58.2的面积为99.00%。武汉大学计算机学院假设检验的基本思想小概率原理:概率很小的事件在一次试验中几乎不会发生,若小概率事件在一次事件中发生了,就被认为是不合理的。基本思想:首先假设原假设是真的成立,然后考虑在原假设成立的条件下,已经观测到的样本信息出现的概率,如果这个概率很小,这就表明一个概率很小的事件在一次试验中发生了,这与小概率原理相违背,表明原来的假设有问题,应予以否定,即拒绝这个假设。“概率很小”:一般在检验之前都事先指定,比如概率为0.05,0.01等,用a表示,称为显著性水平或检验水平。武汉大学计算机学院武汉大学计算机学院武汉大学计算机学院概率P值实际的显著性水平:概率P值SAS系统根据样本分布和样本数据自动计算一个实际的显著性水平:概率P值Pα,说明实际计算的显著性水平比理论的显著性水平更小,小概率事件在一次实验中发生的几率更小(比理论设定的概率还小)。此时在P值的显著性水平条件下,如果还能够观测到小概率事件发生,则说明假设更加不可靠,应拒绝原假设;P>α,在P值的显著性水平条件下,如果能够观测到小概率事件发生,则说明假设可能没有任何问题。因为观测一个概率比较大的事件,其发生的可能性本来就比较大,故不能对假设做出否定的判断。因此,在SAS系统中进行假设检验,往往从P值入手武汉大学计算机学院配对设计资料t检验的基础理论配对设计主要有四种情况:同一受试对象处理前后的数据;同一受试对象两个部位的数据;同一样品用两种方法(仪器等)检验的结果;配对的两个受试对象分别接受两种处理后的数据。配对t检验的实质同于单样本t检验,可将此类资料看成是差值的样本均数所代表的未知总体均数与已知总体均数=0的比较,其检验统计量构造如下:1,//0-==-=-=nnSdnSdSdtddddmddm0m武汉大学计算机学院武汉大学计算机学院3.2.3使用TTEST过程•TTEST过程可以执行单样本均值的t检验、配对数据的t检验以及双样本均值比较的t检验。1.语法格式PROCTTEST选项列表;[CLASS分组变量名;][VAR分析变量名列表;][PAIRED变量名列表;][BY分组变量名;]RUN;•其中,PROCTTEST和RUN语句是必须的,其余语句都是可选的,而且可调换顺序。武汉大学计算机学院3.单样本总体均值的假设检验•在例3-8中增加原假设选项以及置信水平,代码如下:procttesth0=70alpha=0.01data=sjcj;varA;run;•代码运行结果除了给出变量A在99%置信水平下的均值、标准差的置信区间外,还给出对假设μ0=70,所作的t-检验的p值,如图3-15所示。•结果显示t统计量的p值=0.5734,不能拒绝(57.34%的把握)原假设:均值=70。武汉大学计算机学院4.配对两样本均值的假设检验•在例3-8中检验两套试卷有无显著差异,代码如下:procttestdata=sjcj;pairedA*B;run;•代码运行结果给出了对原假设μ1–μ2=0所作的t检验的p值,如图3-16所示。•结果显示t统计量的p值=0.00050.05,因此拒绝原假设。说明两套试卷有显著差异。武汉大学计算机学院•将两批工人的测量结果看作两个样本,但其数据都放在一个数据集之中,所需的时间值是记录在同一分析变量f之下,而两种方法的差别是由变量g的值加以区分的,所以g可作为分类变量。检验代码如下:p
本文标题:sas期末复习.
链接地址:https://www.777doc.com/doc-2857190 .html