您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第一讲数据的描述性分析
数据分析实验教案朱宁编2014.8.25SAS系统简介SAS(StatisticalAnalysisSystem)系统是国际著名的数据分析软件系统。该系统1966年开始研制,1976年由美国SAS公司实现商业化,1985年推出SAS/PC版本,1987年推出6.03版,目前已推出Windows系统支持的8.2和9.0版,是目前国际上公认的著名的数据统计分析软件系统之一。从1976年SAS开发成功至今,SAS的用户遍及119个国家,它已经成为同类产品中的领导者。在财富500强中,有90%的公司使用SAS。而在财富500强的前100家企业中,有98%的公司使用SAS。如此广泛的应用源于SAS系统的强大的分析功能、可组合的模块式软件系统和简单易学。SAS系统是集数据分析、生成报表于一体的一种集成软件系统。它由基本部分和外加模块组成,其中基本部分包含的功能如下:–基本部分:BASESAS部分;–统计分析计算部分:SAS/STAT;–绘图部分:SAS/GRAPH;–矩阵运算部分:SAS/IML;–运筹学和线性规划:SAS/OR;–经济预测和时间序列分析:SAS/ETS;1.1.SAS的启动1.2.SAS8.0软件界面SAS界面包括三个部分,即程序窗口、日志窗口和输出窗口。EDITOR(程序窗口)编辑窗口用于编辑SAS源程序文件。编辑窗口支持全窗口编辑功能,即光标可以在整个窗口内随意移动,支持Windows系统常规编辑操作,如复制、剪切、粘贴等功能操作。SASV8提供了智能编辑功能,它可根据用户输入的SAS关键字、语句选项、变量名、数据、标记等不同内容显示不同的颜色,当用户输入的字串不正确时,对应颜色不对,警告使用者有错误发生。LOG(日志窗口)运行记录窗口用于显示和记录SAS程序的运行情况,说明程序运行成功或存在错误,当程序出现错误时,LOG记录窗口中以红色字符显示错误信息,以绿色显示一些警告信息。提示使用者修改程序中的错误。OUTPUT(输出窗口)分页显示SAS程序运行所产生的文本输出结果(图形输出通过GRAPHICS窗口显示)。对于文本结果的输出,可以使用主界面的菜单File|SaveAs将结果文档保存在磁盘中,保存的文件扩展名为.lst,但实际上是一种文本文件格式,可以使用文字处理软件,如Word或写字板、记事本等打开并进行编辑修改。对于输出到GRAPHICS窗口的图形,可以使用菜单File|ExportasImage将图形导出保存在磁盘中,图形文件格式可以在“保存类型”下拉列表中选择。1.3.SAS程序结构SAS程序采用模块化结构,模块之间相互独立,每个模块完成一个任务。模块分为两种类型:一种类型是数据模块,数据模块以英文单词data作为开始语句。另一种类型是程序模块,程序模块以proc作为开始语句。模块中的语句之间用“;”分隔,同一个语句的不同项之间必须用一个以上的空格分隔。在一个程序中可以包含多个数据模块和程序模块,模块的位置是任意的。程序按照语句出现的先后顺序执行。(1)SAS程序的语法编写程序时必须遵循所使用的软件的语法规则,SAS程序的语法规则可以归纳为以下几条:①标识符或数据之间至少用一个以上的空格分隔;②每个语句用分号作为结束标志;③变量名或其他名称最多包含8个字符,并且第一个字符为英文字母,名称中不能有空格,或SAS系统的保留符号,如:“-”、“.”、“,”、“…”、“$”等;④SAS程序可以处理带有缺失数据的文件,数据缺失值用“.”表示;⑤SAS程序只处理数值和字符串两种类型的变量,为了和数值变量相区别,输入语句中字符串变量名使用“$”作为后缀;⑥程序中可以包含注释语句,注释语句以“/*”开始,以“*/”结束;⑦除数据外,SAS程序不区分英文字母的大小写。(2)SAS数据集SAS的核心是SAS数据集是SAS文件的一种,一般又以下两部分组成:(1)描述部分包含该数据集的一般信息,包括:数据集的名字及其成员类型、数据集建立的日期和时间、观测的数目以及数据集中每一个变量的特征信息,包括:Name(变量名)、Type(类型)、Length(长度)、Format(输出格式)、Informat(输入格式)、Label(标签)。(2)数据部分包含数据集中收集的数据的值,可以看作是一个矩形的表格。表格的列(columns)称为变量(variables),对应于原始数据文件或其他一些外部数据库所称的字段(fields);表格的行称为观测(observations),对应于原始数据文件或其他一些外部数据库所称的记录(records)或数据行(datalines)(3)逻辑库SAS的逻辑库分为临时逻辑库和永久逻辑库两种。临时库只有一个,名为work,其他的库均为永久库。SAS每次启动时会自动指定4个库标记:work、Sasuser、Sashelp、Sasmap。存放在work中的SAS文件叫临时文件,当退出SAS系统时这些文件会被自动删除。永久文件保存在永久库中,在退出SAS系统时不会被自动删除。所以,通常把作为中间结果或练习使用的数据集保存为临时数据集,而需要以后再用的数据集则可以保存为永久数据集;如果需要备份,最好在退出前把临时文件复制到其他的库中。在Explorer窗口中单击鼠标右键,在右键菜单中选择New,打开NewLibrary对话框,可以建立新库(如把一个库名为Mylib)。如果选中Enableatstartup复选框,则每次打开SAS时所建逻辑库都有效。(4)数据集的导入建立数据集的方法很多,但是,无论是在Explorer窗口中使用VIEWTABLE程序,或是使用INSIGHT模块和“分析家”,还是使用编程操作中专门的数据读入方法来建立数据集,都需要将数据现场输入,费时费力。较为简便的方法是:利用Excel录入数据,并做简单处理,然后将Excel数据表导入到SAS数据集中。导入Excel数据表的步骤如下:①在SAS应用工作间中,选择菜单File下的Importdata……,打开导入向导ImportWizard第一步:选择导入类型(Selectimporttype),默认的类型为Excel数据表,单击Next按钮进入下一步。②在第二步的Selectfile对话框中,单击Browse按钮,在“打开”对话框中选择所需要的Excel文件,返回。然后,单击Option按钮,选择所需工作表,单击OK按钮返回。单击Next按钮进入下一步。③在第三步的Selectlibraryandmember对话框中,选择导入数据集所存放的逻辑库以及数据集的名称,单击Next按钮进入下一步。④在第四步的CreateSASStatements对话框中,可以选择将系统生成的程序代码存放的位置,也可不做选择,直接单击Finish按钮,完成数据集的导入。第一讲数据的描述性分析1.实验目的1.了解SAS程序结构及使用方法;2.掌握使用DATA步建立SAS数据集的方法;3.会用PROC步调用Means、Capability、Univariate、Corr等进行描述性统计分析和解决实际问题。2.实验要求1.会用SAS软件处理数据对建立的数据集进行统计分析;2.掌握PROC步调用Means、Capability、Univariate、Corr等的基本步骤。3.实验原理及常用统计量对于样本容量为n的一个样本:nxxx,,,21。有如下概念:均值(Mean):niixnx11方差:niixxns122)(11标准差:2ss变异系数:(%)100xsCV偏度:niixxsnnng1321)()2)(1(峰度:)3)(2()1(3)()3)(2)(1()1(21442nnnxxsnnnnngnii中位数:)(2),(21)(12,)12()2()21(NiinxxNiinxMnnn分位数:ZnpxxZnpxMnpnpnpp),(21,)1()()1]([上四分位数:75.03MQ下四分位数:25.01MQ三均值:31412141ˆQMQM4.实验相关SAS知识Proc步具有大致相同的程序结构:PROC过程名option(s)statistic-keyword(s);Varvariables;otheroption(s);Run;其中:option(s):Data=要分析的数据集(缺省为最新建立的数据集);variables:要进行统计分析的变量列表(缺省为数据集中的全部变量)(1)Procmeans过程statistic-keyword(s):要输出的统计量关键字,说明如下:N:样本容量Mean:均值Var:方差STD:标准差CV:变异系数Skewness:偏度Kurtosis:峰度Midian:中位数Q3:上四分位数Q1:下四分位数Qrange:四分位极差P1:第一百分位数P5:第五百分位数P10:第十百分为数P90:第九十百分为数P95:第九十五百分位数P99:第九十九百分位数(2)ProcUnivariate过程主要语句形式如下:ProcUnivariateoptions;Varvariables;Outputout=SASdatasetkeyword=name……;语句中“options”部分可以是下列内容的部分或全部:①data=数据集名:指明所要分析的数据集,若省略则表示分析最新生成的数据集。②plot:要求对所分析的各变量的观测值产生一个茎叶图(或水平直方图)、一个箱线图和一个正态QQ图。若某区间的观测值超过48,则不绘制茎叶图,而改绘制直方图。在正态QQ图中,以“*”标示正态QQ图上的点,以“+”标示相应的参考直线。③freq:要求生成包括变量值、频数、百分数和累计百分数的表。④normal:要求对分析的各变量的观测值进行正态性检验,并输出相应的p值。若样本容量不超过2000则使用W统计量进行检验;若样本容量大于2000则使用D统计量进行检验。正态分布的均值和方差分别取样本均值和样本方差。(3)ProcCorr过程主要语句形式如下:Proccorroptions;Varvariables;Withvariables;其中“options”部分可以是下列内容的部分或全部:①data=数据集名:指明所要分析的数据集,若省略则表示分析最新生成的数据集。②pearson:要求输出pearson相关系数矩阵。③spearman:要求输出spearman秩相关系数矩阵。④cov:要求计算协方差矩阵。⑤nosimple:指明不输出每个变量的简单描述性统计量。Varvariables中的“variables”则指出了要计算相关系数矩阵或协方差阵的变量名称,它可以是原数据中数值变量的一部分;若省略此句则SAS系统计算关于数据集中所有数值的相关系数矩阵。5.实例例1(数据见教材P5例题1.2)goptionsvsize=12cmhsize=15cm;dataxueqingdanbai;inputx@@;cards;74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.070.472.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.767.276.572.770.477.268.867.367.367.372.775.873.575.073.573.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4;procmeansdata=
本文标题:第一讲数据的描述性分析
链接地址:https://www.777doc.com/doc-2117367 .html