您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第5讲--SAS系统与基础统计分析
第5讲SAS系统与基础统计分析1.统计基本概念2.频率分布和常用描述统计量3.计算描述统计量的常用过程4.直方图和分布的拟合检验5.参数估计6.假设检验SAS分析的特点(1)SAS将常用的统计方法用过程实现,是一个高品位的程序系统;(2)SAS是一个迅速发展的系统:融入最新的方法,不断适应用户的新需求;(3)SAS既可由编程也可用图形界面交互地实现分析功能;(4)SAS将各种专门分析方法融入为用户提供的直接使用的专用系统中--应用系统.•如何学习SAS统计分析的功能会找:针对问题和数据选用合适的分析工具.会用:选PROC(过程),选Option(选项),写Statement(语句),或选用菜单系统.会解释:对SAS提供的计算结果给出解释和分析.用SAS完成常规统计的常用方法和过程(1)用编程实现各种任务;(2)用SAS提供的菜单系统实现各种任务:用SAS/INSIGHT:发命令insight用分析员应用(ANALYST)发命令analyst•用SAS/ASSIST等.用SAS系统作常规统计分析,在交互式运行方式下常用的做法有:SAS系统内七种常用的描述性统计程序旨在形容样本(Sample)的平均数标准差偏度峰度等统计值或为样本的数据绘图、制表格。1=PROCMEANS2=PROCSUMMARY3=PROCUNIVARIATE4=PROCCHART5=PROCTABULATE6=PROCCORR7=PROCPLOT•完成基础统计分析的几个常用过程•FREQ:计算变量取值的频数;•MEANS:分类计算变量的常用统计量;•SUMMARY:分类计算变量的常用统计量;•UNIVARIATE:计算单变量的统计量和分布的拟合检验;•CORR:计算变量间的相关系数.频率分布和常用描述统计量•进行统计分析首先应该对我们手头上的数据特征有一个比较明确的了解,比如数据的频率分布或者其他对数据的描述的统计量,这有助于我们对数据的特征,可能的分布有一个比较全面的了解,用于帮助我们决定进一步的研究方法和方向.我们将介绍如何用编程进行描述性数据分析.FREQ过程(频数过程)•FREQ过程用于产生1至N维的频数和交叉表。•FREQ语句格式:•PROCPREQ[选择项];•TABLES变量名;•WEIGHT变量名;•BY变量名;•RUN;•5.WEIGHT语句•统计计算中我们统称假设每条观测记录对频数计算的贡献为1,使用WEIGHT语句可以定义每个观测值出现的频数为这个观测对应的权重(权重不能为负)。•6.BY语句•对由BY变量定义的几组观测分别进行分析。但要求先按BY变量排序。频率分布和常用描述统计量FREQ(频数)过程--频数表是变量取值分布的描述PROCFREQDATA=数据集名;TABLES变量;RUN;PROCFREQDATA=数据集名;TABLES变量*变量变量*变量.../nocolnorownocumnofreqnopercentmissinglistout=数据集outpct;WETGHT变量名;BY变量名;RUN;一般是分类变量频率分布和常用描述统计量FREQ(频数)过程--定义输出格式的FORMAT过程•PROCFORMATlibrary=DST;•VALUE格式名范围1=格式化值1….•范围n=格式化值n;•RUN;•例:procformat;•valueagefmt•low-39='YOUNG'39-50='MIDDLE'•50-high='OLD';•run;把自定义的格式存放到永久库DST中当age≤39YOUNG当39age50MIDDLE当age≥50OLD频率分布和常用描述统计量FREQ(频数)过程--定义输出格式的FORMAT过程procformat;(用于Fitness数据集)valueoxyfmt32.5-37.5='32.5-37.7'37.5-42.5='37.5-42.5'42.5-47.5='42.5-47.5'47.5-52.5='47.5-52.5'52.5-57.5='52.5-57.5'57.5-62.5='57.5-62.5';run;当37.5oxygen≤42.537.5-42.5•Procfreqdata=fitness;•formatageagefmt.oxygenoxyfmt.;•tablesgroupage/nocum;•tablesage*oxygen/nocum;•tablesgroup*age/listnocum;•tablesgroup*age/out=outoutpct;•run;•procprintdata=out;•run;(bstat21.sas)要求输出集中还包含列百分数和行百分数频率分布和常用描述统计量描述统计量•使用各种统计量描述变量取值的不同特征:•均值、中位数--描述变量取值的中心位置;•方差、标准差、极差--描述变量取值的离散程度;•峰度、偏度--描述变量取值分布的形状;•次序统计量、分位数--可描述变量取值的分布.频率分布和常用描述统计量描述统计量--次序统计量•样本(Sample):XXXn12,,....)max(),min()()1(iniXXXX次序统计量(OrderStatistics):)()2()1(,.....,,nXXX4,3,11,3,15,81,3,3,4,5,8,11频率分布和常用描述统计量描述统计量--描述数据中心位置的统计量niiXnX11:)(Mean均值为偶数为奇数中位数nXXnXnnn),(21,:)()1)2/(()2/()2/)1((Median样本观测值:4,3,11,3,1,5,80.57/)85131134(x4m中位数频率分布和常用描述统计量描述统计量--描述数据离散程度的统计量niiXXnS122)(11:)(Variance方差样本观测值:4,3,11,3,1,5,8(n=7)83.126/)1601643641(4,0,4,2,6,2,1:2sxxi)1()(XXRn:(Range)极差10111r频率分布和常用描述统计量§5描述统计量--与均值方差有关的统计量niiniiXsnsinXXXXXs1212211)()(标准差(StdDev):标准误(StdError):变异系数(CV):未校平方和(USS):校正平方和(CSS):X标准差的估计频率分布和常用描述统计量描述统计量--偏度(Skewness)•偏度:•(Skewness)313)(1XXnsnii精确地niiXXsnnn133)()2)(1(数频偏向右数频对称数频MIDPRICEMIDPRICEMIDPRICE偏向左00=0细尾正态粗尾频率分布和常用描述统计量描述统计量--峰度(Kurtosis)峰度:(Kurtosis)3)(1144niiXXns精确地)3)(2()1(3)3)(2)(1()1(214nnnsXXnnnnnnii0=0000频率分布和常用描述统计量描述统计量--分位数(Quantile)MIDPRICE频数040百分数th40%60%(0.4分位数)频率分布和常用描述统计量描述统计量--分位数(Quantile)•p分位数:Xnp([()])1附近的一个数(小于p-分位点的样本数约占样本总数的100p%)0.5-分位数即中位数0.25-分位数(Q1)称下四分位数0.75-分位数(Q3)称上四分位数样本观测值:4,3,11,3,1,5,8(1,3,3,4,5,8,11)43834频率分布和常用描述统计量描述统计量--众数(Mode)•众数(Mode)是指样本数据中变量取值频数统计中对应频数最大的那个值样本观测值:4,3,11,3,1,5,8(n=7)在这个样本数据中,可以看出3出现的频数是2,是所有取值频数中最大的一个,所以Mode=337计算描述统计量的常用过程MEANS过程--变量的概括描述PROCMEANSDATA=数据集名;VAR变量名列;RUN;PROCMEANSDATA=数据集名maxdec=位数fw=域宽noprint输出统计量名列;VAR变量名列;CLASS变量名列;BY变量名列;ID变量名;OUTPUTOUT=数据集名记入数据集统计量名列;RUN;(bstat31.sas)38计算描述统计量的常用过程SUMMARY过程--变量的概括描述•ProcSummary与ProcMeans有很相同的功能与用法.后者缺省为print,将结果输出到OUTPUT窗;前者缺省为noprint,不输出结果到OUTPUT窗.PROCSummaryDATA=数据集名maxdec=位数fw=域宽print输出统计量名列;VAR变量名列;CLASS变量名列;BY变量名列;ID变量名;OUTPUTOUT=数据集名记入数据集统计量名列;RUN;比较SUMMARY程序与MEANS程序相同:都可以用来计算数值变量的描述性统计值差异:(1)输出文件不同SUMMARY程序只能产生含统计值的输出文件而不能产生报表输出文件;MEANS程序则可以同时产生两种输出文件;(2)执行分组的指令不同虽然而两个程序都可以将输入的文件按某个或某些变量的值将观察体加以分组,然后对各组分别进行分析但两程序用不同的指令来执行分组。在MEANS程序中BY指令是唯一可用来执行分组的指令;但在SUMMARY程序中可使用如下的三种方法来执行分组:CLASS指令,BY指令或同时使用CLASS及BY指令。N分组内或所有观察体的有效观察体总数NMISS分组内或所有观察体中含遗漏数据的观察体个数MEAN平均数STD标准差MIN最小值MAX最大值RANGE最大值与最小值的差SUM变量值的总和VAR变异数USS未矫正的平方和CSS矫正后的平方和CV变异系数(CoefficientofVariation)STDERR平均数的标准误Tt检定用来检定母群之平均数等于0的虚无假设是否成立PRT上述t检定的显著性SUMWGTWEIGHT变量的总和可输出统计量名列VAR变量名称串;列举所有参与分析的数值变量之名称CLASS变量名称串列举一个或多个分组变量BY变量名称串与CLASS指令相同之处:两者是界定分组变量的两点相异之处:BY指令分组时一定要用PROCSORT将观察体按分组变量排列;虽用同样的分组变量,但BY指令所产生的组别和CLASS指令不同。ID变量名称串列举的变量叫识别变量,它将与各统计值同时出现在输出文件内比方说有两个分组变量SEX(下分男女)及SCHOOL(下分重点中学和非重点中学)CLASSSEXSCHOOL;%本指令产生九种分组(1)男女混合重点和非重点混合(2)男重点和非重点混合(3)女重点和非重点混合(4)男女混合重点(5)男女混合非重点(6)男重点(7)男非重点(8)女重点(9)女非重点PROCSUMMARY将分别计算九种分组的统计值请注意若用CLASS指令分组,则不必先用PROCSORT将观察体按分组变量的值加以排列。BYSEXSCHOOL;(1)男重点(2)男非重点(3)女重点(4)女非重点若写CLASSSEX;BYSCHOOL;六个分组(1)重点男女混合(2)重点男(3)重点女(4)非重点男女混合(5)非重点男(6)非重点女必须学会如何巧妙的使用CLASS或BY指令.48•在procmeans或procsummary中,可用多个output语句,它有三种方式规定输出数据集中的统计量:•statistic-keyword=仅适用于一个统计量多个变量;•statistic-keyword=name-list;•statistic-keyword(variable-list)=name-list;•可指定仅对某些变量计算这一统计量.•缺省情形是在输出数据集中由变量_stat_来注明统计量名.49计算描述统计量的常用过程MEANS和SUMMARY过程的OUT
本文标题:第5讲--SAS系统与基础统计分析
链接地址:https://www.777doc.com/doc-4968749 .html