您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > sas第八章描述性统计过程
第八章描述性统计过程以下过程都可用于计算基本统计量,如频数、均值等,但它们又各有特色:UNIVARIATE进行单变量统计,包括分位数及描绘分布图。SUMMMARY按观测值分组计算基本单变量统计值。分组是由CLASS语句中的变量所决定。统计结果可输出到SAS数据集中而不产生打印输出。MEANS计算均值及其他描述统计量。TABULATE打印基本统计的复杂表格。CORR求变量间相关系数。进行基本统计的其他过程还包括:CHART画频数、均值、总和的条形图、立体直方图、饼图及星图。FREQ对分类变量计算频数分布,并作多维列联表。SAS基本统计过程及其一些重要统计量统计量MEANSUNIVARIATESUMMARYTABULATECORR非缺项值数(N)√√√√缺项值数(NMISS)√√√√√权重和(SUMWEIGH_T)√√√√均值(MEAN)√√√√√和(SUM)√√√√√最小值(MIN)√√√√√最大值(MAX)√√√√√全距(RANGE)√√√√未修正平方和(USS)√√√√修正平方和(CSS)√√√√方差(VAR)√√√√标准差(STD)√√√√√变异系数(CV)√√√√偏度(SKEWNESS)√√峰度(KURTOSIS)√√T统计量值(t)√√√√大于t值的概率(PRT)√√√√中位数(MEDIAN)√四分位数(QUARTILE)√众数(MODE)√输出到SAS数据集YesYesYesNoYesCLASS语句YesNoYesYesNoBY语句YesYesYesYesYes第一节MEANS过程MEANS过程对数值变量给出简单的描述性统计。例:数据集SCORE含有学生三门课程的成绩(见SORT过程),用MEANS过程可得到:PROCMEANSDATA=SCORE;MEANS过程由下列语句控制:PROCMEANS[选择项];VAR变量表;BY变量表;CLASS变量表;FREQ变量;WEIGHT变量;ID变量表;OUTPUT[选择项];除PROC语句之外的其他语句均为可选语句。8.1.1语句说明1.PROCMEANS语句PROCMEANS选择项;常用下列选择项:DATA=SAS数据集指出需做MEANS分析的SAS数量集名。NOPRINT说明不打印任何描述性统计值。此选择项仅仅是为了建立一新的数据集时才使用。MAXDEC=N指出MEANS用于打印结果的最大小数位(0~8),缺省值为2。VARDEF=除数指明用于方差计算的除数,缺省值是VARDEF=DF。VARDEF=DF用自由度(N-1)作除数。VARDEF=WEIGHT|WGT用权重和作除数。VARDEF=N用观测值数(N)作除数。VARDEF=WDF用权重和减1作除数.统计量列表它们可以是N、MAEN、MAX、MIN.STD、STDERR、SUM、VAR、USS、CSS、NMISS、RANGE、T、PRT、SUMWGT、CV、SKEWNESS、KURTOSIS等18个统计量的任意组合。隐含为N、MIN、MAX,MEAN、STD。2.OUTPUT语句OUTPUT选择项;OUTPUT语句将MEANS过程产生的统计值输出到一个新的SAS数据集。选择项包括:OUT=SAS数据集指定输出数据集名。统计关键字=名字指明新数据集中想要的统计项。并给包含这些统计项的变量起名。这些名字将作为统计值在新数据集中使用。等号右边第一个变量名代表VAR语句中第一个变量的相应的统计量;第二个名字代表VAR语句中第二个变量的相应的统计量等等。例如:PROCMEANS;VARX1X2;OUTPUTOUT=STATSMEAN=MAMBSTD=SASB;MEAN=后的第一个变量MA。代表VAR语句中第一个变量X1的均值;第二个变量MB代表VAR语句中第二个变量X2的均值。STD=后的第一个变量SA代表VAR语句中第一个变量X1的标准差;X2的标准差不输出。若省略了“统计关键字=”选择项,MEANS输出一个含有N、MIN、MAX、MEAN、STD的SAS数据集。8.1.2举例例1:利用MEANS过程进行单变量统计。SCORE为含学生成绩的数据集。(注意CLASS及BY语句的区别)。(yp74.sas)PROCMEANSDATA=SCOREMAXDEC=3;VART1-T3;CLASSGROUP;TITLE'StatisticsWithaClassVariable';PROCSORTDATA=SCORE;BYGROUP;PROCMEANSMAXDEC=3;BYGROUP;VART1-T3;TITLE'StatisticsWithByVariable';RUN;例2:40名麻疹易感儿接受麻疹疫苗一个月,血凝抑制抗体滴度如下表,求平均滴度。抗体滴度48163264128256512人数156271045有关背景知识及题目分析:(1)抗体滴度为几何级数,必须先化成对数再求均值。设Y=LOG10(X)(2)由于需把按对数值求得的平均值再转换成滴度,即要对MEANS产生的结果作进一步处理,要使用OUTPUT语句将MEANS结果输入到另一SAS数据集,但结果不需显示因此选用了NOPRINT。(3)变量F代表频数(4)第二个数据步用于将均数还原成滴度。(yp75.sas)DATAA;INPUTXF@@;Y=LOG10(X);CARDS;41851663226471281025645125;PROCMEANSNOPRINT;VARY;FREQF;OUTPUTOUT=BMEAN=MY;DATAC;FILEPRINT;SETB;MX=10**MY;PUTMX;RUN;例3:在某一年级中,测得20名男学生的身高。试求出身高的平均值95%的置信区间。求置信区间时要先求出tdf,1-a/2,此值可用TINV函数得到。程序如下:(yp76.sas)DATASTUDENT;INPUTXUEHAOHEIGHT@@;CARDS;1001175.81002168.91003178.21004180.11005169.81006172.51007175.31008177.41009168.81010176.91011181.11012179.21013178.21014175.31015177.61016182.31017173.51018176.51019175.21020171.8;PROCMEANSDATA=STUDENTNOPRINT;VARHEIGHT;OUTPUTOUT=BMEAN=MHSTD=MSN=NUM;DATACAL;SETB;T=TINV(0.975,NUM-1);IN=T*MS/SQRT(NUM);L=MH-IN;U=MH+IN;PUTLU;RUN;程序中,利用MEANS过程建立一个仅有MH(身高平均值)、MS(标准差)和NUM(人数)的数据集B。在DATACAL中,用TINV函数求出t值。第二节FREQ过程8.2.1简介FREQ过程产生一维至n维的频数表和列联表。对于二维表,PROCFREQ计算统计量并给出检验。对n维表,PROCFREQ作分层分析,在层内作计算统计,频数也能输出到SAS数据集中。由于频数表对某个变量列出所有的值,可以查看这些值取值是否合理。所以它是检查数据错误的有效工具。例:(yp77.sas)PROCFORMAT;VALUEVFMTLOW-80='C'80-90='B'90-HIGH='A';DATAB;SETSCORE;V=MEAN(OFT1-T3);PROCFREQDATA=B;FORMATVVFMT.;TABLESV;RUN;SCORE为含学生成绩的数据集,用VFMT.格式把学生的平均成绩分成A、B、C三等,由FREQ过程产生每一分数段的学生人数和占总数的百分数。1.一维频数表如想要一维频数表,只需在TABLES语句中简单地命名这一变量。例如:PROCFREQ;TABLESX;产生变量X的每一水平的频数的一维表。2.二维频数表如要求两个变量的列联表,则在TABLES语句中用星号“*”连接两个变量。第一个变量的值形成表的行而第二个变量的值形成表的列。例如:PROCFREQ;TABLESA*B;产生一个列联表,A的值在左边,B的值在顶端。3.n维列联表如你想得到三维(或n维)列联表,在TABLES语句中用“*”联接给定的三个或n个变量名。最后一个变量的值形成表的列,倒数第二个变量的值形成表的行,其他变量的每一级水平(或水平组合)形成了一层,且每层都形成了分立的列联表。4.FREQ和其他SAS过程的比较许多SAS过程也可能得到频数计数,PROCFREQ以具有计算卡方检验和测量二维及多维表的联系的能力而与其他过程相区别。其他过程如TABULATE能得到更普通的表格布局;SUMMARY能输出数据集;而CHART还可得到条形图和其他的图示。8.2.2语句说明在FREQ过程中使用的语句是:PROCFREQ[选择项];TABLES请求式…/选择项;WEIGHT变量;BY变量表;PROCFREQ语句为必须语句,其他语句为可选语句。1.PROCFREQ语句PROCFREQ[选择项];选择项有:DATA=SAS数据集规定此过程使用的数据集。如省略,则FREQ过程使用最新建立的数据集。ORDER=FREQ|DATA|INTERNAL|FORMATTED规定变量各级被报告出来的次序。ORDER=FREQ按递减的频数计数次序排列,即最大频数在前。ORDER=DATA按它们首先出现在输入数据集中的顺序放置。ORDER=INTERNAL按值的内部表示排列。ORDER=FORMATTED按外部的格式值排列。缺省值是ORDER=INTERNAL。ORDER=选择项不适用于缺项值,缺项值总是排在前面。2.TABLES语句TABLES请求式…/选择项;请求式由一个或多个由“*”号连起来的变量组成。一维表由一个变量名产生;二维表由“*”相连的二个变量名产生,任何数量的变量能被联起来得到多维的表格。FREQ过程可有多个TABLES语句,每个TABLES语句也可以有多个请求式。下面的TABLES语句中,左边二栏与右边一栏意义一致。TABLESA*(BC):等同于TABLESA*BA*C;TABLES(AB)*(CD);等同于TABLESA*CA*DB*cB*D;TABLES(ABC)*D;等同于TABLESA*DB*DC*DTABLES(A-C);等同于TABLESABC;TABLES(A-C)*D;等同于TABLESA*DB*DC*D;而TABLESA-C*D;不合法。如无TABLES语句,FREQ对数据集中所有变量求一维频数。如需要某变量的一维频数表并不规定选择项,FREQ对变量的每一个水平产生频数、累计频数、百分数和累计百分数。如需要一个二维表,且不规定任何选择项,FREQ产生交叉分组列表。此表包括各格的频数,总频数的百分数,行频数的百分数和列频数的百分数。每个变量的缺项被从表中排除了,但缺项的总频数打印在每一表的下面。放在TABLES语句中“/”后面的选择项有:1)一般选择项:MISSING象分析非缺项值那样分析缺项值,且在百分数计算和其他统计计算时包括缺项值。LIST不是用列联表而是用列表格式打印两维或多维表格。当需统计检验和联合测量时则不能使用LIST选择项。OUT=SAS数据集建立一个包括变量值和频数的输出数据集。如TABLES语句中有多个请求式,则输出数据集的内容为最后一个表请求式。2)请求统计分析的选择项CHISQ请求卡方(2)检验和基于卡方的有关测量。检验包括泊松卡方、似然卡方和曼特尔-享塞尔(Mantel一Haenszel)卡方。测量包括斐(phi)系数、列联系数和克莱姆系数V(Cramer’v)。对于2*2表也包括费雪尔(Fisher)精确检验。EXACT请求对大于2*2的表进行Fisher精确检验。此外还有CMH、ALL、MEASURES等选择项。3)请求附加的表格信息的可选项EXPECTED请求打印在独立(或齐性)假设下的期望格频数。DEVIATION请求打印出各格的格频数和期望值的偏差。CELLCH
本文标题:sas第八章描述性统计过程
链接地址:https://www.777doc.com/doc-2849046 .html