您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 社会医学生物统计软件SAS经典教程第五章定量资料的统计描述和tu检验
第五章定量资料的统计描述和t、u检验(医学统计之星)上次更新日期:从本章开始,我们将正式开始使用SAS解决我们的统计问题。从前面的几章可知,SAS的主要功能是由不同的程序步来体现的。因此在以后的各章中,我们将对每种问题重点介绍一些常用的程序步,以及它们的输出结果的解释。对于定量资料的统计描述和简单推断,SAS提供了三个强有力的程序步,它们是:UNIVARIATE过程提供单个变量的详细描述和对其分布类型的检验。MEANS过程提供单个或多个变量的简单描述,对于多个变量,它的输出格式紧凑,便于阅读。TTEST过程对变量进行t/u检验。§5.1引例例5.1文本文件“C:\USER\WTLI1_1.DAT”中已存入某市110名7岁男子童的身高资料(cm),请计算均数、标准差s、变异系数CV(卫统第三版p6例2.1)。解:该题应首先用数据步建立一个数据集,然后调用UNIVARIATE过程或MEANS过程来求出所需要的统计量。具体的程序如下:①设定数据库环境:LIBNAMEA'C:\USER';②数据步,建立数据集:DATAA.WTLI1_1;INFILE'C:\USER\WTLI1_1.DAT';INPUTX@@;RUN;③UNIVARIATE或MEANS过程,求出所需要的统计量:PROCUNIVARIATEDATA=A.WTLI1_1;PROCMEANSDATA=A.WTLI1_1NMEANSTDCV;VARX;VARX;RUN;RUN;例5.2某医生测得18例慢支炎患者与16例健康人的尿17酮类固醇排出量(mg/dl)分别为X1和X2,问两者均数是否不同(医统第二版P19例2.17)?解:这是成组设计的两样本均数比较的t检验,程序应首先建立数据集,然后调用TTEST过程进行检验,在检验的同时也可以得到两个样本的简单描述。①设定数据库环境:LIBNAMEA'C:\USER';②数据步,建立数据集,这里采用直接输入数据的方法:DATAA.YTLI2_17;INPUTGROUPVALUE@@;CARDS;13.1415.8317.3514.6214.0515.0814.9814.2214.3512.3512.8912.1615.5515.9414.415.3513.814.1224.1227.8923.2426.3623.4826.7424.6727.3824.9524.0825.3424.2726.5424.6225.9225.18;RUN;③TTEST过程,进行两样本的t检验。PROCTTESTDATA=A.YTLI2_17;VARVALUE;CLASSGROUP;RUN;§5.2UNIVARIATE过程Univariate过程对数值变量给出比较详细的变量分布的描述,其中包括:变量的极端值。常用的百分位数,包括四分位数和中位数。用几个散点图描绘变量的分布。频数表。确定数据为正态分布的检验。5.2.1语法格式Univariate过程的语法格式如下:PROCUNIVARIATE[DATA=数据集名[选项]];指定要分析的数据集名及选项[VAR变量名列;指定要分析的变量名列BY变量名列;按变量名列分组统计,要求数据集已按该变量名列排序FREQ变量名;表明该变量为分析变量的频数WEIGHT变量名;表明分析变量在统计时要按该变量权重ID变量名;输出时加上该变量作为索引OUTPUTOUT=数据集名指定统计量的输出数据集名关键字=新变量名列...指定统计量对应的新变量名pctlpts=百分位数,...指定需要的百分位数pctlpre=新变量名列];指定所需百分位数对应的输出变量名如果省略所有非必需的语句和选项,则UNIVARIATE过程按默认情况输出全部变量的全部常用统计量。5.2.2语法说明【选项】Univariate过程常用的选项如下:NOPRINT禁止统计报告在OUTPUT视窗中输出PLOT绘出茎叶图、箱式图和正态概率图FREQ给出频数表NORMAL对变量进行正态性检验【关键字】SAS中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,常用的关键字有:基本统计量NMEANSTD(标准误)CVSUMVAR(方差)RANG百分位数描述MINP1P5P10Q1MEDIANQ3P90P95P99MAX与假设检验有关的统计量STDMEAN(标准误)T5.2.3结果解释在默认的情况时,Univariate过程会输出绝大部分统计量,此时的输出结果如下:Variable=变量名变量标签Moments和矩有关的统计量Quantiles(Def=5)分位间距统计量N样本量SumWgts权重总和100%Max最大值99%99%百分位数Mean均数Sum总和75%Q375%百分位数95%95%百分位数StdDev标准差Variance方差50%Med50%百分位数90%90%百分位数Skewness偏度系数Kurtosis峰度系数25%Q125%百分位数10%10%百分位数USS未校正平方和CSS校正平方和0%Min最小值5%5%百分位数CV变异系数StdMean标准化均数1%1%百分位数T:Mean=0变量总体均数为0的t检验Pr|T|t检验的p值Range全距Num^=0变量值非0的例数Num0变量值大于0的例数Q3-Q1四分位间距M(Sign)变量总体均数为0的符号检验Pr=|M|符号检验的p值Mode众数SgnRank变量总体均数为0的秩和检验Pr=|S|秩和检验的p值Extremes极端值统计LowestObsHighestObs老幺(观察值序号)五大值(观察值序号)次小值(观察值序号)四大值(观察值序号)三小值(观察值序号)三大值(观察值序号)四小值(观察值序号)次大值(观察值序号)五小值(观察值序号)大哥大(观察值序号)5.2.4应用实例例5.3某地101例健康男子血清总胆固醇值测定结果已存入文本文件“c:\user\WT1_1.dat”中,请绘制直方图,计算均数、标准差s、变异系数CV、中位数M、p2.5和p97.5(卫统p2331.1题)。解:UNIVARIATE过程的默认输出中并不给出p2.5和p97.5,因此程序中要加以相应修改,最后在OUTPUT视窗中只会输出所需的几个统计量,具体程序如下:libnamea'c:\user';指定c:\user文件夹为数据库adataa.wt1_1;数据步开始,指定要建立的数据集为a库的wt1_1infile'c:\user\wt1_1.dat';采用外部文件读入方式,文件名为c:\user\WT1_1.datinputx@@;输入的变量为x,采用连续输入的格式procgchartdata=a.wt1_1;调用绘图程序步gchart,所用数据集为a.wt1_1vbarx;绘出竖直条图,用于绘图的变量为xprocunivariatedata=a.wt1_1noprint;调用程序步univariate,并且禁止在OUTPUT视窗中输出varx;要分析的变量为xoutputout=temp指定输出数据集为work.temp,n=nmean=xbarstd=scv=cvmedian=m将n、mean、std、cv、median按指定变量名存入pctlpts=2.5,97.5pctlpre=per;指定输出p2.5和p97.5,其输出变量名以per开头。procprintdata=temp;将数据集work.temp的内容打印输出run;开始运行以上程序例5.450例链球菌咽峡炎患者的潜伏期如下,计算其均数、中位数和几何均数(卫统p2331.3题)。12~24~36~48~60~72~84~96~108~12017111175422解:由于几何均数无法直接得到,因此将数据集加以对数变换,求出均数后再行反对数变换得到几何均数,程序如下:libnamea'c:\user';指定c:\user文件夹为数据库adataa.wt1_3;数据步开始,指定要建立的数据集为a库的wt1_3inputxf@@;输入的变量为x和f,采用连续输入的格式x=x+6;将变量x的值更正到每个组段的组中值处logx=log(x);定义新变量logx为变量x的自然对数,用于算出几何均数cards;数据块开始121247361148116077258449621062数据块;数据块结束procprint;将数据集a.wt1_3的内容打印输出procunivariatedata=a.wt1_3noprint;调用程序步univariate,并且禁止在OUTPUT视窗中输出varxlogx;要分析的变量为x和logxfreqf;指定变量f代表分析变量x的频数outputout=tempn=nmean=xbarlogxmeanmedian=m;输出数据集和统计量的定义datatemp2;数据步开始,指定要建立的数据集为work.temp2settemp;让work.temp2继承work.tmep的全部数据g=exp(logxmean);产生新变量g,它等于elogxmeandroplogxmean;在work.temp2中删除临时变量logxmeanprocprintdata=temp2;输出数据集work.temp2中的数据run;开始运行以上程序请注意,这里UNIVARIATE过程有两个分析变量X和LOGX,因此在OUTPUT语句中MEAN=后跟了两个变量名,它们分别存储两个变量的均数,而其余的关键字后只有一个变量名,则它们只存储分析变量序列的第一个变量X的统计结果。§5.3MEANS过程Means过程提供单个或多个变量的简单描述。和Univariate过程相比,它更倾向于描述已经明确样本所在总体符合正态分布的变量,因此它不提供百分位数,但可以提供95%可信区间。同时在多个变量输出时,它的输出格式紧凑,便于阅读。5.3.1语法格式PROCMEANS[DATA=数据集名[选项]指定要分析的数据集名及一些选项[统计量关键字列表]];列出需要的统计量[VAR变量名列;要分析的变量名列BY变量名列;按变量名列分组统计,要求数据集已按变量名列排序CLASS变量名列;按变量名列分组统计,不要求数据集排序FREQ变量名;表明该变量为分析变量的频数WEIGHT变量名;表明分析变量在统计时要按该变量权重ID变量名列;输出时加上该变量作为索引OUTPUTOUT=数据集名指定统计量的输出数据集名关键字=新变量名列...];指定统计量对应的新变量名5.3.2语法说明【选项】Means过程常用的选项如下:NOPRINT禁止统计报告在OUTPUT视窗中输出MAXDEC=n给出列表输出的最大小数位数,缺省值为2【统计量关键字】MEANS过程中常用的统计量关键字有:基本统计量NMEANSTDCVSUMVARRANGMINMAX与假设检验有关的统计量STDERR(标准误)TPRT(与t对应的p值)LCLM(可信区间下限)UCLM(可信区间上限)注意Means过程中标准误的关键字是STDERR,而Univariate过程中为STDMEAN,另外LCLM和UCLM这两个关键字也是Univariate过程所没有的。5.3.3结果解释和Univariate过程不同,MEANS过程在默认情况下只输出样本量、均数、标准差、最小值和最大值,如例5.1的数据,如果MEANS过程不加任何选项,则输出如下:AnalysisVariable:X分析变量名为XNMeanStdDevMinimumMaximum---------------------------------------------------------------110119.72727274.7413254108.2000000132.5000000---------------------------------------------------------------可见Mean
本文标题:社会医学生物统计软件SAS经典教程第五章定量资料的统计描述和tu检验
链接地址:https://www.777doc.com/doc-2229614 .html