您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 分类变量资料的统计分析
1分类变量资料的统计分析率(rate):说明某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)×比例基数比例基数:100%、1000‰、10000/万、100000(1/10万)如:发病率、死亡率、发生率、阳性率、患病率等分类变量资料的统计描述构成比(proportion):说明某一事物内部,各组成部分所占的比重。也叫百分比。构成比=(某部分观察单位数/各组成部分观察单位总数)×100%如:教研室16人中高级职称有4人,占20%相对比(relativeratio):是A、B两个有关指标之比,说明A是B的若干倍或百分之几,通常用倍数或分数表示。如:男:女、医生:护士、教师:学生乙指标甲指标相对比4分类变量资料的统计推断率的抽样误差与标准误样本率(p)和总体率(π)的差异称为率的抽样误差,用率的标准误表示np)1(如果总体率π未知,用样本率p估计nppsp)1(标准误的计算例5-1观察某医院产妇106人,其中行剖腹产者62人,剖腹产率为58.5%,试估计剖腹产率的标准误。解:已知n=106,p=0.585,其标准误为:%8.4048.0106)585.01(585.0)1(nppSp总体率的可信区间总体率的可信区间(confidenceintervalofrate):根据样本率推算总体率可能所在的范围1.查表法:样本含量较小(如n50),np或n(1-p)5时,样本率的分布呈二项分成,可查有关表格直接确定置信区间。2.正态分布法当n足够大,且np和n(1-p)均大于5时,p的抽样分布逼近正态分布。其总体率的置信区间为:双侧:22(,)pppZSpZS(Z0.05/2=1.96)单侧:大于ppZS或小于ppZS(Z0.05=1.645)注意:如果计算获得的置信区间下限小于0%,上限大于100%,则将下限直接定为0%,上限直接定为100%。样本率与总体率比较的u检验u检验的条件:np和n(1-p)均大于5时例5-5,α-地中海贫血基因携带率:山区p=12/125=0.096,n=125;本省一般成人π0=0.076,H0:π=π0=0.076H1:π≠π0α=0.05。按α=0.05水准,不拒绝H0,即不能认为该山区与本省一般成人的α-地中海贫血基因携带率有差异。)1(0000nppup844.0125)076.01(076.0076.0096.02两个独立样本率比较的u检验96.11949.2)6412041)(1045.01(1045.00313.01275.0u表3两种疗法的心血管病病死率比较疗法死亡生存合计病死率(%)盐酸苯乙双胍26(X1)178204(n1)12.75(p1)安慰剂2(X2)6264(n2)3.13(p2)合计2824026810.45(pc)2122112121nnpnpnnnXXpc)11)(1(21212121nnppppSppuccppu检验的条件:n1p1和n1(1-p1)与n2p2和n2(1-p2)均5卡方检验检验(Chi-squaretest)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法。可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等。2检验的基本公式)1)(1()(22CRTTA2131.四格表形式组别阳性数阴性数合计甲组aba+b乙组cdc+d合计a+cb+dN2.四格表专用公式))()()(()(22dbdccabaNbcad四格表专用公式举例021,05.0221021,05.0221,05.0205.0;84.3,,05.0;84.305.0;84.31,82.46424028204268)21786226(22HPHPP,即不拒绝则如果即拒绝如果下结论:连续性校正公式检验的应用条件:当n40,T5时,用专用公式当n≥40,而1≤T<5时,用连续性校正公式当n<40或T<1时,用Fisher精确检验(Fisherexacttest)校正公式:列表资料),(也适合其它行TTAc22)5.0())()()(()2/(22dbcadcbannbcadc2配对四格表资料的检验配对设计表5-3某抗癌新药两种剂量的毒理实验结果乙剂量甲剂量死亡(+)生存(-)合计死亡(+)6(a)12(b)18生存(-)3(c)18(d)21合计93039成组设计表某抗癌新药两种剂量的毒理实验结果结果分组死亡(+)生存(-)合计甲剂量(a)(b)乙剂量(c)(d)合计78对子号甲剂量乙剂量1死亡死亡2死亡生存???39生存生存编号剂量组结果1甲死亡2乙生存??78甲生存2表51,)1(2402cbcbcb时,需作连续性校正,1,)(2240ccbcbb时,当计算公式1,27.4312)1312(22,4015采用连续性校正本例cb05.0;84.321,05.02PH0:b,c来自同一个实验总体(两种剂量的毒性无差异)H1:b,c来自不同的实验总体(两种剂量的毒性有差别)α=0.05。举例19行×列(R×C)表资料的检验四格表是指只有2行2列的表格,当行数或列数超过2时,统称为行×列表。行×列表的检验是对多个样本率(或构成比)的检验。适用条件:表中不宜有1/5以上格子的理论频数小于5,或有一个格子的理论频数小于1。220两个(多个)率或构成比的比较推断两个或多个分类变量是否相关联或相互独立两个或多个发生率或构成比是否相同21一致性检验与配对卡方检验配对设计包括同一样本接受不同处理的比较配对的两个受试对象分别给予两种处理甲种乙种+-合计+11(a)7(b)18-3(c)7(d)10合计14142822一致性检验与配对卡方检验资料为配对资料结果是否基本一致*Kappa≥0.75一致性好*0.75>Kappa≥0.4一致性一般*Kappa<0.4一致性较差结果有无差别:配对卡方检验23freq过程功能:描述性统计以及假设检验的功能对分类变量计算频数分布,产生频数表和列联表;对于列联表资料(两个或更多因素),对两因素间的关系进行统计学推断;对于三维表,可作Mentel-Hanszel分层分析。24freq过程表freq过程的功能卡方检验关联性的推断及其强度测量2×2表资料危险度计算以及危险度差别的检验2×2表资料OR值以及相对危险度的计算趋势检验一致性检验Cochran-Mantel-Haenszel统计量计算25freq过程的一般格式PROCFREQ[选项];TABLES请求式/[选项];必需,指定行变量和列变量WEIGHT变量名;指定频数指定变量BY变量名列;RUN;26freq过程的一般格式PROCFREQ;TABLESA;产生变量A的一维频数表PROCFREQ;TABLESA*B;产生A、B两个变量的列联表,*前为行变量,*后为列变量TABLES语句:27freq过程的一般格式在TABLES语句中用*号连接三个或n个变量名,可得到三维或n维列联表,最后一个变量各水平形成表的列,倒数第二个变量各水平形成表的行,其它变量的每一级水平(或水平组合)形成一层,且每一层都形成分离的列联表。如:PROCFREQ;TABLESA*B*C*D;列联表的数量为A、B不同水平的组合数,每个表的上部为D的各水平,左侧为C的各水平。28freq过程的一般格式表多表格表达式示例表达式等同表达式tablesa*(bc);tablesa*ba*c;tables(ab)*(cd);tablesa*cb*ca*db*d;tables(abc)*d;tablesa*db*dc*d;tablesa--c;tablesabc;tables(a--c)*d;tablesa*db*dc*d;29freq过程的一般格式TABLES语句中“/”后面的选项:1、统计分析选项CHISQ:对每层作检验,包括Pearson、似然比和Mantel-Haenszel。此外还给出与检验有关的关联指标包括Phi系数、列联系数和Cramer’sV。对于2×2表,给出Fisher精确概率。AGREE:进行配对检验。EXACT:对大于2×2的列联表计算Fisher精确概率。同时也给出CHISQ选项的全部统计量。22222230freq过程的一般格式TABLES语句中“/”后面的选项:MEASURES:对每层的二维表计算一系列关联指标及相应的标准误,包括Pearson和Spearman相关系数,以及Gamma和Kendall系数等。对于2×2表,还给出常用的危险度指标及其标准误。ALPHA=p:给出检验水准。缺省为0.05。31freq过程的一般格式TABLES语句中“/”后面的选项:CMH:给出Cochran-Mantel-Haenszel统计量,可检验在调整了TABLES语句中其它变量后,行变量与列变量之间的关联程度。对于2×2表,FREQ过程给出相对危险度估计及其可信区间,还给出各层关联度指标是否齐性的Breslow检验。ALL:给出CHISQ、MEASURES、CMH所请求的全部统计量。32freq过程的一般格式TABLES语句中“/”后面的选项:2、有关表格信息选项EXPECTED:给出期望频数DEVIATION:给出每格的实际频数与期望频数的差值CELLCHISQ:给出每格对总c2的贡献,即计算每格的(实际频数-期望频数)2/期望频数。CUMCOL:给出累积列百分数33freq过程的一般格式TABLES语句中“/”后面的选项:3、禁止输出选项NOFREQ:不给出列联表中的格频数NOPERCENT:不给出列联表中的格百分数NOROW:不给出列联表中各格的行百分数NOCOL:不给出列联表中各格的列百分数NOCUM:不给出频数表的累积频数和累积百分数NOPRINT:不给出表格,但给出CHISQ、MEASURES或CMH等语句所指定的统计量。34freq过程的一般格式WEIGHT语句:通常每个观察值提供数值1给频数计数,当WEIGHT语句出现时,每个观察值提供的是该观察值的加权变量值。该值必须非负,但可不必为整数。只能使用一个WEIGHT语句,且该语句作用于所有的表。35例1:两独立样本率的比较在研究糖尿病的临床试验中,将258名患者随机分为两组,一组204人服用盐酸苯乙双胍药,死于心血管病的26人,另一组64人服安慰剂,死于心血管病2人,问两种药物心血管病死率有无差别?表两种疗法心血管病病死率比较疗法死亡人数生存数合计病死率%苯乙双胍2617820412.75安慰剂262643.13合计2824026810.45问:两组病死率差别是否是抽样误差或是用苯乙双胍药物的作用?26178262四格表的数字组别+—甲乙37SAS程序Dataa1;inputtreatoutcomef;cards;1117812262162222;Procfreq;weightf;tablestreat*outcome/chisq;Run;38SAS结果3940例2:多个独立样本率的比较将做了手术的761例皮肤黑色瘤患者分为4组。1组:术后不接受治疗2组:术后接受化疗3组:术后接受免疫疗法4组:术后接受化疗和免疫疗法问:不同疗法患者3年生存率有无差别?表黑色素瘤患者随访3年生存情况治疗组生存人数死亡人数合计生存率%Ⅰ7710818541.6Ⅱ8910319246.4Ⅲ9910420348.8Ⅳ909118150.0合计35540676146.61.假设:H0;1=2=3=c=355/761=46.6H1:四组总体生存率不等或不全等2.=0.05(差别显著的水准)42S
本文标题:分类变量资料的统计分析
链接地址:https://www.777doc.com/doc-3476728 .html