分类变量资料的统计分析

1分类变量资料的统计分析率（rate）：说明某现象或某事物发生的频率或强度。率=（实际发生数/可能发生总数）×比例基数比例基数：100%、1000‰、10000/万、100000(1/10万)如：发病率、死亡率、发生率、阳性率、患病率等分类变量资料的统计描述构成比（proportion）：说明某一事物内部，各组成部分所占的比重。也叫百分比。构成比=(某部分观察单位数/各组成部分观察单位总数)×100%如：教研室16人中高级职称有4人，占20％相对比(relativeratio)：是A、B两个有关指标之比，说明A是B的若干倍或百分之几，通常用倍数或分数表示。如：男:女、医生:护士、教师:学生乙指标甲指标相对比4分类变量资料的统计推断率的抽样误差与标准误样本率(p)和总体率(π)的差异称为率的抽样误差，用率的标准误表示np)1(如果总体率π未知，用样本率p估计nppsp)1(标准误的计算例5-1观察某医院产妇106人，其中行剖腹产者62人，剖腹产率为58.5%，试估计剖腹产率的标准误。解：已知n=106，p=0.585，其标准误为：%8.4048.0106)585.01(585.0)1(nppSp总体率的可信区间总体率的可信区间(confidenceintervalofrate)：根据样本率推算总体率可能所在的范围1.查表法：样本含量较小(如n50)，np或n(1-p)5时，样本率的分布呈二项分成，可查有关表格直接确定置信区间。2.正态分布法当n足够大，且np和n（1-p）均大于5时，p的抽样分布逼近正态分布。其总体率的置信区间为：双侧：22(,)pppZSpZS（Z0.05/2=1.96）单侧：大于ppZS或小于ppZS（Z0.05=1.645）注意：如果计算获得的置信区间下限小于0%，上限大于100%，则将下限直接定为0%，上限直接定为100%。样本率与总体率比较的u检验u检验的条件：np和n(1-p)均大于5时例5－5，α-地中海贫血基因携带率：山区p=12/125=0.096,n=125；本省一般成人π0=0.076，H0：π=π0=0.076H1：π≠π0α=0.05。按α=0.05水准，不拒绝H0，即不能认为该山区与本省一般成人的α-地中海贫血基因携带率有差异。)1(0000nppup844.0125)076.01(076.0076.0096.02两个独立样本率比较的u检验96.11949.2)6412041)(1045.01(1045.00313.01275.0u表3两种疗法的心血管病病死率比较疗法死亡生存合计病死率(%)盐酸苯乙双胍26(X1)178204(n1)12.75(p1)安慰剂2(X2)6264(n2)3.13(p2)合计2824026810.45(pc)2122112121nnpnpnnnXXpc)11)(1(21212121nnppppSppuccppu检验的条件：n1p1和n1(1-p1)与n2p2和n2(1-p2)均5卡方检验检验(Chi-squaretest)是现代统计学的创始人之一，英国人K.Pearson（1857-1936）于1900年提出的一种具有广泛用途的统计方法。可用于两个或多个率间的比较，计数资料的关联度分析，拟合优度检验等。2检验的基本公式)1)(1()(22CRTTA2131.四格表形式组别阳性数阴性数合计甲组aba+b乙组cdc+d合计a+cb+dN2.四格表专用公式))()()(()(22dbdccabaNbcad四格表专用公式举例021,05.0221021,05.0221,05.0205.0;84.3,,05.0;84.305.0;84.31,82.46424028204268)21786226(22HPHPP，即不拒绝则如果即拒绝如果下结论：连续性校正公式检验的应用条件：当n40，T5时，用专用公式当n≥40，而1≤T＜5时，用连续性校正公式当n＜40或T＜1时，用Fisher精确检验(Fisherexacttest)校正公式：列表资料），（也适合其它行TTAc22)5.0())()()(()2/(22dbcadcbannbcadc2配对四格表资料的检验配对设计表5-3某抗癌新药两种剂量的毒理实验结果乙剂量甲剂量死亡(+)生存(-)合计死亡(+)6（a）12（b）18生存(-)3（c）18（d）21合计93039成组设计表某抗癌新药两种剂量的毒理实验结果结果分组死亡(+)生存(-)合计甲剂量（a）（b）乙剂量（c）（d）合计78对子号甲剂量乙剂量1死亡死亡2死亡生存???39生存生存编号剂量组结果1甲死亡2乙生存??78甲生存2表51,)1(2402cbcbcb时，需作连续性校正，1,)(2240ccbcbb时，当计算公式1,27.4312)1312(22,4015采用连续性校正本例cb05.0;84.321,05.02PH0：b，c来自同一个实验总体(两种剂量的毒性无差异)H1：b，c来自不同的实验总体(两种剂量的毒性有差别）α=0.05。举例19行×列(R×C)表资料的检验四格表是指只有2行2列的表格，当行数或列数超过2时，统称为行×列表。行×列表的检验是对多个样本率（或构成比）的检验。适用条件：表中不宜有1/5以上格子的理论频数小于5，或有一个格子的理论频数小于1。220两个(多个)率或构成比的比较推断两个或多个分类变量是否相关联或相互独立两个或多个发生率或构成比是否相同21一致性检验与配对卡方检验配对设计包括同一样本接受不同处理的比较配对的两个受试对象分别给予两种处理甲种乙种+-合计+11(a)7(b)18-3(c)7(d)10合计14142822一致性检验与配对卡方检验资料为配对资料结果是否基本一致*Kappa≥0.75一致性好*0.75＞Kappa≥0.4一致性一般*Kappa＜0.4一致性较差结果有无差别：配对卡方检验23freq过程功能：描述性统计以及假设检验的功能对分类变量计算频数分布，产生频数表和列联表；对于列联表资料(两个或更多因素)，对两因素间的关系进行统计学推断；对于三维表，可作Mentel-Hanszel分层分析。24freq过程表freq过程的功能卡方检验关联性的推断及其强度测量2×2表资料危险度计算以及危险度差别的检验2×2表资料OR值以及相对危险度的计算趋势检验一致性检验Cochran-Mantel-Haenszel统计量计算25freq过程的一般格式PROCFREQ[选项]；TABLES请求式/[选项]；必需，指定行变量和列变量WEIGHT变量名；指定频数指定变量BY变量名列；RUN;26freq过程的一般格式PROCFREQ；TABLESA；产生变量A的一维频数表PROCFREQ；TABLESA*B；产生A、B两个变量的列联表，*前为行变量，*后为列变量TABLES语句：27freq过程的一般格式在TABLES语句中用*号连接三个或n个变量名，可得到三维或n维列联表，最后一个变量各水平形成表的列，倒数第二个变量各水平形成表的行，其它变量的每一级水平(或水平组合)形成一层，且每一层都形成分离的列联表。如：PROCFREQ；TABLESA*B*C*D；列联表的数量为A、B不同水平的组合数，每个表的上部为D的各水平，左侧为C的各水平。28freq过程的一般格式表多表格表达式示例表达式等同表达式tablesa*(bc);tablesa*ba*c;tables(ab)*(cd);tablesa*cb*ca*db*d;tables(abc)*d;tablesa*db*dc*d;tablesa--c;tablesabc;tables(a--c)*d;tablesa*db*dc*d;29freq过程的一般格式TABLES语句中“/”后面的选项：1、统计分析选项CHISQ：对每层作检验，包括Pearson、似然比和Mantel-Haenszel。此外还给出与检验有关的关联指标包括Phi系数、列联系数和Cramer’sV。对于2×2表，给出Fisher精确概率。AGREE：进行配对检验。EXACT：对大于2×2的列联表计算Fisher精确概率。同时也给出CHISQ选项的全部统计量。22222230freq过程的一般格式TABLES语句中“/”后面的选项：MEASURES：对每层的二维表计算一系列关联指标及相应的标准误，包括Pearson和Spearman相关系数，以及Gamma和Kendall系数等。对于2×2表，还给出常用的危险度指标及其标准误。ALPHA＝p：给出检验水准。缺省为0.05。31freq过程的一般格式TABLES语句中“/”后面的选项：CMH：给出Cochran-Mantel-Haenszel统计量，可检验在调整了TABLES语句中其它变量后，行变量与列变量之间的关联程度。对于2×2表，FREQ过程给出相对危险度估计及其可信区间，还给出各层关联度指标是否齐性的Breslow检验。ALL：给出CHISQ、MEASURES、CMH所请求的全部统计量。32freq过程的一般格式TABLES语句中“/”后面的选项：2、有关表格信息选项EXPECTED：给出期望频数DEVIATION：给出每格的实际频数与期望频数的差值CELLCHISQ：给出每格对总c2的贡献，即计算每格的(实际频数-期望频数)2/期望频数。CUMCOL：给出累积列百分数33freq过程的一般格式TABLES语句中“/”后面的选项：3、禁止输出选项NOFREQ：不给出列联表中的格频数NOPERCENT：不给出列联表中的格百分数NOROW：不给出列联表中各格的行百分数NOCOL：不给出列联表中各格的列百分数NOCUM：不给出频数表的累积频数和累积百分数NOPRINT：不给出表格，但给出CHISQ、MEASURES或CMH等语句所指定的统计量。34freq过程的一般格式WEIGHT语句：通常每个观察值提供数值1给频数计数，当WEIGHT语句出现时，每个观察值提供的是该观察值的加权变量值。该值必须非负，但可不必为整数。只能使用一个WEIGHT语句，且该语句作用于所有的表。35例1：两独立样本率的比较在研究糖尿病的临床试验中，将258名患者随机分为两组，一组204人服用盐酸苯乙双胍药，死于心血管病的26人，另一组64人服安慰剂，死于心血管病2人，问两种药物心血管病死率有无差别？表两种疗法心血管病病死率比较疗法死亡人数生存数合计病死率%苯乙双胍2617820412.75安慰剂262643.13合计2824026810.45问：两组病死率差别是否是抽样误差或是用苯乙双胍药物的作用？26178262四格表的数字组别+—甲乙37SAS程序Dataa1;inputtreatoutcomef;cards;1117812262162222;Procfreq;weightf;tablestreat*outcome/chisq;Run;38SAS结果3940例2：多个独立样本率的比较将做了手术的761例皮肤黑色瘤患者分为4组。1组：术后不接受治疗2组：术后接受化疗3组：术后接受免疫疗法4组：术后接受化疗和免疫疗法问：不同疗法患者3年生存率有无差别？表黑色素瘤患者随访3年生存情况治疗组生存人数死亡人数合计生存率%Ⅰ7710818541.6Ⅱ8910319246.4Ⅲ9910420348.8Ⅳ909118150.0合计35540676146.61.假设：H0；1=2=3=c=355/761=46.6H1：四组总体生存率不等或不全等2.=0.05（差别显著的水准）42S

分类变量资料的统计分析

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

浅谈商业地产项目的规划和设计方法

对道路交通事故责任问题的探析

新形势下保险资金运用的政策取向

北京化工大学继续教育学院XXXX年春季课程表

毕业设计《城市污水处理厂初步设计(完全混合流态生物工艺)》

教学单元5汽车发动机润滑系统检修

上海××实施质量损失成本管理项目计划书

球阀加工厂总平面布置设计

吉林省劳动合同管理办法(1)

星级酒店内部管理员岗位职责汇编

相关文档

相关搜索