您好,欢迎访问三七文档
选择正确的统计方法一、概述什么时候开始考虑选择统计方法:–应在研究设计的时候考虑,而不应是一切结束之后的结果“修饰”常见的现象:–无科学设计、数据量不够、统计结果与专业结论自相矛盾、无法得出期望的统计结果–此刻,才考虑用什么统计方法得到想要的结果,统计成了“数字游戏”正确运用统计方法的前提:–良好完善的研究设计如果没有科学的设计、良好的数据质量那么无论用什么方法和软件都无法获得真实的结果,甚至得出错误的结论。例:20世纪30-40年代,金的化合物普遍用于治疗结核病,视作特效药,为此发表过数以百计的文章,并作为定论写入教科书。40年代末,随机对照临床试验,否定了这种结论。并用几个月的时间肯定了链霉素、对氨柳酸、异烟肼的疗效。二、科研中的资料类型变量类型变量值表现实例资料类型数量变量定量(具体数值)身高(cm)计量资料分类变量无序二分类对立的两类属性性别(男,女)计数资料多分类不相容的多类属性血型(A,B,O)有序多分类类间有程度差异的属性(又称等级资料)文化程度(初中、高中、大学...)某疫苗皮下注射免疫结果观察对象抗体滴度目测判断抗体水平免疫效果观察11:40++无效21:60++++有效…………为何类资料?为何类资料?为何类资料?计量资料有序多分类二分类数据类型的相互转换•如年龄(岁),为何类资料?•转换为“未成年、成人”,是何类资料?•再转换为“婴幼儿、青年、中年、老年”则又是何类资料?•如治疗效果分类“无效、好转、显效、痊愈”为何类资料?•分别给予编码0,1,2,3后又为何类资料?年龄(岁)为计量资料,转换为“未成年、成人”,就是二分类的计数资料,再转换为“婴幼儿、青年、中年、老年”则为多分类有序的计数资料(等级资料)如治疗效果分类“无效、好转、显效、痊愈”为多分类有序的计数资料,分别给予编码0,1,2,3后即便为计量资料了三、统计方法选用各种情形下最常用的统计方法索引(张文彤整理)–应变量:连续单个自变量:二分类T检验多分类单因素方差分析连续相关分析,回归分析多个自变量:分类变量为主方差分析模型连续变量为主线性回归模型–应变量:有序分类单个自变量:二分类秩和检验多分类秩和检验连续Logistic回归分析多个自变量:分类变量为主Logistic回归分析连续变量为主判别分析、Logistic回归分析–应变量:无序分类(含二分类)单个自变量:二分类卡方检验多分类卡方检验连续Logistic回归分析多个自变量:分类变量为主:Logistic回归分析、最优尺度分析连续变量为主判别分析、Logistic回归分析–希望将变量/纪录分成若干个类别,但类别数不清楚,或各类别的特征不明:聚类分析–希望建立判别方程,对以后新进入的案例进行所属类别的预测:判别分析–需要探索多个变量间的内在联系或内在结构:因子分析、对应分析–生存时间和生存结局都是需要关心的因素,同时数据中存在大量的失访:生存分析–得到的是时间序列数据,需要对以后的情形加以预测:时间序列模型–考察的特征需要有多个应变量来表示,同时研究多个自变量对他们的影响:多元方差分析模型多变量统计方法选用指导目的或数据要求选用的方法寻找变量间的函数关系结果变量是连续型回归分析典则相关分析结果变量是定性资料判别分析,Logistic回归生存分析广义线性模型寻找变量共性对共性全然不知因子分析大体已知隐变量分析检验模型已构造通径图隐变量分析目的或数据要求选用的方法寻找变量综合指标综合指标不相关主成分分析综合指标相关因子分析变量的分类先定义变量间的相似性变量的聚类分析全无所知因子分析对个体的分类定义类间距离聚类分析匹配资料找危险因素大样本,概率比准则条件Logistic回归均数差准则条件均数法统计应用错误的实例分析实例1某研究小组对围手术期老年人头孢唑啉钠的合理用法进行研究,得结果如下表两组患者头孢唑啉钠药物动力学参数比较组别(h-1)K10(h-1)老年组n=70.62130.11770.28560.042760岁以下组n=53.55053.55530.82573.5329成组t检验t值1.841.60P值0.050.05存在的问题老年组变异较小,60岁以下组变异较大:–可能60岁以下年龄变动较大而变异加大–个别超常值的存在–也可能存在年龄增大个体差异减小T检验要求:个体独立、正态性、方差相等。后两个条件得不到满足正态性–经验判断:所有观测值为正值时,如为正态分布,S不会大于均值,更不会是均值的若干倍,60岁以下组k10的s为均数的若干倍,不符合正态性要求方差齐–显然指标、k10的两组间方差不齐。解决的办法变量变换:对数变换、开方变换非参数检验:秩和检验、符号检验等实例二某医院为了解昏迷时血清甲状腺素的变化分别测定了昏迷病人和普通病人的血清T3、T4、rT3.62例昏迷病人血清T3、T4、rT3与对照组比较组别例数T3T4rT3昏迷病人620.610.2544.7910.600.460.29对照组621.860.77129.5025.740.220.19研究者采用t检验对每两组的均值进行比较,分别比较昏迷病人与对照组、浅昏迷与中昏迷、中昏迷与深昏迷比62例昏迷病人血清T3、T4、rT3与对照组比较组别例数T3T4rT3浅昏迷300.950.3849.213.40.310.13中度昏迷190.730.2844.510.560.440.19深度昏迷130.510.1539.67.200.540.22分析这是一个单因素(昏迷)、四水平(无、浅、中、高)设计误用t检验代替单因素方差分析如果要同时比较三项指标,应当采用多元方差分析实例三研究大豆黄酮对sp2/0肿瘤细胞DNA合成的影响,在大豆黄酮组中加入[3H]Tdr后0.5h,1h,2h,4h分别测量Cpm值。每次试验均设空白对照,每个大豆黄酮剂量均设一式3份,取平均值。用t检验,差异显著,大豆黄酮作用于肿瘤细胞后,其[3H]Tdr掺入量随时间的延长而增加,但抑制率下降。大豆黄酮对sp2/0肿瘤细胞DNA合成影响的时间-效应关系时间(h)对照组大豆黄酮组抑制率%0.529735151737583**41.61393463303635428*7.6246239874313783*6.7447607335472873*5.0注:*p0.05**p0.01分析–随时间变化,肿瘤细胞数目的变化有较强的自相关性,而且同时涉及两个因素,资料与设计类型不满足t检验的要求。–统计结果不可信。–此资料是重复测量的两因素设计资料–重复测量资料的方差分析常采用轮廓分析方法。轮廓分析通常进行组间轮廓相似性或平行性、组间平均水平差异显著性和组内条件变异显著性三方面的假设检验进行分析。实例四定性资料的分析双向无序RC资料2检验或Fisher检验某地6094人按两种血型系统划分的结果ABO血型MNMN合计O4314909021823A3884108001598B4955879502032AB137179325641合计1451166629776094单向有序RC资料3种药物疗效的观察结果疗效药物A药物B药物C合计治愈154120显效4991573好转315045126无效5222451合计1008585270不适合使用2检验–因为2检验与“疗效”的有序性间没有任何联系应该采用与“有序性”有联系的秩和检验或Ridit分析双向有序且属性不同的资料眼晶状体混浊度与年龄关系混浊度20-30-40-合计+215131148494++67101128296+++4463132239合计3262954081029也不适合采用2检验2检验与两变量的有序性没有任何联系–应采用等级相关分析–典则相关分析–线性趋势检验双向有序且属性相同的资料两种方法检查室壁收缩运动的符合情况对比法正常减弱异常合计正常582363减弱142750异常891734合计675327147研究目的是考察两种测定方法的测定结果间是否有一致性不适合使用2检验–应当采用一致性检验–或Kappa检验实例五综合分析(一)某研究者将直肠癌根治术后会阴伤口感染42例,按随机法分为喷氧组(A组)21例,常规换药组(B组)21例,经治疗后观察伤口愈合的时间:A组:2例5天,5例7天,6例9天,4例11天,4例14天B组:7天、9天各1例,3例11天,7例14天,9例28-103天。T检验结果:–A组伤口愈合时间平均9.48天–B组伤口愈合时间平均22.57天–P0.001,有显著差异错误:资料不符合t检验的要求–正态性–方差齐将原资料转化为有序列联表–因B组中有9例的时间不具体,无法按定量资料来分析–两组例数都较少,故采用秩和检验,HC=15.9495,p0.0001A组与B组伤口愈合天数比较组别88-14-=28合计A7104021B147921合计81411942实例五综合分析(二)某研究者收集了103例冠心病与100例正常对照的多项指标组别(G)性别(X1)年龄(X2)高血压史(X3)吸烟史(X4)胆固醇含量(X5)甘油三脂含量(X6)低密度脂蛋白(X7)高密度脂蛋白(X8)脂蛋白(X9)载脂蛋白1(X10)载脂蛋白1(X11)基因型XbaI(X12)基因型EcoRI(X13)用药情况(X14)冠心病人与正常人多项指标的观测结果NOGX1X2X3X4X5X6X711男60NN22320512221女46NN1665184………………………1031男76YY1951011351042女39NN22348157………………………2032男69YN22411058冠心病人与正常人多项指标的观测结果NOGX8X9X10X11X12X13X1411301060.920.74-/--/-12157561.140.54-/++/-2………………………1031423020.910.65+/-+/-0104255321.060.71-/-+/+1………………………2032491321.100.69-/-+/+0该研究者采用的方法求一组定量指标的均值、标准差T检验分析某定量指标的某两水平的差异简单直线相关、回归分析两定量指标间关系等这样做,会牺牲大量有用的信息,得到一些支离破碎的甚至错误的结论。推荐的做法:列出希望达到的目的,逐一选用相应的统计分析方法。目的一、对冠心病人而言,直接分析某种基因型取不同水平时7项血脂指标的均值和均值向量间差别有无统计学差异?基因型X12或X13是定性分组变量,7项血脂指标是定量资料。通常把定性的分组变量称为“试验因素或影响因素”,将定量的观测指标称为“反应变量”。每次只分析一个反应变量–当分析水平为2,影响因素为1时,t检验–当分析水平2,影响因素为1时,方差分析每次分析反应变量1时–当分析水平为2,影响因素为1时,T2检验–影响因素个数=2或虽影响因素=1但其水平数=3,多元方差分析目的二、对冠心病人而言,“性别、吸烟史、高血压史、基因型”等因素对血脂指标有无影响?性别、吸烟史、高血压史、基因型等因素都是“影响因素”。需采用四因素析因设计的方差分析或多元方差分析目的三、对冠心病人而言,同时分析“性别、吸烟史、高血压史、用药情况”等因素的影响的前提下,分析某种基因型取不同水平时7项血脂指标均之间的差别有无显著意义?所谓设法排除相关因素的影响,就是要将前述诸因素的作用化为相等,以便比较评价不同基因型对血脂指标的影响。影响因素中既有定性、又有定量,故采用多元协方差分析目的四、对冠心病人而言,试对7项血脂指标的内部从属性做客观评价?要研究一组冠心病人“7项血脂指标的内部从属性”,显然不涉及任何分组变量,此时可采用主成分分析、因子分析。目的五、对冠心病人而言,试对7项血脂指标的亲疏关系做客观评价?指标间的亲疏关系,应当采用变量聚类分析目的六、假定病情的轻重可以通过7项血脂指标很好的反映出来,试根据7项血脂指标
本文标题:选择正确的统计方法
链接地址:https://www.777doc.com/doc-3878838 .html