您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 样本量估算的统计学方法
8、样本量估算的统计学方法骆福添骆福添公共卫生学院公共卫生学院参考教材:参考教材:《《生物医学研究的统计方法生物医学研究的统计方法》》主编:方积乾,主编:方积乾,20072007,高等教育出版社,高等教育出版社一、临床研究为什么需要估计样本含量复习:统计学任务与规则Ø任务:描述样本数据特征、估计总体参数置信区间、检验总体差别Ø规则:(必须考虑)数据类型、分布类型、对比类型任务1—描述样本数据特性例:某样本个体分布的集中趋势与离散趋势怎样?(1v点,2v线,3v影子_线)Ø数据:计数(%),定量(Average),等级(M, Ridit)Ø分布:正态(Mean±SD,95%CR),对数正态(G),偏态(M,Q/R,P 2.5 ~P 97.5 ),相关回归(r,b)Ø对比:两组对比(各组Mean±SD ),配对比较(差值的Mean±SD)任务2—估计置信区间例:某总体指标在哪一区间?(置信度=借鉴反推)Ø数据:计数(二项分布法/正态近似),计量(正态法),等级(正态近似)Ø分布:正态(正态法),对数正态(lg值正态法),偏态(百分位数法)Ø对比:变量参数置信区间,差值参数差值参数置信区间(临床试验常用)任务3—检验总体差别例:某2个总体指标相同?(把握度=概率分布面积)Ø数据:计数(正态近似法u,卡方),计量(均数检验),等级(秩和检验)Ø分布:正态(u,t),对数正态(lg值t检验),偏态(秩和检验)Ø对比:组间比较(u,t,H),与总体比较(u,t,H)抽样误差估计与n关系最基本公式:误差=个体变异程度/n的平方根Ø均数误差=标准差/ sqrt(n)Ø率的误差= sqrt[p(1p)/n]样本含量问题举例Ø1、n=3,三个克隆Ø2、女大学生33%自动退学?n=?Ø3、n 1 =20,n 2 =100,n=?Ø4、1987年某产科医师为研究胎次与儿童智力的关系,收集病案资料(考上大学人数):第一胎19人、第二胎18人、第三胎10人、第四胎7人、第五胎4人。由此得出结论:智力与胎次有关,胎次愈多智力愈差,第一胎智力最好。n=?1、重复原则“即样本量” Ø样本含量(Sample)的估计是临床研究科学设计的重要内容。Ø可重复性,是指任何科学研究必须遵守的原则,其目的是要排除偶然因素的影响,得出科学的、真实的、规律性的结论。2、误差主要由样本量决定Ø在临床研究中,样本含量越小,其抽样误差越大。Ø若样本含量不足,可重复性差,检验效能低,不能排除偶然因素的影响,其结论缺乏科学性、真实性。Ø若样本含量过大,试验条件难以严格控制,容易造成人力、物力和时间上的浪费。3、估计样本含量的目的Ø在保证某个临床试验/临床研究的结论具有一定科学性、真实性和可靠性前提下,确定某研究所需的最小观察例数。二、估计样本含量的方法两大类方法Ø1、公式法,可满足多种设计的要求,目前应用广泛。Ø2、查表法,简单、方便,但受条件限制,有时不一定完全适应。三、估计样本含量的步骤1、确定设计方法Ø任何临床试验,其设计方案是首先需要确定的,而样本含量的估计也是在设计方案基础上的。不同的临床科研设计方法,其样本含量的估计方法不相同2、确定资料类型Ø当临床试验的设计方案确定后,需要确定临床试验所得数据的类型,例如,计量(数值)、计数(无序分类)、等级(有序分类),因为样本含量估计方法与数据类型有关3、考虑统计方法Ø样本含量的估计还要与以后将要使用的统计方法的条件相结合。如单因素分析、相关与回归、多因素分析等。目前样本含量估计的公式计算主要针对单因素分析,而多因素分析的例数估计请参考有关书籍。(自变量数目的5-10倍)4、确定基本参数在各种临床科研设计方法的样本含量估计中,需要研究者事先确定的条件有:Ø第一类错误的概率α,第二类错误概率β,容许误差δ(有实际意义的差异值)。Ø若终点指标为数值变量时,还需要研究者确定总体标准差σ。Ø若终点指标为分类变量时,有时需要研究者确定总体率π。(1)确定第一类误差的概率αØ所有样本含量估计公式中,都需要uα的值,研究者确定检验水准(α)的大小后,查表得uα值。Øα有单侧与双侧之分,单侧α的uα小于双侧uα值,所以按单侧计算的样本含量小于双侧。Øα越小所需样本含量越大,反之越小,一般取α=0.05Ø样本含量计算中,需要uα的值,即研究者确定β大小后,查表的uα值。Ø确定β大小,主要是要确定检验效能(Power),用1β表示其概率的大小,检验效能是指总体间确有差别时,假设检验能发现这种差别的能力大小。Øβ为第二类误差的概率,β值越小,检验效率越高,所需样本量也就越大,通常β=0.1或β=0.2。一般认为检验效率不能小于0.7。(2)确定第二类误差的概率β(3)确定容许限或插座δ即有临床意义或研究意义的最小差值。Ø若为数值变量时,δ可为有临床意义的均数差值、实验前后之差等。Ø若为分类资料,δ可为有临床意义的有效率、患病率等率之差。(4)确定总体标准差σ总体率πØ若研究的终点指标为数值变量时,总体标准差σ为估计样本含量所必须的条件。Ø若研究的终点指标为分类变量时,有时,总体率π为估计样本含量条件。Ø若总体标准差σ和总体率π,常常通过文献检索、预试验或对研究作出合理的假设来获得。5、计算样本含量Ø用按设计方案、资料类型及可能涉及的统计分析方法来选择样本含量的计算方法(查书),也可以利用统计软件帮助完成样本含量的计算。6、校正样本含量Ø由于估算的样本含量是最少需要量,考虑到受试者可能有不合作者、中途失访、意外死亡等情况出现,而减少有效观察对象的例数(失访),因此,应该在估算的样本含量增加若干样本例数。Ø通常,失访人数不得大于20%。四四、样本含量估计的注意事项1.组间例数相等Ø成组设计的例数,应尽可能采用例数相等的设计,尤其是多组设计时,一般要求各组间的样本含量相等,只有在某些特殊情况下才考虑各组的样本含量不相等。2.多指标估算Ø若某研究有多个效应指标,其样本含量估计应对每个效应指标进行样本量的估计,然后取样本数量最大者为其研究的样本量。Ø若某研究能区分主要指标和次要指标时,也可以只对主要指标进行样本含量估计,然后取量大者为其研究的样本含量。3.多种估计条件Ø尽可能将多样本含量估计方法联合使用,并且在使用计算法估算时,可多做几种估算方案,以便选择。如:不同的α、β、δ等条件组合下,估计其样本含量,从中择优。(不推荐“结果择优”,推荐择优方法后计算)4.与研究目的结合Ø根据研究目的,严格选择估算样本含量的方法,如单、双侧不同,估计参数与假设检验不同,一般假设检验与等价检验不同,样本率超过与位于0.3-0.7(0.2-0.8)范围不同,t检验与u检验不同等。5.估计的适用条件Ø目前,国内有关书籍提供的样本含量计算公式,主要适用于临床试验,而并非适用于其他医学实验,如动物实验。Ø动物实验的样本含量可以参考临床试验的样本含量,并在此基础上适当减少其数量。五、数值变量的样本含量估计简介两均数比较的估算两组样本量相等时,可按下式计算每组的例数:实例分析(例数相等) Ø欲研究某新药降低高血脂患者的胆固醇疗效,研究者认为试验组与安慰剂组比较,其血清胆固醇值平均下降0.5mmol/L才有临床意义,查阅文献得血清胆固醇值的标准差为0.8mmol/L,且规定两组例数相等,且α=0.05,β=0.10(power=0.90),该研究所需样本含量为多少?05 . 0 u 10 . 0 u 05 . 0 u 10 . 0 u计算结果例数不相等实例分析(例数不等)Ø某医院研究吲螨酰胺治疗原发性高血压的疗效,经预试验得治疗前后舒张压差值(kPa)资料如下,若α=0.05,β=0.10时需治疗多少例?均数标准差吲螨酰胺 2.28 1.09 安慰剂 1.32 0.40计算结果试验组:18 + 18×0.2≈22(例)试验组:13 + 13×0.2≈16(例)六、分类变量的样本含量估计简介两个率比较的估算实例分析(例数相等)Ø用旧的治疗方案治疗慢性肾炎的控制率为30%,现用新的治疗方案治疗慢性肾炎,其控制率应大于50%才有临床意义,若取两组例数相等,且α=0.05、β=0.10(power=0.9),问每组需多少例数?103 77 . 102 2 . 0 ) 4 . 0 1 ( 4 . 0 ) 2816 . 1 6449 . 1 ( 2 ) 1 ( ) ( 2 2 2 2 2 ==-+=-+=dmmba p p n计算结果例数不等22111dmmba)-()+)(+(=ppkn实例分析(例数不等)Ø某医师研究某药对产后宫缩痛、外阴创伤痛效果,预试验旧药镇痛率为55%,新药镇痛率为75%,当α=0.05,β=0.10时需观察多少例能说明新药镇痛效果优于旧药?4 . 115 2 . 0 ) 6676 . 0 1 )( 6676 . 0 ( ) 2816 . 1 6449 . 1 )( 7 . 0 1 1 ( ) 1 ( ) )( 1 1 ( 2 2 2 2 =-++=-++=dmmba p p k n计算结果样本含量与统计分析特例Ø1、分子、细胞、组织水平的研究:专业判定样本含量,不计算、不必假设检验。Ø2、药物临床试验:就高不就低。Ø3、特小样本:报告绝对数,如“治疗5人,治愈4人”。Ø4、特大样本:专业上判定,不作假设检验(不适用)。Ø5、检验效能:要用调和均数
本文标题:样本量估算的统计学方法
链接地址:https://www.777doc.com/doc-6987451 .html