您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 研究生 统计学讲义 如何选择统计方法
第10讲如何选择统计方法为了培养科学的统计思维方法,提高解决实际问题的能力,防止在统计分析方法的选择上出错,特对常用统计方法的选择从不同方位进行了高度概括,既可作为入门的先导,又可作为总复习的纲要。从宏观上给初学者一个总体印象,然后再逐步分解,纵横比较,广开思路,这种思维方法符合系统论方法的整体性原则,而系统论方法的整体性原则,又必须通过相互联系的原则具体化,这正是编写本讲的目的所在。一、根据研究目的选择要确定研究目的是统计描述,还是统计推断,前者主要描述样本特征,不考虑抽样误差问题。描述的形式有列表描述,图示描述和特征数描述(如平均数、标准差、百分比、百分率等)。后者通过样本所提供的信息来推断总体特征,考虑了抽样误差问题。推断的内容包括:1.估计总体参数用样本指标估计总体指标的所在范围,如总体均数或总体率的区间估计。2.比较差别通过参数检验或非参数检验,运用逻辑推理判断方法,确定事物间的差别是随机的(差别无统计学意义),还是非随机(本质)的(差别有统计学意义)。如t检验、F检验、2检验、u检验、H检验、Ridit分析等。3.寻找关系寻找事物内在的联系和事物之间的关联性。其内容包括:(1)描述和分析两个变量以及多个变量的相关关系。如直线相关、等级相关分析;多元线性相关;配对四格表资料的相关性、吻合性;双向有序资料的相关性;行列表资料行列属性的独立性;等等。(2)描述和分析一个因变量y与一个自变量x之间,一个因变量Y与两个自变量X1,X2之间以及一个因变量Y与多个自变量X1,X2,…,Xm之间的依存关系、曲线回归。(3)病因分析,寻找危险因素(如吸烟与肺癌的关系),而且还可分析出危险因素作用的强弱,如病例对照研究;队列研究。4.正常值范围、容许区间的估计应根据资料的频数分布类型选定估计方法。常用的估计方法有:①正态分布法(包括均数±标准差法、对数正态分布的均数±标准差法、正态概率纸法);②容许区间法;③百分位数法;④直线回归法;⑤圆形分布法(角度正常值的估计)等。5.圆形分布的研究如昼时性或季节性资料,寻找“好发”时间。6.事物分类判别分析和聚类分析是研究事物分类的统计分析方法。前者是根据已总结出的类别来判断新的观察单位应属于哪一已知类别,可用于计量诊断及预测;后者是在尚不知事物的类别时对它进行分类,可用于生物及医学现象的分类研究。7.其他如病例随访资料的生存分析等等。二、根据资料类型选择xR(xsxxsysˆyˆysˆyˆxnR31定量资料无序分类资料有序分类资料圆分布资料统计描述集中性,G,M,Px,r,bp(率),构成比平均Ridit值)(角均数)离散性R,s,s2,CV,QR,,sb,sy.xspsps(角标准差)、r(极距)统计推断参数估计总体均数的估计:±tα,ν,总体回归系数的估计:b±tα,νsb,总体回归直线μ的估计:±tα,ν个体y值的容许区间:±tα,(n-2)二项分布总体率的估计:p±uαsp,Poisson分布总体均数的估计:x±uα总体R的估计:总体角均数的估计假设检验正态性检验、方差齐性检验、t检验、t’检验、方差分析、秩和检验、中位数检验、回归系数的假设检验、相关系数的检验、多元回归方程的假设检验二项分布或Poisson分布的直接计算概率法、u检验,2检验Ridit分析或等级资料的秩和检验、游程检验、等级相关分析角均数的假设检验、两个或多个样本角均数间的比较表1-5不同资料类型的统计方法选择表表1-6计数资料统计分析方法分析目的可采用的指标或方法统计描述单变量统计描述反映某种随机事件发生的频繁程度率(见第九章)反映频繁程度的离散性率的标准误(见第九章)反映某一指标是另一指标的多少倍或百分之几相对比(见第九章)反映某一事物内部各组成部分所占的比重或分布构成比(见第九章)反映现象的动态的变化过程发长速度与增长速度(见第九章)双或多变量关联性描述(含统计推断)了解分类变量间有无联系四格表或行×列表χ2检验(见第十章)了解分类变量间关联强度列联系数r(见第十章)估计范围或预测由样本率推断总体率点值估计、区间估计(见第九章)由过去与现在的情况估计未来动态数列分析(见第九章)续表1-6分析目的可采用的指标或方法统计描述比较差异样本率与总体率的比较u检验,二项分布或泊松分布的直接概率法(见第九章)两个样本率的比较u检验、四表格χ2检验(见第九、十章)多个样本率或构成比的比较行×列表χ2检验(见第十章)配对样本的比较配对χ2检验(见第十章)内部构成不同的两个或多个样本率的比较标准化率的假设检验(见第九章)表1-7计量资料统计分析方法分析目的可采用的指标或方法统计描述单变量统计描述了解变量值的平均水平或集中趋势均数、几何均数、中位数、众数(见第三章)了解变量值的变异情况或离散趋势极差、四分位数、间距、标准差、方差、变异系数(见第三章)反映某种现象的动态的变化过程发展速度、增长速度(见第九章)双或多变量关联性描述了解客观事物或现象间相互关系的密切程度与方向简单相关分析(见第七章)多元相关分析(见第十五章)了解某一变量随着其它变量的变化而变化得数量关系简单回归分析(见第七章)多元回归分析(见第十五章)统计推断估计范围或预测估计总体中个体的容许区间或参考值范围正态分布法、百分位数法(见第三章)估计总体均数的大小点值估计、可信区间估计(见第三、四章)由过去与现在的情况预测未来动态数列分析(见第九章)比较差异样本均数与总体均数的比较t检验、u检验(见第四章)两个样本均数的比较t检验、u检验、秩和检验(见第四、十一章)配对样本均数的比较配对t检验、秩和检验(见第四、十一章)两个以上样本均数的比较F检验、秩和检验(见第六、十一章)两个以上样本均数间的两两的比较LSD检验、秩和检验(见第六、第十一章)三、根据统计设计类型选择1.配对设计配对设计试验集中水平比较统计方法的选择见图1.1。2.完全随机设计完全随机设计试验集中水平比较统计方法的选择见图1.23.交叉试验设计交叉设计集中水平比较常用①方差分析;②秩和检验。4.配伍组设计配伍设计集中水平比较常用①方差分析;②秩和检验。5.析因设计常用析因设计的多因素多水平有交互作用的方差分析法。6.正交设计常用极差分析法和方差分析法。7.均匀设计一般采用多元回归方法。四、根据资料的总体分布类型是否已知选择表1-8根据资料的总体分布类型是否已知进行选择x正态分布二项分布Poisson分布总体分布型已知(参数统计)总体均数的估计总体率的估计总体均数的估计总体回归系数的估计二项分布的直接计算概率法Poisson分布的直接概率法总体回归值的估计样本率p与与总体率π比较的u检验样本均数与总体均数比较的u检验个体y值的容许区间两组率比较的u检验两样本均数比较的u检验与μ比较的t检验两组比较的t检验配对比较t检验总体分布型未知(非参数统计)配对设计差值的符号秩和检验配对计数资料的χ2检验等级资料秩和检验成组设计两样本比较的秩和检验四表格资料的χ2检验两组等级资料的比较Watson’sU2检验成组设计多个样本比较的秩和检验R×C表资料的χ2检验多组等级资料的比较多个样本两两比较的秩和检验秩相关多个率两两比较的χ2的分割法Ridit分析•多组平均Ridit比较圆-圆秩相关Mantel-Haenszelχ2检验多组平均Ridit比较分布拟合优度χ2检验等级相关分析利用分布的相互关系可简化计算。例如:①利用二项分布、Poisson分布和正态分布之间的关系)作近似计算。②利用抽样分布与正态分布的关系作近似计算,如:①t分布与正态分布的关系:当自由度df=∞时,t分布就成为标准正态分布,此时t值=u值。正态分布可认为是t分布中自由度df→∞时的极限分布,故两大样本均数(比如n1和n2均大于50)比较时,可用u检验作近似计算。②2分布与正态分布的关系,当自由度df=1时,2α(1)=u2α。故两个样本率的比较,可用(3)如果在专业上存活时间≥12小时有实际意义,按分类变量用精确概率法,A因素为2/10、B因素为8/10有实际意义,P=0.023,两组存活时间的差异有统计意义。五、根据统计模型选择例1.4降压糖浆的临床实验得到舒张压(mmHg)资料如表1-9。用药前10210092981181001021091169210810210010098用药前98103110110110941041081101129210490用药后909085901149586981038810088869580用药后1009410010511096941041091009510085比较两组差异,可以使用三种统计模型:①只用治疗后的数值比较;②用治疗前后数值之差(变化值)比较;③用治疗前的数值作协变量(控制变量),协方差分析比较治疗后的数值差异。本例三个统计模型的分析结果如表1-10,可见统计模型选择的重要性。本例资料以模型②和③为宜。表1-10表1-9资料的三种模型的统计分析结果统计分析检验统计量P模型①:用治疗后的DBP比较t=1.4690.154模型②:用治疗前后DBP的变化值比较t=2.1790.039模型③:协方差分析,用治疗前作协变量比较治疗后的DBPF=4.8620.037注:DBP表示舒张压对于同一资料,若有多种统计检验方法可选,可取P值较小的检验方法。例1.5比较A、B两因素对中毒小鼠存活时间(h)的影响,nA=nB=10,试验结果A因素为:3,4,5,8,9,9,10,10,18,24,均数±标准差=10.0±6.46;B因素为:4,11,12,13,15,15,16,17,18,20,均数±标准差=14.1±4.48。可用以下方法:六、结合统计学与专业知识选择(1)完全随机试验的t检验(参数统计),存活时间(h)为定量变量值,算得t=1.649,P0.10,可认为两存活时间的差异无统计意义(P0.10)。(2)两样本比较秩和检验(非参数统计),算得TA=79,TB=129,界值T0.05(10)=83~127,T0.025(10)=79~131,P0.05,可认为两组存活时间的差异有统计意义(P0.05)。(3)如果在专业上存活时间≥12小时有实际意义,按分类变量用精确概率法,A因素为2/10、B因素为8/10有实际意义,P=0.023,两组存活时间的差异有统计意义。哪个结论较为合理呢?从资料的实际情况来看,B因素组大部分小鼠存活时间明显长于A因素组,且大于等于12小时有实际意义,故较为合理的结论应当是B因素组存活时间明显长于A因素组(P=0.023)。类似本例情况,试用其它统计方法时,应改用非等价的统计方法,例如t2=F,2α(1)=u2α。如果t检验或u检验P0.05,改用方差分析或2检验也必然P0.05。但是,若参数检验P0.05,可试用不等价的非参数检验,例如,可用两样本比较的秩和检验取代成组t检验,用配对秩和检验取代配对t检验,用H检验取代完全随机设计试验均数比较的方差分析,用M检验取代配伍设计试验均数比较的方差分析,用等级相关分析取代积差相关分析等。
本文标题:研究生 统计学讲义 如何选择统计方法
链接地址:https://www.777doc.com/doc-3594462 .html