您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 统计方法选择与结果解释
统计方法选择与结果解释四川大学华西公共卫生学院卫生统计学医学统计学(第二版)李晓松第一节统计方法的正确选择医学统计学(第二版)李晓松在实际应用中,如何选择恰当的统计方法分析资料,常常是最为重要也是最为棘手的问题,尤其是组间比较的假设检验问题。医学统计学(第二版)李晓松一、统计方法选择的基本思路正确选择统计方法的基本思路和原则就是根据:数据特征样本含量研究目的对比组数设计类型资料类型综合判断医学统计学(第二版)李晓松1.研究目的研究目的不明确,所做的分析很可能是错误的或没有意义的。医学统计学(第二版)李晓松例如,一个四格表资料可以进行的统计分析或计算的统计量至少有差别性检验和独立性检验、列联系数、kappa系数、OR值、RR值、灵敏度、特异度等。组别有效无效合计甲药271845乙药40545合计672390甲、乙两药治疗小儿上消化道出血的效果医学统计学(第二版)李晓松一般而言,统计分析通常回答两个方面的问题:一是通过比较回答观测指标的差别是否归因于处理因素或分组因素,在本教材范围内所涉及的主要是单变量问题。二是分析变量之间是否存在某种联系,这主要涉及相关分析和回归分析,在本教材范围内所涉及的主要是双变量问题。医学统计学(第二版)李晓松2.设计类型从实验研究设计来看,常见的设计类型为•完全随机设计(成组设计)•配对或配伍设计(随机区组设计)从观察研究设计来看,在统计方法的选择上,通常将其等同于完全随机设计的数据医学统计学(第二版)李晓松因此,完全随机设计的数据分析时,应选择相应的方法:两样本(成组)t检验单因素(完全随机设计)方差分析检验(独立样本)两样本Wilcoxon秩和检验或多样本Kruskal-Wallis秩和检验2医学统计学(第二版)李晓松对于配对或配伍设计的数据,则应选择相应的方法:配对t检验配伍组(随机区组)设计方差分析配对检验配对(Wilcoxon单样本秩和检验)或配伍设计的秩和检验(Friedman秩和检验)等。2医学统计学(第二版)李晓松3.资料类型对于定量变量,选择它所对应的那些统计方法如:t检验、方差分析或秩和检验等。对于定性变量,则选择它所对应的统计方法如:二项分布或Poisson分布的Z检验、检验等。其中等级资料一般采用秩和检验进行分析2医学统计学(第二版)李晓松4.数据特征对于同一设计类型和同一资料类型,仍然有许多方法可以选择。医学统计学(第二版)李晓松3.资料类型对于定量变量,选择它所对应的那些统计方法如:t检验、方差分析或秩和检验等。对于定性变量,则选择它所对应的统计方法如:二项分布或Poisson分布的Z检验、检验等。其中等级资料一般采用秩和检验进行分析2医学统计学(第二版)李晓松4.数据特征什么时候用t检验或方差分析?什么时候用秩和检验?医学统计学(第二版)李晓松t检验和方差分析属参数检验方法,对数据要求较高,通常要求数据服从正态分布和方差齐性。如果服从该条件或经变量变换后服从条件,则采用参数检验方法,否则采用秩和检验这类非参数检验方法。能否不考虑分布和方差齐性问题,直接采用非参数检验?医学统计学(第二版)李晓松5.对比组数对于单组问题(样本与总体比较),即一个样本均数或率与总体均数或率的比较,可分别采用:样本与总体均数比较的t检验二项分布和正态分布原理进行分析医学统计学(第二版)李晓松多组均数的比较、多组等级资料的比较,可分别采用:方差分析Kruskal-Wallis秩和检验Friedman秩和检验多组率或构成比的比较,可采用表检验。注意,多组比较在差别有统计学意义时,需再进行两两比较。RC2医学统计学(第二版)李晓松6.样本含量在样本较小时:如果是一个样本率与总体率的比较,可采用直接计算概率的方法如基于二项分布的确切概率法。如果是四格表资料则采用Fisher确切概率法或校正检验。对于均数比较问题,一般情况下采用t检验。在大样本时可考虑Z检验作近似。2医学统计学(第二版)李晓松6.样本含量在样本较小时:如果是一个样本率与总体率的比较,可采用直接计算概率的方法如基于二项分布的确切概率法。如果是四格表资料则采用Fisher确切概率法或校正检验。对于均数比较问题,一般情况下采用t检验。在大样本时?2医学统计学(第二版)李晓松循着上述基本思路进行综合判断,对于一个特定的资料,选择一个恰当的统计方法并非一件十分困难的事情。在实际工作中,遇到的实际问题可能并非如此简单,须结合专业问题和所要分析的具体内容加以综合考虑和仔细判断,有时需对各种统计方法加以综合运用。医学统计学(第二版)李晓松在方法选择时,还有一些问题需加以说明:当分析目的是分析变量之间是否存在某种联系时,这就涉及到双变量的分析方法,即相关关系或回归关系的分析。需注意相关分析和回归分析的区别与联系:相关是分析两变量的关联性;回归是分析两变量的数量依存关系。医学统计学(第二版)李晓松关联性分析:对于定量变量,需根据两个变量是否满足双变量正态分布,相应地采用Pearson积矩相关分析或Spearman秩相关分析。对于等级变量则直接采用Spearman秩相关分析。医学统计学(第二版)李晓松对于分类变量常计算列联系数进行分析对于一个二分类变量和一个等级变量之间的线性关联通常采用线性趋势检验。对于表资料,需注意区分是单向有序或者是双向有序。对于前者,检验和秩和检验说明的问题不同;对于后者,检验和列联系数分析的是两个分类变量的关联性。2RC22医学统计学(第二版)李晓松多变量的数据分析:多重线性回归是对反应变量为定量变量进行的多变量分析Logistic回归是对反应变量为分类变量所进行的多变量分析Cox比例风险回归是对反应变量为含有截尾数据的生存时间所进行的分析医学统计学(第二版)李晓松生存分析:是一类较为特殊的针对具有截尾数据的生存时间数据所进行的分析。它也包括统计描述和统计推断两个部分的内容,针对分组和未分组资料,方法又有所不同。医学统计学(第二版)李晓松二、统计分析需注意的若干问题1.数据分析通常的步骤:数据探测统计描述统计推断医学统计学(第二版)李晓松数据探测数据探测常常是进行统计描述和统计推断的基础。如数据分布特征的考察、方差齐性的判断、散点图的绘制、离群值的发现,以及了解数据是否符合特定统计方法的应用条件等,必要时可进行变量变换或转换以满足分析的需要。数据探测将增加对数据的基本了解,为进一步的分析奠定基础。医学统计学(第二版)李晓松统计描述统计描述:计算各种统计指标和运用各种统计图表描述和概括数据的数量特征及分布规律。首先需要区分变量类型,定量变量和定性变量的统计描述指标是不同的。医学统计学(第二版)李晓松对于定量变量,根据数据分布特征的不同,可分别采用正态分布和百分位数方法对数据进行描述以及确定观察值分布范围等。对于定性资料,根据分析目的,可计算率、构成比或相对比等指标。医学统计学(第二版)李晓松统计推断在数据探测和统计描述的基础上选择恰当的统计推断方法分析资料。医学统计学(第二版)李晓松区间估计:总体均数的区间估计,根据已有条件的不同如样本大小的不同,可采用t分布或正态分布原理进行估计。总体率的区间估计,一般也是根据样本大小的不同以及样本率的大小,采用二项分布、Poisson分布或正态分布原理进行估计。医学统计学(第二版)李晓松2.混杂因素的控制学习统计学必须学会在研究设计和数据分析时控制混杂因素的方法,使得比较的各组除了研究因素之外,其它因素尽可能地相同或相似。这样,各组观测指标之间的差异只能归因于研究因素而不是其它原因。医学统计学(第二版)李晓松如果各组在研究因素之外的某种或某些因素有所不同,那么这个或这些其它因素的效应就可能同研究因素的效应混淆在一起。在这种情况下,通常的统计分析结论在进行因果推断时常常是不可靠的。医学统计学(第二版)李晓松因此,“可比性”问题是在数据分析和结果解释时必须加以考虑的一个十分重要的问题。对于不具可比性的资料,基本的统计调整技术就是采用分层分析或标准化方法消除其它非研究因素的影响,对于具有多个变量的复杂情况,则需采用多变量分析技术加以调整。医学统计学(第二版)李晓松我们需要考虑:有哪些因素与研究的因素混杂在一起?怎样调整这些混杂因素?医学统计学(第二版)李晓松分层分析医学统计学(第二版)李晓松Example:研究吸烟与健康的关系吸烟与非吸烟者死亡率的比较医学统计学(第二版)李晓松吸烟者与不吸烟者死亡率的直接比较可能存在问题。因为:吸烟者多为男性,而男性比女性更易患心脏病而发生死亡,吸烟者与未吸烟者之间死亡率的差异也许是因为性别的差异。医学统计学(第二版)李晓松为了排除这种可能性,可:男性的吸烟与不吸烟者进行比较女性的吸烟与不吸烟者进行比较。即以性别因素分层,再比较吸烟与非吸烟者的死亡率。此即分层分析(分层因素:性别)医学统计学(第二版)李晓松年龄可能又是另外一个混杂因素,这就需要对年龄进行分层分析。医学统计学(第二版)李晓松这就是通常的分层分析思路,但这并不能保证这样分析的结论一定是正确的。医学统计学(第二版)李晓松吸烟与肺癌关系的一项横断面研究收集资料:每个人年龄、性别、是否吸烟、是否患肺癌。医学统计学(第二版)李晓松分析1:若仅考察吸烟与不吸烟者肺癌患病率吸烟者:P1=80/200=40.0%不吸烟者:P2=100/200=50.0%P1小于P2,吸烟者似乎更不易于患肺癌(吸烟是肺癌的保护因素)。医学统计学(第二版)李晓松有没有其它可能影响到肺癌患病率的混杂因素?若有,则两人群肺癌患病率的差别并不一定是由于吸烟因素引起的。医学统计学(第二版)李晓松比如性别,男女的肺癌患病率本就存在差别。若性别在吸烟组和不吸烟组的构成不同,此时吸烟组和不吸烟组受到来自性别的影响相差悬殊,则两组肺癌的患病率的差别不能单纯由吸烟与不吸烟来解释了。年龄因素亦同。因此,分析1得出的结论是不可信的。医学统计学(第二版)李晓松分析2(分层分析,分层因素为性别):男性:吸烟组:P1=35/50=70%不吸烟组:P2=90/150=60%女性吸烟组:P1=45/150=30%不吸烟组:P2=10/50=20%两组的P1皆大于P2,吸烟者似乎更易于患肺癌(吸烟是肺癌的危险因素)。医学统计学(第二版)李晓松分析2同时考察了“吸烟与否”和“性别”两个影响因素对是否患肺癌的影响。若“年龄构成”在吸烟组和不吸烟组之间是不同的,则得出的结论很可能是不真实的。因此,据此得出的结论也是不可信的。医学统计学(第二版)李晓松分析3:若将调查资料按受试者的年龄分为“≤40岁组”和“40岁组”,再在每个年龄组内,采用前述第(2)种分析的方法进行计算,得到四个2×2列联表资料分别为:A类(≤40岁、男性):P1=50%(=5/10)与P2=52%(=60/115)B类(≤40岁、女性):P1=44.4%(=40/90)与P2=50.0%(=5/10)C类(40岁、男性):P1=75.0%(=30/40)与P2=85.7%(=30/35)D类(40岁、女性):P1=8.3%(=5/60)与P2=12.5%(=5/40)比较各组P1与P2的数值大小时,不难发现:P1皆小于P2,结论为吸烟者似乎更不易于患肺癌(吸烟是肺癌的保护因素)。。医学统计学(第二版)李晓松问题所在:由表1可见,有两组数据是有问题的,即“≤40岁的男性吸烟者仅调查了10人,其中有5人患了肺癌”和“≤40岁的女性不吸烟者仅调查了10人,其中也有5人患了肺癌”。医学统计学(第二版)李晓松在如此小的样本中,竟有如此高的肺癌患病率。这说明这份调查研究资料存在严重的抽样设计问题,即样本的代表性极差,某些层中样本量过小。若此调查资料是真实调查的结果,则属于错误的调查设计的产物,未能反映被调查总体的真实情况,因而该资料是不值得进行统计分析的。医学统计学(第二版)李晓松在分析
本文标题:统计方法选择与结果解释
链接地址:https://www.777doc.com/doc-3489161 .html