您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 定量资料的统计推断.
1第3章定量资料的统计推断2统计推断(statisticalinference)•总体参数的估计•假设检验3•总体Α是100例正常成年男子的血红蛋白(单位:g/L),从中随机抽取样本a1和样本a2;•总体B是另外100例正常成年男子的红细胞数,从中随机抽取样本b;三个样本的含量均为10例,有关数值如下:总体µσa1/b1a2A1307.5131.9128.3B1408.2138.24•当A和B总体的参数已知时a1-a2抽样误差a1-b1本质差别5•假如事先不知道A和B是不是同一个总体a1-b1抽样误差本质差别?A≠BA=B6如何解决上述问题?•其核心工作就是判断两个样本统计量间的差别究竟是不是由于随机抽样所导致。如果是抽样误差所致,那么它有一定的统计学规律,可以用前面所介绍的正态分布、t分布等方法计算、估计;否则就表示它们间的差别不是抽样导致的——来自不同的总体!如何分辨两个样本是否属一个总体或两个不同的总体,并对总体作出适当的结论?7假设检验的基本思想:女士和牛奶•女士说她可以辨认出加奶和水的顺序,为了证实她的能力,请她对十杯牛奶进行辩别,结果十杯全部说对了。假设:她在耍大家如果她都是瞎猜,却全部正确。这样的概率为多少呢?100.50.001认为在假设成立时在一次试验中出现小概率事件是不可能的,故断定假设不成立。8商家和鸡蛋•某商家宣称他的一大批鸡蛋“变质率为1%”。为了对这批鸡蛋的质量做出判断,顾客与商家约定,从中随机抽取5个做检查。结果为4个“好蛋”,1个“坏蛋”。•“变质率为1%”?9•该假设变质率为1%,则在5个鸡蛋中,出现1个及以上变质鸡蛋的概率为•如果假设成立,发生该现象的机会应该很小(0.049),即小概率事件。•但是对于该顾客而言,他仅仅购买了一次,就碰上了小概率事件,所以商家的信誉度值得怀疑•原假设是否成立?049.099.001.01)0(1150xPXP10•假设检验的基本目的就是分辨两个或多个样本是否属一个总体或不同的总体,并对总体作出适当的结论。11假设检验(hypothesistest)•先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程。•逻辑上运用反证法(暂且认为总体的情况如此,而后看样本信息是否能够驳倒原先的假设),统计上依据小概率原理(如果样本的情况属于小概率事件,那么小概率事件不应该在一次抽样的情况下发生)12假设检验的基本思想•提出一个假设•如果假设成立,计算现有样本以及比它更极端的可能性–可能性很小(小概率事件),在一次试验中本不该得到,居然得到了,说明我们的假设有问题,拒绝之。–有可能得到手头的结果(非小概率事件),故根据现有的样本无法拒绝事先的假设(没理由)13例1样本:随机抽查25名男炊事员的血清总胆固醇,求得其均数为5.1mmol/L,标准差为0.88mmol/L。问题:该单位食堂炊事员的平均血清总胆固醇含量是否与健康成年男子的平均血清总胆固醇相同(健康成年男子的平均血清总胆固醇为4.6mmol/L)。14假设检验的一般步骤•从资料提供的信息来看,样本均数5.1与总体均数4.6不相等,其原因可有以下两个方面:–样本对应的总体均数等于4.6,差别仅仅是由于抽样误差所致;(偶然的、随机的、较小的)–除抽样误差外,该单位食堂炊事员与健康男性存在本质上的差异:偷东西吃?。(必然的、大于随机误差)•两种情况只有一个是正确的,且二者必居其一,需要我们作出推断。15假设检验的一般步骤•步骤1:建立假设•在假设的前提下有规律可寻–零假设(nullhypothesis),记为H0,表示目前的差异是由于抽样误差引起的。–备择假设(alternativehypothesis),记为H1,表示目前的差异是主要由于本质上的差别引起。16•研究者想收集证据予以反驳的假设•总是含有符号“=”,又称“0假设”•总是针对未知的总体参数作假设•表示为H0,记为H0:m=某一数值;表示样本所来源的总体参数=某具体数值原假设(nullhypothesis)17•研究者想收集证据予以支持的假设•又称为“研究假设”,总是含有符号“≠”•同样总是针对样本所来源的总体参数•表示为H1,记为H1:m某一数值(单侧)m某一数值(单侧)m≠某一数值(双侧)对立假设(alternativehypothesis)18•建立假设前,先要根据分析目的和专业知识明确单侧检验还是双侧检验。•如何确定单侧检验还是双侧检验?样本均数(其总体均数为m)与已知总体均数m0的比较目的H0H1双侧检验是否mm0m=m0mm0单侧检验是否mm0m=m0mm0或是否mm0m=m0mm019假设检验的一般步骤•H0:m=4.6,该单位炊事员与正常人的平均血清总胆固醇相等;(差别仅仅是由于抽样误差所致)•H1:m≠4.6,该单位炊事员与正常人的平均血清总胆固醇不等。(本质上的差别)H0假设比较单纯、明确,且在该假设的前提下就有规律可寻。而H1假设包含的情况比较复杂。因此,检验是针对H0的。20假设检验的基本步骤:确定α•步骤2:确立检验水准α(significancelevel)•用于确定何时拒绝H0•概率究竟小到什么程度才称为小概率事件是由研究者事先确定的,有时取0.01,有时取0.05,甚至0.2。事实上小概率事件的标准就是检验水准α,通常情况下我们取0.05•但是如果小概率事件发生了,我们的结论就出错了!错的概率又是多少?就是α•请注意:因为用到了小概率事件原理,我们的结论最终不是完全肯定的,而是带有一定概率性!21假设检验的一般步骤•步骤3:计算检验统计量和P值•计算检验统计量–即计算样本与所假设总体的偏离;–样本均数与总体均数m0间的差别可以用统计量t来表示:nsXt0m22假设检验的一般步骤•根据抽样误差理论,在H0的假设前提下,统计量t服从自由度为n-1的t分布,即t值在0的附近的可能性大,远离0的可能性小,离0越远可能性越小。23•本例中已知n=25,=5.1(mmol/l),s=0.88(mmol/l),m0=4.6(g/l),则检验统计量t:X5.14.62.8410.8825t24假设检验的一般步骤•计算概率P–P值的含义为:当H0成立的情况下,获得现有统计量以及更不利于H0的统计量的可能性有多大–即与统计量t值对应的概率;–即在H0成立的前提下,获得现有这么大的标准t离差以及更大离差|t|≥2.841的可能性;–查自由度为24的t界值表P=P(|t|≥2.841)0.0525假设检验的一般步骤XXsm0-2.0642.0640.0250.0252.841Ptt26•如果P≤a,则表示在H0成立的情况下,出现当前样本以及比当前更极端情况的概率是小概率事件,根据小概率事件的原理,现有样本信息不支持H0,因而拒绝H0•若Pa,则表示在H0成立的情况下,出现当前样本以及比当前更极端情况的概率并非小概率事件,根据当前的样本信息还不足于拒绝H0•所以结论要么为拒绝H0,要么不拒绝H0;而且它们都是有概率性的,不论是两种中的哪一种,都有可能患错误!假设检验的一般步骤:结论27•根据t分布曲线下面积的分布规律(抽样分布规律),在H0成立的前提下出现现有差别或更大差别的可能性P(|t|≥2.841)小于0.05,是小概率事件,这在一次试验中是不太可能发生的。然而不太可能发生的事件在一次试验中居然发生了,即现有样本信息不支持H0。因此,拒绝H0。•本例P<0.05,按a=0.05的水准,拒绝H0,接受H1,差别有统计学意义。认为该单位炊事员血清总胆固醇平均水平不等于正常人。28•若P>0.05,说明在H0成立的前提下出现现有差别或更大差别的可能性P(|t|≥2.841)不是小概率事件,因此,没有理由拒绝H0。可见,抉择的标准为:–当P≤a时,拒绝H0,接受H1;–当P>a时,不拒绝H0。29统计推断总结(1)选择检验方法建设检验假设确定检验水准(2)计算统计量确定p值结论P≤a拒绝H0,接受H1P>a不拒绝H030假设检验的基本步骤•例:已知北方儿童前囟门闭合的月龄为14.1月;某研究人员从东北某县随机抽取36名儿童,求得囟门闭合月龄均值为14.3个月,标准差为5.08个月;问该县儿童的前囟门闭合月龄是否大于一般儿童?31假设检验的基本步骤•从资料提供的信息来看,样本均数14.3与总体均数14.1不相等,其原因可有以下两个方面:–样本对应的总体均数等于14.1,差别仅仅是由于抽样误差所致;–该地区的儿童前囟门闭合时间与普通北方儿童存在本质上的差异:营养不良导致囟门闭合时间后移?•两种情况只有一个是正确的,且二者必居其一,需要我们作出选择。32假设检验的基本步骤:建立假设•H0:m=14.1,该县儿童前囟门闭合的时间与正常儿童相同•H1:m14.1,该县儿童前囟门闭合的时间比正常儿童推迟(但是具体推迟多少不知道)H0假设比较单纯、明确,且在该假设的前提下就有规律可寻。而H1假设包含的情况比较复杂。因此,检验是针对H0的。33假设检验的基本步骤:确定a•步骤2:确立检验水准α(significancelevel)•α=0.053422~(14.1,)~(14.1,)3614.314.1/xNxxNxtsnm根据原假设,儿童前囟门闭合时间x服从正态分布:;从该总体中随机抽样,样本均数同样服从正态分布;而既然满足正态分布就可以作Z转换,但是题目中并不知道总体标准差,所以只能用样本标准差s代替它,因此样本均数经过下列转换后满足的是t分布而不是标准正态分布(361)0.236~5.08/36t假设检验的基本步骤:构建统计量35假设检验的基本步骤:计算P值•如何通过查课后的附表快速得到结果?当v=35时,单侧t0.05=1.690面积为0.05我们的结果t=0.236面积应该大于0.0536假设检验的基本步骤:计算P值•当不方便求出P具体等于多少时可以采用上述方法•归纳为:0.05,0.05,0.050.05ttPttP,则;,则37假设检验的基本步骤:下结论•本题的结果由于P0.05,因此尚不认为该县儿童前囟门闭合时间与正常儿童有不同(从均数为14.1的总体中抽样,得到14.3的样本均数并非小概率事件)38一、t检验•在假设检验中使用了t统计量,所以就称之为t检验•t检验的使用是有条件的,如果不满足条件使用,那么构建t统计量以及使用t分布曲线下面积规律估计概率就是不合理的•什么样的资料可以计算t值?39t检验的使用条件•随机变量是定量变量•个体值、两个配对设计总体中对应个体的差值、两个完全随机设计的总体的个体值满足正态分布或近似正态分布•如果是两个完全随机设计的均值比较要求样本所来源的总体方差齐性•在满足上述条件下,如果总体标准差未知且样本含量较小,考虑使用t检验;而如果已知总体标准差或样本含量较大则可以使用U检验•计算公式:n50或已知时,用u检验)60(/)(/0000nnsXunXumm或已知n50时,用t检验1/0nnsXtm41单样本资料的t检验•这里的总体均数一般指已知的理论值或大量观察得到的稳定值。认为这是一个确定的总体。要检验的目的是手头的样本所来自的总体是否与已有的总体的一致。42•例:根据现有资料,AIDS病人的平均生存时间是14月。现在使用AZT治疗后,16名病人的平均生存时间为20月,标准差是13月43•建立检验假设–H0:m=14月,AZT无效;–H1:m≠14月,AZT有效。•确立检验水准a=0.05,双侧;•计算检验统计量•查自由度为15的t界值表,确定P值,t0.05,15=2.131,P0.05;•根据a=0.05的检验水准下结论,不拒绝H0,尚不能认为AZT可以延长AIDS患者的生存时间。20141.84621316t44单样本资料的t检验例如:随机抽查25名男炊事员的血清总胆固醇,求得其均数为5.1mmol/L,标准差为0.88mmol/L。问题:该单位
本文标题:定量资料的统计推断.
链接地址:https://www.777doc.com/doc-2499060 .html