您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 统计学第4章假设检验
第4章假设检验假设检验的原理总体均值的假设检验总体比例的假设检验总体方差的假设检验两总体均值差的假设检验主要内容引例某健身俱乐部欲根据往年的会员情况,制定2016年的会员发展营销策略。主管经理估计俱乐部会员的平均年龄是35岁,其中25~35岁的会员占总人数的70%。研究人员从2015年入会的新会员中随机抽取40人,调查得知他们的平均年龄是32岁,其中25~35岁的会员占74%。根据这份调查结果,问主管经理对会员年龄的估计是否准确?(总体均值和总体比例)假定总体分布中的参数是未知的,但事先对参数的取值作出假定;如:均值(平均年龄)=35,25—35岁占比(P)=70%思考:1.本假定是否正确?需要检验。2.如何检验?需要抽样。利用样本的信息来验证(检验)原假定是否正确?统计学是通过假设检验的方法来解决上述问题的。假设检验(Hypothesistesting)和参数估计(Parameterestimation)是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断参数估计是用样本统计量估计总体参数的方法,总体参数在估计之前是未知的假设检验则是先对总体参数的取值提出一个假设,然后利用样本信息去检验这个假设是否成立统计方法统计方法统计描述统计推断参数估计假设检验假设检验(HypothesisTesting)也称为显著性检验,是事先作出一个关于总体参数取值的假设,然后利用样本信息来判断该假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定应接受或否定原假设的统计推断方法假设检验的理论依据是概率论中的“小概率事件在一次试验中不可能发生”原理大数定律:当试验次数足够大时,小概率事件必然发生“日久见人心”、“路遥知马力”、“保险”假设检验的基本原理假设检验的过程和思路——概率意义下的反证法总体假设总体的平均年龄是35岁判断样本均值是32岁样本35X32?第一步:根据问题要求提出原假设(Nullhypothesis,H0)和备选假设(Alternativehypothesis,H1);原假设H0:关于总体参数的取值情况的假定备选假设H1:与原假设H0相互对立,需要支持或证实的第二步:确定适当的检验统计量及相应的抽样分布;第三步:选取显著性水平α,确定原假设的接受域和拒绝域;第四步:计算检验统计量的值;第五步:作出统计决策下面结合例题1对每一个步骤的内容进行分析和说明假设检验的步骤举例1某健身俱乐部主管经理估计会员的平均年龄是35岁,研究人员从2012年入会的新会员中随机抽取40人,调查得到他们的年龄数据如下。33283226373527293330352939342737343631292926192136384239363827222934362039372239试根据调查结果判断主管经理的估计是否准确?原假设(Nullhypothesis)又称零假设,是需要通过样本推断其正确与否的命题,用H0表示本例中可以提出:H0:35;这里表示总体会员的平均年龄,意味着总体会员的平均年龄与主管经理估计的35岁没有差异与原假设对立的假设是备选假设,用H1表示在本例中,备选假设意味着“总体会员的平均年龄与主管经理估计的会员平均年龄35岁有显著差异”,可以表示为H1:≠35原假设与备选假设互斥,检验结果二者必取其一1.提出原假设和备选假设陈述需要检验的假设,用H0表示例如:H0:35代表“正常”的情形总是包含等号“=”。H0:p70%检验以“假定原假设为真”开始反证法原假设为原假设的对立情况,用H1表示例如:H1:≠35;:H1:p≠70%不包含等号;≠,,需要支持和证实的备择假设2.确定适当的检验统计量假设检验需要借助样本统计量进行统计推断,称为检验统计量。不同的假设检验问题需要选择不同的检验统计量检验统计量:利用样本的信息构造的函数在具体问题中,选择什么统计量,需要考虑的因素有:总体方差已知还是未知,用于进行检验的样本是大样本还是小样本,等等在本例中,由于n=4030是大样本,所以近似服从正态分布,以样本标准差代替总体标准差,所用的统计量是:)(服从正态分布n,Nx_3.184/xsn显著性水平(SignificantLevel):事先给定的形成拒绝域的小概率,用a表示通常取a0.01,a0.05或a0.10;表明,当作出接受原假设的决定时,其正确的概率为99%,95%或90%拒绝域:原假设H0成立条件下,统计量落入的小概率区域接受域:统计量能够取值的非拒绝域本例为双侧检验,有接受域:-1.96≤z≤1.96拒绝域:z-1.96或z1.96a/23.选取显著性水平,确定接受域和拒绝域/20.05,1.96Zaa-1.961.961-aa/2在实际应用中,一般是先给定了显著性水平,这样就可以由有关的概率分布表查到临界值(criticalvalue),从而确定H0的接受域和拒绝域。对于不同形式的假设,H0的接受域和拒绝域也有所不同。aZ0拒绝域拒绝域接受域(1)双侧检验0拒绝域接受域(2)左单侧检验0拒绝域接受域(3)右单侧检验如图所示,双侧检验的拒绝域位于统计量分布曲线的两侧,左单侧检验的拒绝域位于统计量分布曲线的左侧,右单侧检验的拒绝域位于统计量分布曲线的右侧。在提出原假设H0和备选假设H1,确定了检验统计量,给定了显著性水平a以后,接下来就要根据样本数据计算检验统计量的值。其计算的基本公式为:上式不是计算检验统计量的唯一公式在本例中,4.计算检验统计量的值_0/xZn_32353.184/5.96/40xsn5.作出统计决策根据样本信息计算出统计量z的具体值,将它与临界值相比较,就可以作出接受原假设或拒绝原假设的统计决策在本例中,由于z=3.1841.96,落在拒绝域内,所以拒绝原假设H0。可以得出结论:在a0.05的显著性水平下,抽样结果的平均年龄显著低于主管经理的估计值,有理由认为经理的估计不准确aZ第一类错误弃真错误。原假设正确,因为抽样等原因,反而拒绝了原假设后果往往很严重犯第一类错误的概率为a第二类错误取伪错误。原假设错误,因为抽样等原因,反而接受了原假设犯第二类错误的概率为假设检验中的两类错误假设检验中四种可能结果的概率不能拒绝H0(接受)拒绝H0H0为真1-a(正确判断)a〈弃真错误〉H0为伪〈取伪错误〉1(正确判断)对于一定的样本量n,不能同时做到减小犯这两种错误的概率。如果减小a错误,就会增大错误的机会;如果减小错误,则会增大a错误的概率。因此,在假设检验中,需要对这两类错误进行控制a与的逆向关系a不能同时降低两类错误!P值(P-value)是指在原假设为真时,所得到的样本观察结果或更极端结果的概率根据“小概率原理”,如果P值非常小,就有理由拒绝原假设,且P值越小,拒绝的理由就越充分实际应用中,多数统计软件直接给出P值,其检验判断规则如下(双侧检验):若P值a/2,则拒绝原假设;若P值≥a/2,则不能拒绝原假设假设检验中的P值假设检验的内容假设检验总体均值的假设检验总体比例的假设检验总体方差的假设检验未知已知大样本小样本两个总体均值差的假设检验已知标准差,总体均值的Z检验1.将样本统计量(如)转换为标准正态分布Z变量。2.给定显著性水平,可得,Z的临界值。与Z值比较如Z检验统计量的值落在临界域内则接受H0否则,不能接受H02za拒绝原假设,接受原假设,或不能2zza假设拒绝原假设,接受备选,zz2axn/xxzxx已知,均值的双侧Z检验假设总体服从正态分布;当(n30)时,不服从正态分布的总体可以用正态分布来近似原假设只有“=”号;H0=u0。H1≠u0使用Z检验统计量n/xxz0xxH0临界值临界值(1/2)a(1/2)a样本统计量拒绝域拒绝域非拒绝域拒绝域抽样分布1-a置信度2011年某地区职工平均工资为32808元,标准差为3820元。现在随机抽取200人进行调查,测定2012年样本平均工资为34400元。按照5%的显著性水平判断该市2012年的职工平均工资与2011有无显著差异?举例2本例中,我们关心的是前后两年职工的平均工资有没有显著的差异,因此,属于双侧检验。检验过程如下:(1)提出假设:H0:32808;H1:≠32808;(2)总体标准差已知,大样本抽样,故选用Z统计量;(3)显著性水平a0.05,由双侧检验,临界值:。判断规则为:若z1.96或z-1.96,则拒绝H0;若-1.96≤z≤1.96,则不能拒绝H0。(4)计算统计量Z的值(5)检验判断:由于,落在拒绝域,故拒绝原假设H0。结论:以5%的显著性水平可以认为该市2012年的职工平均工资比2011年有明显的差异。解答96.12/az/22.191.96ZZa19.2200/38203280833400/_nxZ1.假设总体服从正态分布;当(n30)时,不服从正态分布的总体可以用正态分布来逼近2.原假设有或者号:H0:u≤u0,H0:u≥u03.使用Z检验统计量已知,均值的单侧Z检验Zxxnxx/Z0aZ0拒绝域a拒绝域H0:0H1:0H0:0H1:0较小的值与H0不矛盾.拒绝域1-a1-a已知某电子产品的使用寿命服从正态分布,根据历史数据,其平均使用寿命为8000小时,标准差为370小时。现采用新的机器设备进行生产,随机抽取了100个产品进行检测,得到样本均值为7910小时。试问在5%的显著性水平下,新的机器是否合格?举例3这是一个左单侧检验问题。抽样的目的是为了检测新机器生产的产品使用寿命是否达到标准,我们比较关心的是使用寿命的下限,如果新产品的使用寿命与过去相比没有明显降低,则说明所使用的新机器合格;反之,则说明新机器不合格。检验过程如下:(1)提出假设:H0:≥8000;H1:8000;(2)总体标准差已知,大样本抽样,故选用Z统计量;(3)显著性水平a0.05,由单侧检验,临界值(4)计算统计量Z的值:(5)检验判断:由于,落在拒绝域;故拒绝原假设H0。即认为产品的使用寿命有明显降低,新机器不合格。解答645.105.0zza43.2100/37080007910/0_nxZZZa1.假设总体服从正态分布;当(n30)时,不服从正态分布的总体可以用正态分布来近似2.使用Z检验统计量,用样本方差代替总体方差3.将样本统计量转换为标准正态分布Z变量4.与Z的临界值比较如Z检验统计量的值落在临界域内则接受H0否则,拒绝H0未知的大样本检验_/xZsn某乳制品厂生产的一种盒装鲜奶的标准重量是495克。为了检测产品合格率,随机抽取100盒鲜奶,测得产品的平均重量为494克,标准差为6克,试以5%的显著性水平判断这批产品的质量是否合格?举例4产品的标准重量是495克,过轻或者过重都不符合产品质量标准。检验过程如下:(1)提出假设:H0:495;H1:≠495;(2)总体标准差未知,但是由于大样本抽样,故仍选用Z统计量(3)显著性水平a0.05,由双侧检验,临界值(4)计算统计量Z的值,式中用s代替:(5)检验判断:由于,落在接受域;故不能拒绝原假设H0,即不能说明这批产品不符合质量标准。解答96.12/az/21.671.96ZZa_4944951.67/6/100xZsn未知的小样本检验1.假设:总体服从正态分布;2.使用t检验统计量4.t检验的决策规则:若采用双侧检验,临界值为-ta/2和ta/2。当-ta/2≤t≤ta/2时,落入接受域,不能拒绝原假设;反之,则拒绝原假设若采用左单侧检验,临界值为-ta。当t-ta时,落入拒绝域,拒绝
本文标题:统计学第4章假设检验
链接地址:https://www.777doc.com/doc-3830193 .html