您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 数据分析与软件应用 第四讲 均值比较分析
第四讲均值比较分析4.1假设检验的基本问题4.2假设检验的内容4.1假设检验的基本问题一、假设检验的基本原理二、假设检验的基本步骤三、假设检验的两类错误四、利用P-Value进行检验一、假设检验的基本原理引例:某健身俱乐部欲根据往年的会员情况,制定2009年的会员发展营销策略。主管经理估计俱乐部会员的平均年龄是35岁,其中25~35岁的会员占总人数的70%。研究人员从2008年入会的新会员中随机抽取40人,调查得知他们的平均年龄是32岁,其中25~35岁的会员占74%。根据这份调查结果,问主管经理的对会员年龄的估计是否准确?假设检验(HypothesisTesting)又称为显著性检验,是从对总体参数所做的假设开始,利用所搜集的样本数据计算出样本统计量,进而运用这些数据判断假设在多大程度上是可靠的,并作出是接受还是拒绝该假设的推断方法。即判断样本信息与原假设是否有显著差异。依据“小概率事件实际不可能发生”。基本原理假设检验的过程和思路——概率意义下的反证法总体假设总体的平均年龄是35岁判断样本均值是32岁样本35X32?样本均值=35抽样分布这是样本均值如果这是总体均值判断:拒绝or不拒绝零假设=35?32H0基本原理假设检验的类型(1)参数假设检验:需要对总体分布作出某种假设,然后利用样本信息来判断关于总体的参数的原假设是否成立,效率高,但要求已知总体分布类型。(2)非参数假设检验:则是一种不依赖于总体分布的检验方法,检验条件较宽松,适应性强,但功效较低。(含总体的分布类型检验及独立性检验等)二、假设检验的步骤第一步:根据问题要求提出原假设(Nullhypothesis)和备选假设(Alternativehypothesis);第二步:确定适当的检验统计量及相应的抽样分布;第三步:选取显著性水平,确定原假设的接受域和拒绝域;第四步:计算检验统计量的值;第五步:作出统计决策。例1某健身俱乐部主管经理估计会员的平均年龄是35岁,研究人员从2008年入会的新会员中随机抽取40人,调查得到他们的年龄数据如下。试根据调查结果判断主管经理的估计是否准确?33283226373527293330352939342737343631292926192136384239363827222934362039372239下面结合引例对每一个步骤的内容进行分析和说明。1.提出原假设和备选假设原假设(H0)又称零假设,是需要通过样本推断其正确与否的命题,用表示。H0:35;意味着总体会员的平均年龄与主管经理估计的35岁没有差异。备选假设,用H1表示。备选假设意味着“总体会员的平均年龄与主管经理估计的会员平均年龄35岁有显著差异”,可以表示为H1:≠35。类似这种根据样本观察值来判断一个有关总体的假设是否成立的问题就是假设检验问题原假设与备选假设互斥,检验结果二者必取其一。原假设1.陈述需要检验的假设例如:H0:352.零假设用H0表示3.代表“正常”的情形4.总是包含等号“=”5.检验以“假定原假设为真”开始备择假设1.为原假设的对立情况例如:H1:≠352.备择假设用H1表示3.代表“不能轻易肯定的情况”4.很少包含等号2.确定适当的检验统计量假设检验需要借助样本统计量进行统计推断,称为检验统计量。不同的假设检验问题需要选择不同的检验统计量。在具体问题中,选择什么统计量,需要考虑的因素有:总体方差已知还是未知,用于进行检验的样本是大样本还是小样本,等等。在本例中,由于n=4030是大样本,所以近似服从正态分布,以样本标准差代替总体标准差,所用的统计量是:_3.184/xsn_x3.选取显著性水平,确定接受域和拒绝域显著性水平(SignificantLevel):指当原假设正确时人们却把它拒绝的概率和风险,即决策中所面临的风险,用a表示。事先由人们确定。通常取a0.01,a0.05或a0.10;这表明,当作出接受原假设的决定时,其正确的概率为99%,95%或90%。拒绝域:原假设H0成立条件下,统计量落入的小概率区域。接受域:统计量能够取值的非拒绝域。本例为双侧检验,有接受域:-1.96≤z≤1.96拒绝域:z-1.96或z1.96/20.05,1.96Zaa4.计算检验统计量的值根据样本数据计算检验统计量的值。其计算的基本公式为:在本例中_0/xZn_32353.184/5.96/40xsn5.作出统计决策根据样本信息计算出统计量的具体值,将它与临界值相比较,就可以作出接受原假设或拒绝原假设的统计决策。在本例中,由于z=3.1841.96,落在拒绝域内,所以拒绝原假设H0。可以得出结论:在a0.05的显著性水平下,抽样结果的平均年龄显著低于主管经理的估计值,有理由认为经理的估计不准确。H0:无罪陪审团审判裁决实际情况无罪有罪无罪正确错误有罪错误正确H0检验决策实际情况H0为真H0为假接受H0正确决策(1–a)第二类错误(b)拒绝H0第一类错误(a)正确决策(1-b)假设检验就好像一场审判过程统计检验过程四种可能结果的概率两类错误(决策结果)三、假设检验中的两类错误1.第一类错误弃真错误出现第一类错误的概率为a2.第二类错误取伪错误出现第二类错误的概率为ba错误和b错误的关系ab我们只控制了第一类错误的概率a和b的关系就像翘翘板,a小b就大,a大b就小影响b错误的因素(1)总体参数的真值随着假设的总体参数的减少而增大(2)显著性水平a,当a减少时增大(3)总体标准差,当增大时增大(4)样本容量n,当n减少时增大四、P-value检验P值(P-value)是指在原假设为真时,得到所观测样本观察结果或更极端结果的概率。即样本统计量落在观察值以外的概率。若a为5%,则H0为真时,这样的数据只有5%的可能性会发生。P值越小,说明实际观测到的数据与H0之间不一致的程度越大,检验结果也就越显著。拒绝H0的理由越充分假设检验中的P值根据“小概率原理”,如果P值非常小,就有理由拒绝原假设,且P值越小,拒绝的理由就越充分。实际应用中,多数统计软件直接给出P值,其检验判断规则如下(双侧检验):若P值a,则拒绝原假设;若P值≥a,则不能拒绝原假设。假设检验的内容假设检验总体均值的假设检验总体比例的假设检验总体方差的假设检验两个总体均值差的假设检验4.2假设检验的内容一、总体均值的假设检验二、总体比例的假设检验三、总体方差的假设检验四、两个总体均值差的假设检验假设检验的内容假设检验总体均值的假设检验总体比例的假设检验总体方差的假设检验未知已知大样本小样本两个总体均值差的假设检验一、总体均值的假设检验(一)已知的z检验1.将样本统计量(如)转换为标准正态分布Z变量2.与Z的临界值比较如Z检验统计量的值落在临界域内则拒绝H0;否则,不能拒绝H00/zn双侧Z检验1.假设总体服从正态分布;当(n30)时,不服从正态分布的总体可以用正态分布来近似。2.零假设只有“=”号3.使用Z检验统计量ZXXnxx/H0临界值临界值1/2a1/2a样本统计量拒绝域拒绝域非拒绝域拒绝域抽样分布1-a置信度举例22007年北京市职工平均工资为32808元,标准差为3820元。现在随机抽取200人进行调查,测定2008年样本平均工资为34400元。按照5%的显著性水平判断该市2008年的职工平均工资与2007有无显著差异?解答:在本例题中,我们关心的是前后两年职工的平均工资有没有显著的差异,不涉及差异的方向,因此,本题属于双侧检验。检验过程如下:(1)提出假设:H0:32808;H1:≠32808;(2)总体标准差已知,大样本抽样,故选用Z统计量;96.12/az解答(3)显著性水平a0.05,由双侧检验,查表可以得出临界值:。判断规则为:若z1.96或z-1.96,则拒绝H0;若-1.96≤z≤1.96,则不能拒绝H0。(4)计算统计量Z的值(5)检验判断:由于落在拒绝域,故拒绝原假设H0。96.12/az/22.191.96ZZa19.2200/38203280833400/_nxZ解答结论:以5%的显著性水平可以认为该市2008年的职工平均工资比2007年有明显的差异。单侧Z检验1.假设总数服从正态分布;当(n30)时,不服从正态分布的总体可以用正态分布来逼近。2.零假设只有或者号3.使用Z检验统计量ZXXnxx/Z0aZ0拒绝域a拒绝域H0:0H1:0H0:0H1:0较小的值与H0不矛盾.拒绝域1-a1-a例3已知某电子产品的使用寿命服从正态分布,根据历史数据,其平均使用寿命为8000小时,标准差为370小时。现采用新的机器设备进行生产,随机抽取了100个产品进行检测,得到样本均值为7910小时。试问在5%的显著性水平下,新的机器是否合格?解答这是一个左单侧检验问题。抽样的目的是为了检测新机器生产的产品的使用寿命是否达到标准,我们比较关心的是使用寿命的下限,如果新产品的使用寿命与过去相比没有明显降低,则说明所使用的新机器合格;反之,则说明新机器不合格。检验过程如下:(1)提出假设:H0:≥8000;H1:8000;(2)总体标准差已知,大样本抽样,故选用Z统计量;解答(3)显著性水平a0.05,由单侧检验,查表可以得出临界值(4)计算统计量Z的值:(5)检验判断:由于,落在拒绝域;故拒绝原假设H0。即认为产品的使用寿命有明显降低,新机器不合格。645.105.0zza43.2100/37080007910/0_nxZZZa(二)未知大样本检验(Z检验)1.假设总体服从正态分布;当(n30)时,不服从正态分布的总体可以用正态分布来近似。2.使用Z检验统计量3.将样本统计量转换为标准正态分布Z变量4.与Z的临界值比较如Z检验统计量的值落在临界域内则拒绝H0否则,不能拒绝H0_/xZsn例4某乳制品厂生产的一种盒装鲜奶的标准重量是495克。为了检测产品合格率,随机抽取100盒鲜奶,测得产品的平均重量为494克,标准差为6克,试以5%的显著性水平判断这批产品的质量是否合格。解答产品的标准重量是495克,过轻或者过重都不符合产品质量标准。检验过程如下:(1)提出假设:H0:495;H1:≠495;(2)总体标准差未知,但是由于大样本抽样,故仍选用Z统计量(3)显著性水平a0.05,由双侧检验,查表可以得出临界值96.12/az/21.671.96ZZa解答(4)计算统计量Z的值,式中用s代替:(5)检验判断:由于,落在接受域;故不能拒绝原假设H0,即不能说明这批产品的不符合质量标准。/21.671.96ZZa_4944951.67/6/100xZsn(三)未知的小样本检验(t检验)1.假设:总体服从正态分布2.使用t检验统计量4.t检验的决策规则:若采用双侧检验,临界值为-ta/2和ta/2。当-ta/2≤t≤ta/2时,落入接受域,不能拒绝原假设;反之,则拒绝原假设。若采用左单侧检验,临界值为-ta。当t-ta时,落入拒绝域,拒绝原假设;反之,则不能拒绝原假设。若采用右单侧检验,临界值为ta。当t-ta时,落入拒绝域,拒绝原假设;反之,则不能拒绝原假设。)_01/xttnsn~例5沿用例4,对鲜奶产品进行抽样检查,随机抽取10盒产品,测得每盒重量数据如下(单位:克):496、499、481、499、489、492、491、495、494、502。试以5%的显著性水平判断这批产品的质量是否合格。解答根据前面的分析,本例题为双侧检验问题。检验过程如下:(1)提出假设:H0:495;H1:≠495;(2)总体标准差未知,小
本文标题:数据分析与软件应用 第四讲 均值比较分析
链接地址:https://www.777doc.com/doc-3871046 .html