第5章--假设检验与方差分析

02468101214161850-6070-8090-1000%5%10%15%20%25%30%35%`统计学导论曾五一肖红叶主编6-2第六章假设检验与方差分析第一节假设检验的基本原理第二节总体均值的假设检验第三节总体比例的假设检验第四节单因子方差分析第五节双因子方差分析第六节Excel在假设检验与方差分析中的应用6-3第一节假设检验的基本原理一、什么是假设检验二、原假设与备择假设三、检验统计量四、显著性水平、P-值与临界值五、双侧检验和单侧检验六、假设检验的两类错误七、关于假设检验结论的理解6-4一、什么是假设检验【例6-1】假定咖啡的分袋包装生产线的装袋重量服从正态分布N（μ,σ2）。生产线按每袋净重150克的技术标准控制操作。现从生产线抽取简单随机样本n=100袋，测得其平均重量为=149.8克，样本标准差s=0.872克。问该生产线的装袋净重的期望值是否为150克（即问生产线是否处于控制状态）?x6-5所谓假设检验，就是事先对总体的参数或总体分布形式做出一个假设，然后利用抽取的样本信息来判断这个假设（原假设）是否合理，即判断总体的真实情况与原假设是否存在显著的系统性差异，所以假设检验又被称为显著性检验。6-6一个完整的假设检验过程，包括以下几个步骤：（1）提出假设；（2）构造适当的检验统计量，并根据样本计算统计量的具体数值；（3）规定显著性水平，建立检验规则；（4）做出判断。6-7二、原假设与备择假设原假设一般用H0表示，通常是设定总体参数等于某值，或服从某个分布函数等；备择假设是与原假设互相排斥的假设，原假设与备择假设不可能同时成立。所谓假设检验问题实质上就是要判断H0是否正确，若拒绝原假设H0，则意味着接受备择假设H1。如在例6-1中，我们可以提出两个假设：假设平均袋装咖啡重量与所要控制的标准没有显著差异，记为；假设平均袋装咖啡重量与所要控制的标准有显著差异，记为。150:0H150:1H6-8三、检验统计量所谓检验统计量，就是根据所抽取的样本计算的用于检验原假设是否成立的随机变量。检验统计量中应当含有所要检验的总体参数，以便在“总体参数等于某数值”的假定下研究样本统计量的观测结果。检验统计量还应该在“H0成立”的前提下有已知的分布，从而便于计算出现某种特定的观测结果的概率。6-9【例6-2】构造例6-1的检验统计量，并计算相应的样本观测值。解：150:0H，150:1H。由于咖啡的分袋包装生产线的装袋重量服从正态分布，所以其简单随机样本的均值x也服从正态分布。我们把x标准化成为标准正态变量x(x)~(0,1)(x)EZNV（6.1）由第五章可知，Ｅ（x）=。由于原假设是=150，在原假设为真时，式（6.1）可以写作x150~(0,1)(x)ZNV（6.2）6-10仍然由第五章可知，V（x）=σ2/n，以及2x150~(1)ttnsn（6.3）式（6.3）中的t就是本例所要构造的检验统计量。由于t分布在自由度30情形下可用标准正态分布来近似，而本例中n=100，自由度n―1远大于30，故式（6.3）近似服从标准正态分布。根据样本数据计算29.2100872.01508.1492z6-11四、显著性水平、P-值与临界值小概率事件在单独一次的试验中基本上不会发生，可以不予考虑。在假设检验中，我们做出判断时所依据的逻辑是：如果在原假设正确的前提下，检验统计量的样本观测值的出现属于小概率事件，那么可以认为原假设不可信，从而否定它，转而接受备择假设。6-12至于小概率的标准是多大？这要根据实际问题而定。假设检验中，称这一标准为显著性水平，用来表示α，在应用中，通常取α=0.01，α=0.05。一般来说，犯第一类错误可能造成的损失越大，α的取值应当越小。对假设检验问题做出判断可依据两种规则：一是P-值规则；二是临界值规则。6-13（一）P-值规则所谓P-值，实际上是检验统计量超过(大于或小于)具体样本观测值的概率。如果P-值小于所给定的显著性水平，则认为原假设不太可能成立；如果P-值大于所给定的标准，则认为没有充分的证据否定原假设。6-14解：查标准正态概率表，当z=2.29时，阴影面积为0.9890，尾部面积为1–0.9890=0.011，由对称性可知，当z=–2.29时，左侧面积为0.011。0.011≤α/2=0.0250.011这个数字意味着，假若我们反复抽取n=100的样本，在100个样本中仅有可能出现一个使检验统计量等于或小于–2.29的样本。该事件发生的概率小于给定的显著性水平，所以，可以判断μ=150的假定是错误的，也就是说，根据观测的样本，有理由表明总体的与150克的差异是显著存在的。【例6-3】假定，根据例6-2的结果，计算该问题的P-值，并做出判断。6-15假设检验中，还有另外一种做出结论的方法：根据所提出的显著性水平标准（它是概率密度曲线的尾部面积）查表得到相应的检验统计量的数值，称作临界值，直接用检验统计量的观测值与临界值作比较，观测值落在临界值所划定的尾部（称之为拒绝域）内，便拒绝原假设；观测值落在临界值所划定的尾部之外（称之为不能拒绝域）的范围内，则认为拒绝原假设的证据不足。这种做出检验结论的方法，我们称之为临界值规则。（二）临界值规则6-16显然，P-值规则和临界值规则是等价的。在做检验的时候，只用其中一个规则即可。P-值规则较之临界值规则具有更明显的优点。这主要是：第一，它更加简捷；第二，在值规则的检验结论中，对于犯第一类错误的概率的表述更加精确。推荐使用P-值规则。6-17【例6-4】假定，根据例6-2的结果，用临界值规则做出判断。解：查表得到，临界值z0.025=–1.96。由于z=–2.29–1.96，即，检验统计量的观测值落在临界值所划定的左侧（即落在拒绝域），因而拒绝μ＝150克的原假设。上面的检验结果意味着，由样本数据得到的观测值的差异提醒我们：装袋生产线的生产过程已经偏离了控制状态，正在向装袋重量低于技术标准的状态倾斜。6-18五、双侧检验和单侧检验图6-1双侧、单侧检验的拒绝域分配α/21–αα/2–Zα/2Zα/2α–Zα0α0Zα(a)双侧检验(b)左侧检验(c)右侧检验6-19拒绝域的单、双侧与备择假设之间的对应关系拒绝域位置P-值检验的显著性水平判断标准原假设备择假设双侧α/2H0:θ＝θ0H1:θ≠θ0左单侧αH0:θ≥θ0H1:θθ0右单侧αH0:θ≤θ0H1:θθ06-20六、假设检验的两类错误显著性检验中的第一类错误是指：原假设事实上正确，可是检验统计量的观测值却落入拒绝域，因而否定了本来正确的假设。这是弃真的错误。发生第一类错误的概率在双侧检验时是两个尾部的拒绝域面积之和；在单侧检验时是单侧拒绝域的面积。6-21六、假设检验的两类错误显著性检验中的第二类错误是指：原假设事实上不正确，而检验统计量的观测值却落入了不能拒绝域，因而没有否定本来不正确的原假设，这是取伪的错误。发生第二类错误的概率是把来自θ＝θ1(θ1≠θ0)的总体的样本值代入检验统计量所得结果落入接受域的概率。6-22根据不同的检验问题，对于和大小的选择有不同的考虑。例如，在例6-1中，如果检验者站在卖方的立场上，他较为关心的是不要犯第一类错误，即不要发生产品本来合格却被错误地拒收这样的事情，这时，要较小。反之，如果检验者站在买者的立场上，他关心的是不要把本来不合格的产品误当作合格品收下，也就是说，最好不要犯第二类错误，因此，要较小。六、假设检验的两类错误6-23在样本容量n不变的条件下，犯两类错误的概率常常呈现反向的变化，要使和都同时减小，除非增加样本的容量。为此，统计学家奈曼与皮尔逊提出了一个原则，即在控制犯第一类错误的概率情况下，尽量使犯第二类错误的概率小。在实际问题中，我们往往把要否定的陈述作为原假设，而把拟采纳的陈述本身作为备择假设，只对犯第一类错误的概率加以限制，而不考虑犯第二类错误的概率。六、假设检验的两类错误6-24七、关于假设检验结论的理解这就是说，在假设检验中，相对而言，当原假设被拒绝时，我们能够以较大的把握肯定备择假设的成立。而当原假设未被拒绝时，我们并不能认为原假设确实成立。6-25第二节总体均值的假设检验一、单个总体均值的检验二、双总体均值是否相等的检验6-26一、单个总体均值的检验（一）总体为正态分布，总体方差已知来自总体的样本为),,,(21nxxx。对于假设0H：=0，在0H成立的前提下，有检验统计量)1,0(~20NnxZ（6.4）6-27（二）总体分布未知，总体方差已知，大样本来自总体的样本为),,,(21nxxx。对于假设0H：=0，在0H成立的前提下，如果样本足够大（n≥30），近似地有检验统计量)1,0(~20NnxZ（6.5）6-28（三）总体为正态分布，总体方差未知来自总体的样本为),,,(21nxxx。对于假设Ｈ0：=0，在0H成立的前提下，有检验统计量)1(~20ntnsxt（6.6）若自由度（n―1）≥30，该t统计量近似服从标准正态分布。6-29（四）总体分布未知，总体方差未知，大样本来自总体的样本为),,,(21nxxx。对于假设Ｈ0：=0，在0H成立的前提下，如果总体偏斜适度，且样本足够大，近似地有检验统计量)1,0(~20NnsxZ（6.7）6-30【例6-5】某厂采用自动包装机分装产品，假定每包产品的重量服从正态分布，每包标准重量为1000克，某日随机抽查9包，测得样本平均重量为986克，样本标准差是24克。试问在α=0.05的显著性水平上，能否认为这天自动包装机工作正常？6-31解：第一步：确定原假设与备择假设。0H：=1000，1H：1000以上的备择假设是总体均值不等于1000克，因为只要均值偏离1000克，都说明包装机工作不正常。因此使用双侧检验。第二步：构造出检验统计量，计算检验统计量的观测值。由于总体标准差未知，用样本标准差代替，相应检验统计量是t-统计量。6-32解：第二步：构造出检验统计量，计算检验统计量的观测值。由于总体标准差未知，用样本标准差代替，相应检验统计量是t-统计量。样本平均数986x，n=9，s=24，代入t-检验统计量得：75.192410009860nsXt6-33第三步：确定显著性水平，确定拒绝域。α=0.05，查t-分布表(自由度n-1=8),得临界值是81025.02tnt=2.306，拒绝域是t2.306。第四步：判断。由于t2.306，检验统计量的样本观测值落入接受域，所以不能拒绝0H。样本数据没有充分说明这天的自动包装机工作不正常。6-34二、双总体均值是否相等的检验（一）两个正态总体，方差相等（但未知）两个正态总体为：总体1：),(~2111NX；总体2：),(~2222NX。并且，22221。分别来自两个总体的样本为：样本1：11(x，12x，…，)11nx，111111niixnx，1121112111niixxns样本2：21(x，22x，…，)22nx，212221niixnx，2122222211niixxns。并且，两样本独立。6-35（二）两个正态总体，方差不相等（也未知）这时，使用检验统计量22212121nsnsxxt（6.9）6-36在原假设H0:1＝2成立的条件下，由于2221，统计量式（6.9）不服从t-分布，但是其分布近似于t-分布，自由度近似地等于最接近f的自然数。这里，f按式（6.10）计算。当自由度≥30时，上述检验统计量近似服从标准正态分布。22222121212222121)/()/()//(nnsnnsnsnsf（6.10）必须注意，用式（6.9）所作的检验只是近似t-检验。6-37（三）两个非正态总体，样本量足够大假

第5章--假设检验与方差分析

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

可穿戴设计开发全攻略-EEDesign系列白皮书38

贵阳花溪区旅游地产城乡统筹规划方案_104_XXXX年

中国药学期刊主要评价指标统计分析

XX酒店薪资管理规范

某大型医药集团职责汇总

XXXX版建设工程施工合同(示范文本)解读(上海建伟律师事

分部工程质量检验评定表

天津市首届冬季网络运动会策划方案

从经济三驾马车的角度评价城市经济的可持续发展能力

第3讲电子商务的商业模式-第一讲电子商务的基本概念

相关文档

相关搜索