您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 六西格玛之分析阶段-S8-4.3-中心极限定理-p27
中心极限定理-0-中心极限定理(CentralLimitTheorem)中心极限定理-1-DefineMeasureAnalyzeImproveControlStep8-Data分析Step9-VitalFewX’的选定多变量研究中心极限定理假设检验置信区间方差分析,均值检验卡方检验相关/回归分析Step7-Data收集路径位置理论课中心极限定理-2-定义中心极限定理的应用1.正态分布的例子2.Chi-Square分布的例子标准误差与样本大小的关系目录中心极限定理-3-定义中心极限定理是阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。最常用的有:独立同分布中心极限定理:“随机变量x1,x2,…独立,且服从同一分布,若存在有限的数学期望E(xi)=u和方差D(xi)=σ2,当n→∞时,随机变量的总和Σxi趋于均值为nu,方差为nσ2的正态分布。(即算术平均数1/nΣxi=xbar趋于均值为u,方差为σ2/n的正态分布)”不论总体服从何种分布,只要它的数学期望和方差存在,从中抽取容量为n的样本,则这个样本的总和或平均数是随机变量,当n充分大时,Σxi或xbar趋于正态分布。中心极限定理-4-定义德莫佛-拉普拉斯中心极限定理:“如果用X表示n次独立试验中事件A发生(“成功”)的次数,P是事件A在每次试验中发生的概率,则X服从二项分布,B(n,p),当n→∞时,X趋于均值为np,方差为npq的正态分布。”正态分布和泊松分布都是二项分布的极限分布当n足够大时,可用正态分布近似计算;当n足够大且p小时,可用泊松分布近似计算。中心极限定理是一种十分重要的现象,它是统计学中应用的许多方法的理论基础的组成部分(如:计算样本均值的置信区间)中心极限定理-5-利用同样的数据画出两种不同的控制图,并仔细比较它们的差异:打开文件[CENLIMIT.MTW].分别用下面的两个路径画出个体图和子群大小为5的均值图个体图路径均值图路径应用中心极限定理-6-图形输出个体数据样本平均仔细比较两个图上的控制上下线(UCL和LCL),有什么不同?应用1361211069176614631161100908070605040观测值单独值_X=68.28UCL=96.59LCL=39.97Output的单值控制图28252219161310741807570656055样本样本均值__X=68.28UCL=80.70LCL=55.861Output的Xbar控制图中心极限定理-7-个体控制图和Xbar控制图的差异μUCLX3LCLX3UCLnX3LCLnX315100102030405060应用中心极限定理-8-平均值分布的标准偏差叫做均值标准误差,因而其定义为:这个公式表明平均值比个体数据更稳定,稳定因子是样本数的平方根。xxnσx均值标准误差个体值的标准差n=平均值的样本数x均值的标准误差(StandardErroroftheMean)其中中心极限定理-9-MSmeanMSn()我们经常依靠从测量系统中得到的一个数值来估计输入或输出变量的值。减小测量系统误差的简易方法就是把两个或更多的读数平均。我们的测量系统的精密度自动增加,增加因子是平均值样本数的平方根,如果我们要想使测量系统的误差减小一半,我们就需要把4次的测量值平均才可以。实际应用测量系统的改善中心极限定理-10-当总体数据具备正态分布时中心极限定理理解例题模拟-1假设你面前有一个大桶,桶里面装有相当多数量的白色纸条,每张纸条上都写有数字,且假定这些数字都来自一个具有特定平均值和标准偏差的正态分布.1)从中随机抽出9张白色纸条,并把其上面的9个数字求平均,2)然后把这个平均值写在一张绿色纸条上,3)把这9张白色纸条放回原来的桶里,4)把这张绿色纸条放入另外一个桶里,如此重复上面的步骤,直到盛有绿色纸条的桶放满为止。白色纸条代表总体的数据;绿色纸条代表平均值的样本;我们用MINITAB来模拟做这个练习。中心极限定理-11-让我们用MINITAB产生一些模拟的数据来验证我们的理论。首先用MINITAB产生9列各250个数据,假设这些数据来自一个平均值=70、标准偏差=9的正态分布:则列C1-C9代表白色纸条然后求出各行9个数据的平均值,其结果放在列C10,则C10代表绿色纸条。我们用描述统计的方法求出各列数据的平均和标准偏差。仔细比较C1-C9列与C10列有什么差别?[例题1]中心极限定理应用模拟中心极限定理-12-1、用MINITAB随机产生样本数据分别输入下列信息中心极限定理-13-2、样本平均数计算中心极限定理-14-3、输出:产生10列数据[注意:每次每个人操作产生的数据都不一样]中心极限定理-15-4、描述统计路径中心极限定理-16-5、描述统计结果比较描述性统计:C1,C2,C3,C4,C5,C6,C7,C8,C9,C10平均值变量NN*平均值标准误标准差最小值下四分位数中位数上四分位数C1250070.6050.5348.43943.53764.92470.89576.690C2250069.6330.6239.84743.52163.09470.17476.382C3250069.6430.5919.34147.78562.61769.06376.286C4250070.2930.5598.84649.31364.74569.70275.834C5250070.7050.6039.54245.84964.11870.67377.782C6250069.3850.5879.28841.39863.23769.28576.174C7250070.2280.5438.58548.88864.44470.58775.767C8250069.8520.5929.35741.97763.09669.82677.060C9250070.1260.5688.98848.10064.02369.87175.867C10250070.0520.1852.93061.50168.16770.47972.180xxxn99933中心极限定理-17-5、描述统计结果比较(续)描述性统计:C1,C2,C3,C4,C5,C6,C7,C8,C9,C10平均值变量NN*平均值标准误标准差最小值下四分位数中位数上四分位数C1250070.6050.5348.43943.53764.92470.89576.690C2250069.6330.6239.84743.52163.09470.17476.382C3250069.6430.5919.34147.78562.61769.06376.286C4250070.2930.5598.84649.31364.74569.70275.834C5250070.7050.6039.54245.84964.11870.67377.782C6250069.3850.5879.28841.39863.23769.28576.174C7250070.2280.5438.58548.88864.44470.58775.767C8250069.8520.5929.35741.97763.09669.82677.060C9250070.1260.5688.98848.10064.02369.87175.867C10250070.0520.1852.93061.50168.16770.47972.180现在开始比较。中心极限定理-18-7674727068666462403020100C10频率均值70.05标准差2.930N250C10的直方图正态90.082.575.067.560.052.5403020100C9频率均值70.13标准差8.988N250C9的直方图正态样本的散布(C9)和样本平均的散布(C10)进行比较。散布减少了很多.σ=8.988σ=2.9306、直方图结果比较中心极限定理-19-用点图比较频度数则能够更明确的了解散布。7、点图结果比较91847770635649C9C10数据C9,C10的点图每个符号最多表示2个观测值。中心极限定理-20-样本平均值分布的平均值和总体的平均值十分接近;样本平均值分布的标准偏差等于总体的标准偏差除以样本数的平方根;样本平均值的分布十分接近正态分布。8、结论中心极限定理-21-当总体数据是非正态分布时,若从中随机抽样n个并计算其平均,同样如此反复若干次,然后比较这些平均的散布与这些个体值的散布,你会发现,当n→∞时,x-bar的散布也具有正态分布。为了验证,我们在非正态分布中随机选择一个偏移较大的分布-“Chi-Square分布”,求其x-bar来体会一下中心极限定理。当总体数据不具备正态分布时中心极限定理理解例题模拟-2中心极限定理-22-1、用卡方分布随机产生9列,每列各有250个数据中心极限定理-23-15.012.510.07.55.02.50.0C9C9的点图每个符号最多表示2个观测值。2、用产生的数据进行点图描绘和正态检验在这里看到,这是一个很偏移的分布,我们用它来验证中心极限定理151050-599.99995908070605040302010510.1C9百分比均值2.008标准差2.149N250AD15.427P值0.005C9的概率图正态-95%置信区间中心极限定理-24-C10项是对C1~C9的平均值的数据统计,同样样本大小为9,其散布明显变得小多了。描述性统计:C1,C2,C3,C4,C5,C6,C7,C8,C9,C10平均值变量NN*平均值标准误标准差最小值下四分位数中位数上四分位数C125001.9170.1221.9320.0020.5431.2522.602C225002.0380.1121.7680.0030.6021.4533.068C325002.0720.1302.0500.0090.5581.4022.853C425002.0050.1392.2040.0020.5511.3272.875C525001.8540.1091.7260.0090.5341.2832.595C625001.9540.1292.0390.0030.4771.3472.743C725001.9650.1221.9350.0110.5161.4122.759C825002.0740.1382.1780.0110.5971.3792.755C925002.0080.1362.1490.0220.5991.2832.680C1025001.98750.04360.68940.47331.52531.92902.42143、用产生的数据进行描述统计比较xxxn2092030.67..中心极限定理-25-15.012.510.07.55.02.50.0C9C10数据C9,C10的点图每个符号最多表示3个观测值。个体值的分布样本平均的分布4、点图描绘比较,验证中心极限定理中心极限定理-26-个体值的概率图样本平均的分布5、正态概率图描绘比较,验证中心极限定理54321099.99995908070605040302010510.1C10百分比均值1.987标准差0.6894N250AD1.162P值0.005C10的概率图正态-95%置信区间151050-599.99995908070605040302010510.1C9百分比均值2.008标准差2.149N250AD15.427P值0.005C9的概率图正态-95%置信区间中心极限定理-27-30201001098765432SamplenStanErr标准误差和样本大小关系Letx1010xn标准误差与样本大小的关系
本文标题:六西格玛之分析阶段-S8-4.3-中心极限定理-p27
链接地址:https://www.777doc.com/doc-1197079 .html