您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 5终身模块-统计学-抽样误差-假设检验
计量资料的统计推断statisticalinferenceofmeasurementdata张建军汕大医学院预防医学教研室Tel:0754-88900445zhangjj@stu.edu.cn统计推断:参数估计,假设检验“世上有三种哄人的东西:谎言、该死的谎言、统计数据”----英国政治家迪斯雷里。“世上有三样激动人心的东西:宣传、要命的宣传、统计数据”。均数的抽样误差和标准误均数的抽样误差samplingerrorofmean概念:由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),样本均数之间也互不相等,这种由抽样引起的差异称为均数的抽样误差。即:,||iijXXXX称为抽样误差。12中心极限定理:如果随机变量的总体均数及方差有限,当样本容量趋于无穷大时,样本均数的分布趋近于均数为总体均数,方差为的正态分布。22X~N(,),~N(,/n)X如果:那么,2/n•如何估计?•用样本均数的标准差来估计,称标准误(standarderror)。•标准误越大,均数的抽样误差越大,样本均数与总体均数间的差异越大。•计算公式:•即:由总体标准差,样本例数求得。但通常以样本标准差作为总体标准差的估计值。因此:XSSnXn与标准差的区别:标准差:表示一般变量值的离散程度;均数标准误特别说明样本均数这一变量值离散程度的指标。标准误的应用:(1)用来衡量抽样误差的大小,标准误越小,样本均数与总体均数越接近,样本均数的可信度越高;(2)结合标准正态分布与t分布曲线下的面积规律,估计总体均数的置信区间。(3)用于假设检验。•假定2003年汕头市15岁女学生的身高(cm)服从N(155.4,5.32)。用计算机做抽样模拟试验,每次抽出10个数字,组成一个样本,求出样本均数、样本标准差S。再求得此100个样本均数的均数、样本均数的标准差(标准误)。•100个样本均数构成一个新的分布,也是正态分布(即使原分布为偏态分布,当样本含量足够大时,新分布也近似正态分布)。新分布的集中趋势用均数的均数来表示,离散趋势用标准误表示N(,)。各样本均数的均数等于总体均数。X2X0501001502002503003504004502.082.342.612.873.143.403.663.934.194.464.724.985.25均数频数0501001502002503003504004502.082.342.612.873.143.403.663.934.194.464.724.985.25均数频数0501001502002503003504004505002.082.342.612.873.143.403.663.934.194.464.724.985.25均数频数正态总体中抽样(样本量5)正态总体中抽样(样本量10)正态总体中抽样(样本量30)抽样时样本量大小决定了样本均数分布的形状,当样本量足够大时,均数分布趋向正态分布。t分布(t-distribution)•u分布:u转换将正态分布转换为标准正态,N(0,1)。同理:将样本均数的分布也可以转换为标准正态分布•即:•实际工作中,总体标准差往往未知,常用S代替σ计算标准误,因此:就变为:xu2,()(0,1)XNNXXu/XXXtSSn也就是说:•正态分布:标准正态分布•正态变量实现这一转变:x2()1()[]21()2xfxeu2()21()2uue2,(,)(0,1)xuNN均数的分布也是这样•如果我们采用另一个正态变量:•于是,均数的分布变成了标准正态分布:XXu2,()(0,1)XNNxu但是,条件发生变化•我们通常用代替•然而,随着样本量的变化而变化,所以,我们称之为t-分布,虽然它是正态分布,但只有当样本量(自由度)无穷大的时候,它才是标准正态分布,此时,u=t/XXXtSSnXXuXXSXS•t分布是一簇对称于0的单峰分布曲线。自由度越小(相当于标准差大),曲线的中间越低,两边越高;随自由度增大,t分布曲线逐渐逼近于标准正态分布曲线。当自由度无穷大时,t分布就是标准正态分布曲线。•每一条t分布曲线,都对应于相应的自由度。•t分布曲线下的面积规律:•与标准正态曲线下的面积规律相似:在某一个自由度下,两侧外部总面积为5%的界限的t值称为t0.05/2(υ),把两侧外部总面积为1%的界限的t值称为t0.01/2(υ)。中部占95%面积的t值范围:-t0.05/2(υ)--t0.05/2(υ),中部占99%面积的t值范围:-t0.01/2(υ)--t0.01/2(υ)。•当自由度确定时,占一定面积的t界限值,可以查表得出。参考附表6(p436)。•例如:查当自由度=20,两侧概率之和为0.05时,对应的t值:•t0.05/2(20)=2.086,•单侧概率为0.05时,对应的t值:•t0.05(20)=1.725,t分布的主要应用:(1)总体均数置信区间估计;(2)t检验;•使用t值表注意:•同一自由度下,P越小,t值越大;P值相同时,自由度越大,t越小;当自由度无穷大时,t值与u值相等。这也是u分布与t分布的区别。总体均数置信区间的估计•参数估计:•点估计(pointestimation):用样本统计量作为对总体参数的估计值(μ)。比如均数的估计。•区间估计(intervalestimation):根据选定的置信度估计总体均数所在的区间(aμb).a,b为置信限(可信限)。•为何要进行区间估计?•点估计是用样本均数来估计总体均数,简单易行,但未考虑抽样误差,而后者又是不可避免的。故常按照一定的概率估计总体均数在哪个范围。•置信度(confidencelevel):•在估计总体均数的置信区间时,如果可能估计错误的概率为α,那么估计正确的概率为1-α,即为置信度.常用:95%,99%.•置信区间(confidenceinterval,CI)根据置信度估计得到的区间,称为置信区间。如何进行区间估计?•1、总体标准差已知•参照u分布,正态曲线下95%的u值在+-1.96之间,即:•总体均数的95%置信区间:•99%置信区间:1.961.96XX1.961.96XXXX1.96,1.96XXXX2.58,2.58XXXX•2、总体标准差未知,样本例数(50)足够大•也可参考u分布进行•95%置信区间:•99%置信区间:2.58,2.58XXXSXS1.96,1.96XXXSXS•3、总体标准差未知,样本例数较小•按t分布原理,依据相应的自由度,查出该自由度下某个概率相应的界值,再按照中部占95%面积的t值范围:-t0.05/2(υ)--t0.05/2(υ),中部占99%面积的t值范围:-t0.01/2(υ)--t0.01/2(υ)进行估计。•因为:•所以:95%置信区间:•99%置信区间:XXtS0.05/2,0.05/2,,XXXtSXtS0.01/2,0.01/2,,XXXtSXtS•例子:p236课堂练习•95%置信区间的意义:理论上,用一次抽样所得的样本均数估计总体均数,犯错误的概率为5%.•或进行100次抽样,可算得100个置信区间,平均有95个置信区间包括客观存在的总体均数,只有5个置信区间未包括总体均数。估计置信区间的注意事项:(1)区间是以上、下可信限为界的一个范围。通常用表示置信限,用表示置信区间(2)置信区间与正常值范围的意义、算法不同:95%正常值范围一般是指同质总体内包括95%个体值的估计范围,若总体为正态分布,常用:计算;95%置信区间是指按照95%置信度估计的总体参数的可能范围,按照下式计算。前者用标准差,后者用标准误。/2,()/2,()(,)XXXtSXtS/2,()XXtS1.96XS0.05/2,()0.05/2,(),XXXtSXtS假设检验的基本思想和步骤•假设检验(hypothesistesting):亦称显著性检验(significancetest).是统计推断的另一个方面。••先对总体的参数或分布作出某种假设,如假设总体均数(或总体率)为一定值,两总体均数(或总体率)相等,总体服从正态分布或两总体分布相同等。然后,用适当方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。其结果将有助于研究者作出决策,采取措施。•在实际情况下:•由于抽样误差,从某总体中随机抽得的样本,得到的样本均数与该总体的均数不同;同一总体中两次抽样的样本均数也不相同。这种差别的原因在于:要么总体均数不同;要么总体均数相同,差别仅由抽样误差所致。那么,当我们遇到这种情况时,如何判断?可以通过某种方法来判断差别属哪种情况,这种方法就是假设检验。假设检验HypothesisTesting•假设检验的反证思想两种说法非A即B。要证明B真,只要证明A伪即可。•无效假设Nullhypothesis(H0)意在推翻的假设(说法A)。•备择假设Alternativehypothesis(H1)意在接受的假设(说法B)。•从无效假设出发,找出不支持这一假设的证据,从而推翻它。小概率事件smallprobabilityevent•事件A发生的概率是如此之小,以至于在一次试验(抽样)时,我们往往认为它(事件A)不会发生。•统计学中,小概率事件一般是指发生概率0.05(检验水准)的事件。•在假设检验中,如果在无效假设的前提下出现了小概率事件,我们则怀疑无效假设的真实性。例:两种不同处理结果之间的差异•效果A处理结果A,B处理结果B效果Effect:=结果A-结果B•对于总体如果=0,则A处理和B处理之间没有差别。如果0,则A处理和B处理之间有差别。•对于样本即使=0,由于存在抽样变异,往往样本结果A–样本结果B=0。问题在于这个差异是否仅仅是由于抽样变异造成的?ˆ进行假设检验的思路无效假设:样本结果A和B之间的差异仅仅是由于抽样变异造成的。即H0:=0。备择假设:样本结果A和B之间的差异不仅仅是由于抽样变异造成的,还包含不同处理的效果。即H1:0。由无效假设出发,我们可以计算出得到样本差异或者更大差异的概率(P值)。如果P值小于检验水准,则认为由此无效假设不太可能出现这样的结果,从而推翻它,接受备择假设(差异显著性)。反之,接受无效假设。ˆ检验统计量statisticfortesting•在无效假设的前提下,检验统计量的构建是无效假设的关键。•检验统计量一般服从某种分布。这样我们就可以利用这种分布计算出由无效假设出发,得到观察到的差异或更大的差异的概率,从而作出推断。观察到的量的标准误假设观察到的量检验统计量的量0020021,0~,~1,0~,~zzPxxPNzxzNxuuPxxPNuxuNxxx界值criticalvalue•对应于检验水准的分布上的某些数值。正态分布上的某些界值:单侧0.05±1.645双侧0.05±1.96相同界值单侧检验概率是双侧检验概率的一半•例题:两个血糖均数不同,其原因可能是由于抽样误差;也可能是男性管理人员的总体血糖均数与一般正常成年男性的均数不同。•假设检验过程:•1、建立检验假设和设定检验水准无效假设(nullhypothesis)H0,假设差异是由于抽样误差所致,而两个总体参数相同。是从反证法的思想提出的。•(μ=μ0)•备择假设(alternativehypothesis),H1.即差别不仅是由抽样误差所致,而更是总体参数不同。•H1是和H0相联系的,对立的假设。(μ≠μ0,μμ0,μμ0)•双侧,单侧检验:•根据专业知识,μ可能大于也可能小于μ0,称双侧检验;若认为μ大于、等于μ0(或相反),为
本文标题:5终身模块-统计学-抽样误差-假设检验
链接地址:https://www.777doc.com/doc-416880 .html