您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第3章 抽样误差与假设检验(1)
第三章抽样误差与假设检验第一节、正态分布1、图形2、特征3、面积4、应用1、正态分布的图形正态分布正态曲线(normalcurve)是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线。该曲线的函数表达式f(x),称为正态分布密度函数,其中,μ为总体均数,σ为总体标准差.2、正态分布的特征单峰分布,钟形,均数处最高;以均数为中心,左右对称;2个参数μ和,N(μ,2)正态分布的特殊形式:标准正态分布N(0,1);曲线下的面积有一定规律。3、曲线下面积正态曲线下的面积特点横轴上曲线下的面积为1曲线下,横轴上对称于均数的面积相等μ,已知时,进行标准正态变换再查表μ,未知时,用样本的均数和标准差代替95%,99%的面积已知:=119.95cm,s=4.72cm.试问:(1)估计该地7岁男童身高在110cm以下者占该地7岁男童的百分比。(2)估计该地7岁男童身高在130cm以上者占该地7岁男童的百分比。(3)估计该地7岁男童身高在110cm到130cm之间的占该地7岁男童的百分比。正态分布的应用1、估计变量值的频数分布例3.1:某市2002年110名7岁男童的身高X当μ,已知时,当μ,未知时,本例查附表1,为1.74%,即身高在110cm以下者约占该地7岁男童的1.74%。同理,身高在130cm以上者约占该地7岁男童的1.66%。身高在110~130cm之间的约占1-(1.74%+1.66%)=96.6%110119.952.114.72xxzsxzxxzs130119.952.134.72xxzs2、制定医学参考值范围(referenceranges)定义——是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。制定方法选择足够数量的正常人作为参照样本(1)“正常人”的标准明确;(2)有一定的样本含量(n≥100);(3)随机抽样准确的测定测量方法、仪器的灵敏度、操作规范等确定单侧或双侧根据指标的实际用途,有的指标有上下界值,过高过低均属异常;某些指标过高为异常,只需确定上限;某些指标过低为异常,只需确定下限。选择适当的百分范围95%最常用减少假阳性——如确诊病人(95%,99%)减少假阴性——如初筛病人(80%,90%)确定医学参考值范围的方法有两种:(1)正态分布法若X服从正态分布,可以依正态分布规律计算。因为正态分布变量X在区间μ±1.96σ,所以正态分布资料双侧医学参考值范围一般按下式作近似估计:±1.96SX例3.1:(119.951.96×4.72,119.951.96×4.72)即(110.69cm,129.20cm)单双侧:根据指标的实际用途,有的指标有上下界值,过高过低均属异常;某些指标过高为异常,只需确定上限;某些指标过低为异常,只需确定下限。例某地调查110名健康成年男性的第一秒肺通气量,得均数为4.2(L),标准差为0.7(L),请估计该地成年男子第一秒肺通气量的95%参考值范围。即该地成年男子的第一秒肺通气量95%参考值范围为:3.05(L)1.6454.21.6450.73.05xsL(2)百分位数法双侧95%医学参考值范围是(P2.5,P97.5),单侧范围是P95以下,(如血铅、发汞),或p5以上(如肺活量)。该法适用于任何分布型的资料,尤其是偏态分布资料。3、质量控制上、下警戒值:上、下控制值:2xs3xs4、正态分布是很多统计方法的基础正态分布——t检验、Z检验、F检验偏态分布——非参数检验例2-1测得130名健康成年男子脉搏资料(次/分)如下75767269667257687172697273828082676973647458706460776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876第二节抽样误差μ=71.32σ=5.89样本号nst11072.207.602.400.36621073.605.741.821.25631069.205.571.76-1.20341070.206.442.04-0.550xxs因为总体中各观察单位间存在个体变异,每份样本的组成不一样;所以从同一总体中反复多次地随机抽取容量相同的若干份样本,计算每一份样本的统计量是不同的,而且样本统计量与总体参数之间也不一定恰好相同。一、样本均数的抽样分布与抽样误差1.样本均数的抽样分布特点:各样本均数未必等于总体均数;样本均数之间存在差异;样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称,也服从正态分布;样本均数的变异较之原变量的变异大大缩小。2.均数的抽样误差:是指由抽样造成的样本均数与样本均数、样本均数与总体均数之间的差异。样本均数的标准差(标准误):是用于表示均数抽样误差的指标;反映样本均数之间的离散程度,也反映样本均数抽样误差的大小。根据数理统计学原理,若随机变量X的均数为,方差为,则样本均数的均数仍为,样本均数的标准差为,且又根据正态分布原理,若随机变量X服从正态分布,则样本均数也服从正态分布。若随机变量X~,则样本均数~2XXnXX2(,)XN2(,)N在实际应用中,总体标准差常常未知,需要用样本标准差S来估计。此时,样本均数标准误的估计值为可见,样本均数标准误的大小与标准差成正比,与样本含量的平方根成反比,即在同一总体中随机抽样,样本含量越大,抽样误差越小。故在实际应用中可以通过增加样本含量来减少样本均数的标准误,从而降低抽样误差。XSSn如果总体并非正态分布,从中随机抽取的样本均数之分布又将如何?样本均数的总体均数仍等于原来的总体均数,样本均数的标准误仍满足但是,当样本量n较小时,样本均数的分布并非正态分布,而样本量足够大时(如),样本均数的分布近似于正态分布。Xn50n中心极限定理:当样本含量很大的情况下,无论原始测量变量服从什么分布,的抽样分布均近似正态。X抽样分布抽样分布示意图例3.22000年某研究者随机调查某地健康成年男子27人,得到血红蛋白的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。解:152.89/27XSSgLn第三节t分布(一)t分布的概念(二)t分布的图形和t分布表(一)t分布的概念从正态分布抽得样本的均数也服从正态分布,记为;对正态变量作变换,便有在实际工作中,当未知时,常用来代替,此时,对正态变量采用的不是z变换,而是t变换。统计量t服从自由度为(n-1)的t分布。2(,)NX2(,)XNXXXZ~(0,1)XXZNXXSXXXtSSnX(二)t分布的图形与t分布表t分布的图形特征:单峰分布,以0为中心,左右对称,类似于标准正态分布;自由度越小,则越大,t值越分散,曲线的峰部越矮,尾部越粗;随着自由度逐渐增大,t分布逐渐逼近标准正态分布;当自由度趋于,t分布就完全成为标准正态分布,故标准正态分布是t分布的特例。XS返回t值表(附表2)纵坐标:自由度,υ横坐标:概率,p,即曲线下阴影部分的面积;表中的数字:相应的|t|界值。t值表规律:(1)自由度(υ)一定时,p与t成反比;(2)概率(p)一定时,υ与t成反比;小结1.从同一总体中反复多次地随机抽取若干份样本,各样本统计量之间以及样本统计量与总体参数之间存在差异,此现象称抽样误差。反应抽样误差大小的指标是标准误,均数的标准误的理论值为,样本估计值为;XnXSSn小结2.由于总体中个体变异的客观存在,抽样误差是不可避免的,但可随着样本含量的增加而减少。来自正态总体的样本均数,其分布仍服从正态分布;即使从偏态分布总体抽样,只要n足够大,均数的分布也近似成正态分布。要注意均数的标准误与原变量的标准差之间的区别,不能混淆其意义。3.当X服从均数为统计量服从自由度为(n-1)的t分布。随着自由度不同,t分布的形状不同;当自由度很大很大时,t分布近似标准正态分布。XXtS
本文标题:第3章 抽样误差与假设检验(1)
链接地址:https://www.777doc.com/doc-3998503 .html