您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 抽样误差与假设检验、t检验
第四章抽样误差与假设检验第四章抽样误差与假设检验•几个概念:•计量资料:测定每个观察单位某项指标量的大小得到的数据(资料)。•总体:研究对象(某项变量值)的全体。•样本:总体中随机抽取的一部分研究对象的某项变量值。•统计量:从样本计算出来的统计指标。•参数:总体的统计指标叫总体参数。第四章抽样误差与假设检验•统计推断:用样本信息推论总体特征的过程。•包括:•参数估计:运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。•假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。•方法:均数的参数估计、均数t检验第四章抽样误差与假设检验一、抽样误差与标准误(一)概念•1、抽样误差:是伴随抽样所产生的样本统计量与参数之间的差别。•2、标准误:符号,表示抽样误差大小的指标;也称为样本均数的标准差;反映了用样本均数代替总体均数的可靠性程度的大小,增加样本容量可以降低抽样误差。)xxs、(抽样误差与抽样分布第四章抽样误差与假设检验(二)、表达式与计算nsxnxs样本均数的标准差,也称为标准误,反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异。例4.1某市随机抽查12岁男孩100人,得身高均数139.6cm,标准差6.85cm,计算标准误。)(685.010085.6cmnsxs标准差与标准误联系与区别标准差标准误含义测量值的离散程度样本均数的离散程度(统计量对参数的散度)计算大小大小用途描述测量值离散程度、计算cv、计算正常值范围、计算标准误参数可信区间的估计假设检验,表达误差的内涵联系都是离散程度的指标,标准误是通过标准差来计算1)()(22nxxnxsnsnxsx第四章抽样误差与假设检验二、抽样分布从正态总体中抽样,样本均数()的抽样分布:1.n较大时(n50),服从正态分布,经过标准化转换服从标准正态分布即u分布2.n较小时(n50),是非正态的单峰对称分布就有小样本统计量()的转换值服从t分布(是一组曲线)。xxxuxxxsxt第四章抽样误差与假设检验抽样分布第四章抽样误差与假设检验•英国统计学家:哥塞德在1908年以笔名“student”提出了著名的t分布,故也称为studentt分布。•t分布是描述小样本均值转换度的分布。1、从正态总体中抽样,大样本均数的转换值服从标准正太分布2、小样本均数的转换值服从t分布第四章抽样误差与假设检验(1)t→u(n→∞)(2)和N(0,1)一样都是单峰分布,以0为中心对称(3)越小,则越大,t值越分散,和N(0,1)相比,集中在这部分的比例越少,尾部翘得越高。sx•2、t分布的特征第四章抽样误差与假设检验第四章抽样误差与假设检验t分布(与u分布比较的特点)第四章抽样误差与假设检验横坐标为自由度,纵坐标为概率p,表中数字表示自由度为、p为、t的界值,记如单侧=0.05,=20可查得=1.725表示p(t≥1.725)=0.05由t分布的对称性p(t≤-1.725)=0.05tα,ν以外尾部面积的百分数是•3、t界值表1n)(t)(/2,t第四章抽样误差与假设检验的界值)(2/05.0t第四章抽样误差与假设检验与u分布比较•U的临界值小于t曲线相应的临界值的绝对值当n→∞时,临界值相近。•自由度越小,t的临界点越偏离u的临界点。第四章抽样误差与假设检验总体均数的参数估计•参数估计:是指由样本指标值(统计量)估计总体指标值(参数),即用样本均数估计总体均数,有两种估计方法:(1)、点估计(近似值)(2)、区间估计(近似范围)第四章抽样误差与假设检验一、点估计•点估计:用样本均数直接作为总体均数的估计值,未考虑抽样误差。•如用估计相应的μ•当时,样本均值趋近于总体均值.如果,则更可靠.x)(n21xxss2xs第四章抽样误差与假设检验二、区间估计•1、概念•可信区间:也称为置信区间(confidenceinterval,CI),是按预先给定的概率估计未知总体均数的可能范围.事先给定的概率1-α称为可信度,常取95%或99%•总体均数的95%(或99%)可信区间:表示该区间包括总体均数μ的概率为95%(或99%).第四章抽样误差与假设检验•根据总体标准差σ是否已知,以及样本含量n的大小而异。•(1)t分布法(n50)•(2)u分布法(n50)•2、计算方法第四章抽样误差与假设检验(1)t分布法(σ未知,n50)•按t分布原理,可用以下公式进行区间估计:•对上式进行变换,得置信度为1-α的总体均数可信区间的通式为:•习惯将上式写成:1)()(2/)(2/tsxtpxxxstxstx)(2/)(2/),()(2/)(2/xxstxstx第四章抽样误差与假设检验•例某医师测得40名老年慢性支气管炎病人中17-酮类固醇排除量均数为15.9μmol/d,标准差为5.03μmol/d,试估计该种病人尿17-酮类固醇排除量总体均数的95%可信区间.•本例中:n=40,=5.03,=n-1=39,α取0.05,查t值表95%的可信区间x023.2)39(/205.0t)80.16,58.13()4003.5023.219.15,4003.5023.219.15(第四章抽样误差与假设检验(2)U分布法(σ已知或未知,但n足够大n50)•总体均数的可信区间.•σ已知:•σ未知但n足够大:),(2/2/nuxnux),(2/2/nsuxnsux第四章抽样误差与假设检验•uα可以查表•某地12岁男孩身高均数的95%的可信区间.•本例中:n=100,=139.6,s=6.85,u0.05=1.96•该地12岁男孩身高均数的95%可信区间为:•138.3(cm)~141.0(cm)x),即(0.1413.138)10085.696.16.139,10085.696.16.139(第四章抽样误差与假设检验注意•(1)统计意义:从总体中作大数次随机抽样,有95%求得的可信区间包含总体均数。并不是做一次抽样求得可信区间包括μ的概率是0.95,对一次抽样而言只有两种可能,要么可信区间包含μ,要么不包含μ。•(2)与医学正常值范围不同第四章抽样误差与假设检验正常值范围估计与可信区间估计正常值范围概念:绝大多数正常人的某指标范围。(95%,99%,指绝大多数正常人)计算公式:用途:判断观察对象的某项指标是否正常.可信区间概念:总体均数所在的数值范围(95%,99%指可信度)计算公式:用途:估计总体均数第四章抽样误差与假设检验假设检验的意义和步骤•假设检验(hypothesistest)也称显著性检验(significancetest)。二十世纪二、三十年代Neyman和Pearson建立了统计假设检验问题的数学模型。•假设检验:建立在统计抽样分布,小概率事件原理基础上的对差别性质进行风险推断的一种逻辑思维方法.第四章抽样误差与假设检验假设检验:1、原因2、目的3、原理4、过程(步骤)5、结果第四章抽样误差与假设检验1、假设检验的原因由于个体差异的存在,即使从同一总体中严格的随机抽样,X1、X2、X3、X4、、、,不同。因此,X1、X2不同有两种(而且只有两种)可能:(1)分别所代表的总体均数相同,由于抽样误差造成了样本均数的差别。差别无显著性。(2)分别所代表的总体均数不同。差别有显著性。第四章抽样误差与假设检验•根据大量调查,已知健康成年男子脉搏的均数为72次/分,某医生在一山区随机调查了30名健康成年男子,求得脉搏均数为74.2次/分,标准差为6.5次/分,能否据此认为该山区成年男子的脉搏均数高于一般人?第四章抽样误差与假设检验我们当然不能强求脉搏均数恰为72次/分时,才认为山区成年男子的脉搏均数和一般人一样,因为即使一样由于抽样误差的存在,样本均数未必等于72,造成山区健康成年男子的脉搏样本均数与一般人不同的原因有:①抽样误差②环境因素的影响要回答这一问题就是假设检验问题第四章抽样误差与假设检验2、假设检验的目的判断是由于何种原因造成的不同,以做出决策。(推断参数是否相等)0100:H:H无效假设备择假设第四章抽样误差与假设检验3、假设检验的原理/思想•反证法:当一件事情的发生只有两种可能A和B,为了肯定其中的一种情况A,但又不能直接证实A,这时否定另一种可能B,则间接的肯定了A。•小概率事件原理:小概率事件在一次抽样中不可能发生.•概率论:事件的发生不是绝对的,只是可能性大小而已。即,带有风险性的推断.第四章抽样误差与假设检验4、假设检验的一般步骤▲建立一对假设(注意单双侧)确定显著性水准():无效假设(H0):两个总体均数相等;备择假设(H1):与H0相反;预先给定的概率值α(0.05或0.01),区分大小概率事件的标准.如上例,H0:μ1=72H1:μ1≠72α=0.05▲计算统计量:(选择不同的统计方法:u检验,t检验,F检验等)▲确定概率值p和做出统计推断结论:(p值实际得到犯一类错误的可能性,pα,则统计推断为按α检验水准,拒绝H0,接受H1;pα,则统计推断为按α检验水准,不拒绝H0。)第四章抽样误差与假设检验5、假设检验的结果•不拒绝无效假设•拒绝无效假设•正确理解结论的概率性(都隐含着犯错误的可能性)。第四章抽样误差与假设检验六、均数的假设检验•t检验(ttest)也称studentt检验,是计量资料中最常用的假设检验方法,它以t分布为基础.•本章将要介绍•单个样本的t检验(样本均值与总体均值的比较)•配对样本t检验•两独立样本的t检验(两样本均值的比较,方差一致)第四章抽样误差与假设检验单个样本t检验•单个样本t检验:是样本均数代表的总体均数和已知总体均数的比较.▲适用条件:•(1)已知一个总体均数;•(2)可得到一个样本均数及该样本标准误;•(3)样本量小于50;•(4)样本来自正态或近似正态总体。x0第四章抽样误差与假设检验•例:根据大量调查,已知健康成年男子的脉搏均数为72次/分.某医生在某山区随机调查30名健康男子,求得脉搏均数为74.2次/分,标准差为6.5次/分.能否认为该山区的成年男子的脉搏均数高于一般成年男子的脉搏均数?第四章抽样误差与假设检验因本例已知=72次/分,=74.2次/分,s=6.5次/分,n=30,由于已知,故选用单样本t检验0x0•1、建立检验假设,确定概率水准山区成年男子平均脉搏数与一般成年男子相同。山区成年男子平均脉搏数与一般成年男子不同。•2、计算检验统计量•在μ=μ0成立的条件下,计算统计量为:05.0::0100HH85.1305.6722.7400nsxsxtx第四章抽样误差与假设检验•3、确定p值,做出推断结论1301n查表2,可得t0.05/2(29)=2.045今tt0.05/2(29)故,p0.05,无统计学意义,按α水准,不拒绝H0,尚不能认为该山区成年男子平均每分钟脉搏数高于一般成年男子。第四章抽样误差与假设检验•配对样本均数t检验简称配对t检验(pairedttest),又称非独立两样本均数t检验,适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的未知总体均数是否有差别。•配对设计(paireddesign)是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。配对样本t检验(1)两种同质受试对象分别接受两种处理:如:把同窝、同性别和体重相近的动物配成一对。(2)同一受试对象或同一样本的两个部分,分别接受两种不同处理:如:把服用两种降糖药的病人配成对(3)同一受试对象处理(实验或治疗)前后的结果比较:如:对高血压患者治疗前后•配对设计资料主要有三种类型:应用配对设计可以减少实验的误差和控制非处理因素,提高统计处理的效率。第四章抽样误差与假设检
本文标题:抽样误差与假设检验、t检验
链接地址:https://www.777doc.com/doc-5002775 .html