您好,欢迎访问三七文档
统计学-6统计推断:对总体参数的估计抽样:总体、样本、个体、样本容量统计量、参数抽样方法抽样分布:样本均值:中心极限定理;样本均值的标准化样本比例:np≥5和n(1-p)≥5,p~N(π,π(1-π)/n)χ2分布:xi2,χ2(n)~N(n,2n)t分布:趋近标准正态分布F分布:F(m,n),F=(X/m)/(Y/n)自由度(m,n)上章复习-内容概要ni1简单随机抽样RND(RV.UNIFORM(a,b)=ROUND(RAND()*(b-a)+a,0)系统抽样起点,距离n分层抽样先分类,再在每类中简单随机抽样整群抽样先分群,再随机抽群进行普查或简单随机抽样多级抽样总体-群-子群-子群的子群……,再普查或简单随机抽样上章复习-概率样本上章复习-抽样误差样本统计量和总体参数之间的差异成为样本误差。利用样本,可以估计总体,但不能保证完全准确。标准误:样本统计量的抽样分布的标准差,称为统计量的标准误(standarderror),标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度。如样本均值的标准误:σ/√n。当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误(standarderrorofestimation)。如样本均值的标准误:s/√n。上章复习-计算机软件的应用随机数的产生抽取随机样本随机生成正态分布样本样本均值抽样分布作图样本比例抽样分布随机模拟上章复习-作业课后练习引言推断统计两个重点:估计、假设检验估计:点估计区间估计样本量估计量:统计量是样本的(不含未知总体参数的)函数,用于估计的统计量称为估计量。估计值:若得到一组观察值,代入估计量得到具体的数值,成为参数的估计值。在不引起混淆的场合可统称为估计。点估计样本统计量估计总体参数。一致的最小方差的无偏的估计量^θ来估计总体参数θ。一致无偏有效如样本均值、方差、比例区间估计例:民意调查中说“支持率为85%加减5%的误差,其置信度为95%”。点估计85%,置信区间(80%,90%),80%置信下限,90%置信上限,置信度为95%,α(显著性水平)为0.05。区间估计置信度:重复构造置信区间,这些区间中包含总体参数真值得区间数所占的比率。1)每一个置信区间都是随机的,因样本不同而不同,不是所有的区间都包含总体参数的真值。2)实际问题中,往往只取一个样本,得到一个置信区间。无法确定这个区间是否包含总体参数真值,只能希望它是大量包含了总体参数真值得区间中的一个。例:对某班成绩进行多次抽样,有95%的样本得到的区间包含了全班学生的平均分,有5%的样本得到的区间没有包含平均分。其中一个样本得到的置信区间是60-80,能不能说60-80这个区间以95%的概率包含全班学生的平均分,或全班学生的平均分有95%的概率落在60-80之间?总体均值的区间估计-正态总体、方差已知样本均值的期望值:μ,样本均值的标准误:σ/√nZ(样本均值)=(样本均值-μ)/(σ/√n)μ=样本均值-Z(样本均值)(σ/√n)总体均值的区间估计-正态总体、方差已知例:某地区成年人的睡眠时间服从正态分布,总体的标准差为0.3小时。一项随机调查得到16个成年人的平均睡眠时间为7.3625小时。请给出该地区成年人平均睡眠时间的点估计和95%置信区间。?总体均值的区间估计-大样本、方差未知正态或非正态总体、方差未知、大样本当n≥30时,样本均值抽样分布趋近正态分布,并可以用s代替σ总体均值的置信区间为:例:为了解某企业员工平均收入,随机抽取80名员工为样本,得样本均值为2024.36元,样本标准差为435.705元,请问1)总体均值是多少?2)总体均值的一个合理范围是什么?3)结果表示什么?总体均值的区间估计-大样本、方差未知?T分布形态t分布自由度:n-1。总体均值的区间估计-正态总体、方差未知、小样本严格来说,选择Z值还是t值取决于总体标准差σ是否已知。一般假定总体服从正态分布。总体均值的区间估计-正态总体、方差未知、小样本例:某地区成年人的睡眠时间服从正态分布。一项随机调查得到16个成年人的平均睡眠时间为7.3625小时,样本标准差为0.4924小时。请给出该地区成年人平均睡眠时间的点估计和95%置信区间。?样本量、置信度、区间宽样本量确定,置信度增加,区间加宽;区间变窄,置信度降低。区间宽度固定,样本量增加,置信度增加置信度固定,样本量增加,区间变窄。软件计算:单个正态样本均值的区间估计正态总体、方差未知,按t值而非z值计算SPSSanalyze—descriptive—exploreAnanlyze-comparemeans-单样本t检验(和上面得到的结果一致)Excel工具-数据分析-描述统计-(按t值计算的结果)两个均值的区间估计两个独立正态总体μ1-μ2的区间估计假定样本量为m和n的独立样本x1,…,xm和y1,…,yn分别来自两个独立正态分布X~N(μ1,σ12)和Y~N(μ1,σ12)点估计:区间估计:两个均值的区间估计两个配对/相依正态总体μD=μ1-μ2的区间估计同一个人减肥前后的重量比较治疗前后的症状比较同样情况下对两种材料的某种性能的比较等(X,Y)代表配对样本,Di=Xi-Yi,假定D服从均值为μD=μ1-μ2的正态分布。软件计算:两个正态样本均值差的区间估计1)独立:SPSS:Analyze-comparemeans-independentsampleTTestsig如大于0.05,则没有证据认为这两个数据总体的方差不等。2)配对/相依SPSS:analyze—comparemeans—pariedsamplesTTest总体比例的区间估计求比例的置信区间,必须满足两个假定。满足二项分布的条件样本是计数的结果只有两种互斥的可能结果每次试验中,成功率保持不变每次试验室相互独立的np≥5和n(1-p)≥5。(保证中心极限定理的条件得到满足。)总体比例的区间估计样本比例标准误置信度为(1-a)的置信区间的公式:此公式仅适用于大总体,大样本。1)如此公式计算出来的区间包含了0或1,则说明样本量不够大。2)p越接近0或1,为了正态近似所需要的样本量就越大。总体比例的区间估计例:某企业调查职工流动原因,随机抽取200人为样本,其中140人表示他们离开企业的原因是因为无法和管理人员融洽相处。试分析基于这一原因离开企业的人员的真正比例,构造95%的置信区间。?解:p=140/200=0.7。总体很大,np=140≥5,n(1-p)=60≥5,样本量也足够大,p的抽样分布可以用正态分布近似。1-a=0.95,a/2=0.025,Z0.025=1.96总体比例之差p1-p2的区间估计可以证明,当n1和n2两者都很大,而且p1和p2不太接近0或者1时,p1和p2的抽样分布近似服从正态分布。总体比例的区间估计总体比例的区间估计例:某保险公司想比较在两个城市做广告的效果,从两个城市分别随机地调查了1000成年人,看过广告的比例分别为p1=0.26和p2=0.21,试求p1-p2的95%的置信区间。解:n=1000,大样本。p1和p2不太接近0或1。?估计总体均值时样本量的确定在重复抽样或无限总体抽样的条件下,取不小于结果的最小整数。三影响因素:1)希望达到的置信度(常选95%,Z值1.96,99%,Z值2.58);2)最大可容许误差E(如0.01);3)总体的变异程度,即总体的标准差。通常总体标准差未知:1)利用其它研究中的相同或类似样本的标准差代替;2)用极差估计:假定总体为近似正态分布,则越99.7%观测值都位于平均值加减3倍标准差之间,σ=R/6(参见第三章)3)进行预调查。正式调查前先选择一个初始样本,计算出其标准差,再用这一标准差计算出正式样本的容量。估计总体均值时样本量的确定估计总体均值时样本量的确定例:拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪的95%置信区间,希望估计误差为400元,应抽取多大样本??解:已知σ=2000,E=400,Za/2=1.96n=1.96220002/4002=96.04,取97。估计总体比例时样本量的确定在重复抽样或无限总体抽样的条件下,取不小于结果的最小整数。三个影响因素在π值未知的情况下1)利用其它研究中的相同或类似样本的标准差代替;2)进行预调查。3)通常取使π(1-π)最大的π值,即0.5。例:根据以往的生产统计,某产品的合格率为90%,现要求估计误差为5%,在求95%的置信区间时,应抽取多少产品为样本?估计总体比例时样本量的确定?解:已知π=0.9,E=0.05,Za/2=1.96。n=1.9620.9(1-0.9)/0.052=138.3,取139。作业课后练习
本文标题:总体均值的区间估计
链接地址:https://www.777doc.com/doc-2132402 .html