您好,欢迎访问三七文档
第八讲抽样的思想普查与抽样调查•统计思想:从总体中抽取一部分个体组成样本,先研究样本的情况,再由此推断总体的情况•一个抽样调查–抽样方案非常关键,如“你是否经常吸烟?”–两种误差•抽样误差(代表性误差):非抽样方案不好引起,是固有的随机性的反映,但应通过抽样设计,通过计算并采用一系列科学的方法,把代表性误差控制在允许的范围之内•测量误差(工作误差):如问卷等测量工具的设计缺陷、登记差错等,应加强责任心。由于抽样调查单位少,工作误差有可能比普查要小,特别是在总体包括的调查单位较多的情况下。获得对敏感性问题的诚实回答•一个装有50个白球50个红球的袋子,每个被调查者随机从袋中摸出一个球(放回),是白球回答问题1:你的父亲阳历生日日期是不是奇数?是红球回答问题2:你是否经常吸烟?•回答“是”的人往一个盒子中放一个筹码,回答“否”的人什么都不要做•200个被调查者,最后盒子中有58个筹码,能估计吸烟人数的百分比吗?365天中186天为阳历日期是奇数,在回答第1题的100人中大约有51人回答“是”,推出回答第2个问题的100人中大约有7人回答“是”,所以估计百分比是7%·抽样方法及其适用性•有意抽样(目的抽样)以调查者的主观判断为依据来抽取样本。易操作但主观随意性大、难以估计和控制抽样误差–典型抽样–随意调查–定额抽样–便利抽样•随机抽样以随机原则为依据来抽取样本。每个对象都有平等的机会被选到–简单的随机抽样–系统抽样(先随机地选取第一个对象,然后每隔一定数目选取一个对象)–分层抽样(按对象的特征,将总体划分为几个不同层次,再在每个层次中参考各层次对象在总体中所占的比例,作简单的随机抽样或系统抽样)–整群抽样选用哪一种方法应视具体情况而定,也可以采用几种方法高中必修3中的统计要求•随机抽样–简单随机抽样(抽签法、随机数法)学会•有无放回;形式不同,随机程度略有不同;从0开始编号的优点;不适用于总体中个体未确定和总体本身变异大的情形–系统抽样了解适用于大样本,不适用于周期、循环排列–分层抽样了解适用于层内同质性好,层间差异显著–中外研究表明,在简单随机抽样与分层抽样之间,学生可能更喜欢分层抽样方法(每一层都有个体被抽到,含有个体多的层其个体在样本中所占的比例也大,关于各层可获得结论)有无放回的影响假设甲袋中装着12个彩球,10个是红色的2个是蓝色的,乙袋中装着12000个彩球,10000个是红色的2000个是蓝色的。在下面两种情况下,请针对甲袋和乙袋分别回答下述问题:取出的前8个球都是红球,问第9个球还是红球的概率是多少?–每次取一个球,取出后不放回–每次取一个球,取出后放回P甲=0.5,P乙=0.833P甲=0.833,P乙=0.833通过样本能了解总体吗?样本大小不同的几次抽样样本大小为500的三次抽样通过样本能了解总体吗?小王家中有4口人,体重分别是20公斤、50公斤、60公斤和70公斤.可以计算得到4个人的平均体重为50公斤.若只能抽样调查2个人次,则样本均值与总体均值相差不超过10公斤的概率大吗?大多数的时候像•16种可能结果,有10种误差不超过10公斤,有14种误差不超过15公斤20,2020,5020,6020,7050,2060,2070,2050,502035404535404550××√√×√√√50,6050,7060,5070,5060,6060,7070,6070,705560556060656570√√√√√×××对样本概念的分析•“样本,也称子样,是指从被抽样总体中抽取并要对其进行调查或观察的部分单位所组成的集合体。”•“从所研究对象的全体(即总体)中抽出的部分个体叫做总体的一个样本。”这两种定义指出样本的基本含义是“样本是总体中的一部分,它与总体的关系是部分和整体的关系”仅仅停留在从属关系上•统计的基本思想是通过调查或观察样本来了解或推断总体的数量特征。因此,样本概念有两层含义,一是样本与总体的部分与整体的关系,二是样本对了解总体的意义。两层中的第一层是基本的。池塘里有多少鱼?•捉--放--捉的方法:–捉来c条鱼,作标记,放回,充分混合后,再捉r条,其中t条已作标记,记池塘里有鱼N条,则•有2种理解途径:–替换原理,样本有很好的代表性,用样本中的比例估计总体中的比例–最大似然估计,写出该观察值出现的概率,捉r条恰有t条已作标记,它是N的函数,找出N的估计值,使得概率达到最大。最大值时N的取值为了避免出现除数为0的情况,改用()trtcNcrNCCPTtC高中统计选修内容•回归(不限于线性)•独立性检验•假设检验•聚类分析•参数估计–点估计–区间估计变量间的相关关系•相互依存关系可分为两种类型。一类是函数关系(确定性的依存关系)。另一类为相关关系,对于变量的某个数值,可以有另一变量的若干数值与之相对应,这若干个数值围绕着它们的平均数呈现出有规律的波动(同时受其他随机因素影响)–确定现象之间有无相关关系以及相关关系的类型(可用散点图,如果每个点已经集中了一群个体的信息,那么相关关系会显现得更加明显)–判定现象之间相关关系的密切程度,通常是计算相关系数r,若其绝对值在0.75以上表明高度相关,0.25以下表明相关性较弱–拟合回归方程–判断回归分析的可靠性,对回归方程进行检验–根据回归方程进行预测和控制售出热茶的杯数与气温之间的关系2620182413341038450-164r=-0.96962相互依存关系画图→判断相互关系类型→回归方程→预测最小二乘法2111211(,)()2()()0,2()0.niiniiiniinniiifabyaxbfyaxbxafyaxbbaxnxbxyaxby取最小值意义?回归直线一定经过散点图的中心xy(,)选修课中讲回归(线性/非线性)•Y=ax+b+e随机误差最小二乘估计2)(iiyy残差相关指数(刻画回归效果)若有几个回归方案,可以选择相关指数最大的那个。在残差图上检查数据是否有异常,寻找异常的原因选修中的统计•通过典型案例介绍基本、常用的一些统计思想方法–回归•根据所收集到的数据找出回归方程,预测可化为线性回归的非线性问题–独立性检验•假设……无关联,即独立的,看是否某个概率很小的事件却发生了,从而否定假设–假设检验•假设……,看是否某个概率很小的事件却发生了,从而否定假设–聚类分析•将距离最小的两个类合并成一个新类,计算新类与其他类的距离,再将距离最近的两个类合并……国家和人们对他人态度列联表举例(1)关系强度系数=0.00越小与国别关系越弱丹麦法国总计对他人的态度信任419412831怀疑5665571123总计9859691954(2)关系强度系数=0.43——》²——》p丹麦法国总计对他人的态度信任625206831怀疑3607631123总计9859691954(3)关系强度系数=1.00丹麦法国总计对他人的态度信任9850985怀疑0969969总计9859691954独立性检验的基本思想为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人):吸烟与患肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965那么吸烟是否对患肺癌有影响?先假设H0:吸烟与患肺癌没有关系56.632为什么构造这样复杂而意义并不显然的随机变量K2?既然吸烟与患肺癌没有关系,我们可以期望,不吸烟组中不患肺癌的百分比和吸烟组中不患肺癌的百分比相同,吸烟组中患肺癌的百分比和不吸烟组中患肺癌的百分比相同,再看预期的数据与我们观察到的数据之间的差距如何2(6.635)0.01PK我们有99%的把握认为H0不成立,即有99%的把握认为“吸烟与患肺癌有关系”。•一位顾客买了一包标有5公斤装的面粉,回家称后发现份量不足,于是向消费者协会投诉。在正常情况下,这种面粉重量的分布是正态分布N(5,0.25).消协去实地随机抽检了这种面粉25包,发现其平均重量为4.8公斤,的确比标示的份量少。问是否可以说该工厂有不实包装之嫌?•原假设:这25包面粉重量属于均值为5.0的这个总体,即.相对的备择假设:这25包面粉重量属于均值小于5.0的总体•如果在N(5,0.25)下发生“25包的平均重量为4.8公斤”的概率并不小,那么我们不能拒绝原假设,应将这次的份量不足归为完全是由随机性造成的。•那么这件事在N(5,0.25)下发生的概率是多少呢?我们可以计算一下下面这个检验统计量4.85.02.00.5/25xUn0:5.0H所求概率为0.0228。p-值越小,数据所提供拒绝H0的证据就越强。现在该值小于0.05,所以可以拒绝原假设,认为该工厂有不实包装之嫌,错误拒绝的概率是0.023。在H0为真的假设下,“25包的平均重量不超过4.8公斤”的概率反复抽样法聚类分析—利用数学进行分类•聚类思想:将每个事物看作数学空间中的一个点,规定两点间的距离,分类时把距离近的点归成一类。•对某地21个古墓挖掘后,记录每个古墓陪葬的瓷器用具数(x1)和陶俑数(x2),要求按这两个指标对古墓进行分类。墓号1234567891011x1557799101111128x211101089867659墓号12131415161718192021x13220655442x27757643420222018161412108642-2-20-15-10-55101520212019181716151413121110987654321每个古墓陪葬的瓷器用具数(x1)和陶俑数(x2)聚类过程以通常平面上点的距离为衡量距离的标准,两个类中,点的最短距离作为两个类的类间距离点估计的基本评价标准•相合性:估计量随着样本量的不断增大而逼近参数真值–样本均值是总体均值的相合估计–样本标准差是总体标准差的相合估计•无偏性:把偏差平均起来其值为0–样本均值是总体均值的无偏估计–样本方差s2n-1是总体方差的无偏估计,样本方差s2只是总体方差的渐近无偏估计,所以当n较小时要使用s2n-1但是,“有偏估计一定是不好的估计”不真两种好的点估计(平均数、比率)•如果从一个平均数为μ,方差为σ2的总体中抽取一个容量为n的样本(X1,X2,。。。,Xn),那么当n足够大时,样本平均数近似服从正态分布N(μ,σ2/n)。•如果从总体中抽取一个容量为n的样本,那么样本中某些特殊个体所占的比率当n足够大时,近似服从正态分布N(p,p(1-p)/n),其中p是总体中该种特殊个体的比率。随着n的增大,σ2/n和p(1-p)/n都越来越小,样本平均数和样本中该种特殊个体的比率越来越往总体平均数μ和总体中该种特殊个体的比率p集中,估计值的误差也越来越小,所以,这两种用样本平均数作为总体平均数的估计值、用样本中该种特殊个体的比率作为总体中该种特殊个体比率的估计值都是好的点估计。区间估计•区间估计给出的估计是一个区间范围,一般应根据拟定的某一置信度,通过查表计算,得出来自该样本的置信区间的两个端点值,使待估计的参数落在置信区间内的概率为置信概率(置信度)。•置信度是在来自不同样本的多个置信区间当中包含未知的总体参数的区间所占的百分比。置信度为95%的意思是多次(如100次)抽样中有95%的置信区间包含未知的总体参数值而另外的5%则不包含真值。某厂产品的寿命服从正态分布N(μ,σ2),现拟从该厂生产的大量产品中随机地抽取n个产品来估计产品寿命总体平均值μ,若拟定的置信度为95%,求置信区间。因为X~N(μ,σ2)的话,其样本平均数就服从N(μ,σ2/n),若算得这批样本的平均寿命,方差σ2,则服从N(0,1)因为p(-1.961.96)=0.95,所以置信区间为[-1.96,+1.96]如何使置信区间短一些?两条途径(增加样本容量,降低置信度),但是,一般不愿意降低置信度nx/xnx/Xxnxn1.一枚硬币扔10次,结果全是反面,它是一个普通的硬币吗?2.
本文标题:抽样的思想
链接地址:https://www.777doc.com/doc-418704 .html