您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第14章样本容量的确定
第14章样本容量的确定◊14.1概率抽样中样本容量的◊14.2正态分布◊14.3总体分布、样本分布◊14.4抽样分布◊14.5样本容量的确定◊14.6统计功效学习目标1.学习确定样本容量的财务和统计知识2.确定样本容量的方法3.熟悉正态分布4.理解总体、样本及样本分部5.区分点估计及区间估计6.识别抽样方式和比例方面存在的问题1.概率抽样中样本容量的确定样本容量含义:样本容量又称“样本数”。指一个样本的必要抽样单位数目。在组织抽样调查时,抽样误差的大小直接影响样本指标代表性的大小,而必要的样本单位数目是保证抽样误差不超过某一给定范围的重要因素之一。因此,在抽样设计时,必须决定样本单位数目,因为适当的样本单位数目是保证样本指标具有充分代表性的基本前提。1.可支配预算例如:一个品牌经理如果有40000美元预算可用于某项市场研究,那么除去其他项目成本(如调查方案和问卷的设计数据的处理分析等)后,余下的那部分预算才决定着被调查的样本容量的大小。如果可支配资金太少,可以确定的样本量太小,管理者就必须做出决策是补充更多的资金还是放弃这一项目。2.经验法则“一种强烈的感觉”,认为某一特定的样本容量是必要的或合适的。以“经验性”为幌子,认为样本容量应该是“为保证精度,一般至少应该是总体的5%”例如关于鞋子的调查:1万名铁人三项运动员;耐克对“飞人乔丹”进行调查,200万名潜在的篮球鞋购买者简单易行,但不是一种高效率、经济的方法,经验法则方法忽略了抽样的精确度问题。3.拟分析的“子群数”子群数:总体样本的各个子群体的数目在其他条件相同的情况下,所要分析的子群数目越大,所需的总样本容量也就越大,一般认为样本量要足够大,以便每个子群的容量至少为100而每个次子群的容量至少也有20-50。例如:从整体上看样本容量为400很符合要求,但若要分别分析男性和女性被调查者,并且要求男性与女性的样本各占一半,那么每个子群的容量仅为200。这个数字是否符合要求,能使分析人员对两组的特征做出预期的统计推断吗?再如,要按年龄和性别分析调研结果,问题就变得更复杂了。假设要按以下方式将总体样本划分为四组:35岁以下男性35岁以上男性35岁以下女性35岁以上女性如果预计每组约占样本的25%,那么子群容量仅有100。随着样本容量的缩小,抽样误差增加,会出现这样一个问题,那就是调研人员很难辨别依据现象所得到的两组间的差别是真正意义上的差别还是由于抽样误差引起的差别。4.传统的统计方法总体标准差的估计值抽样的允许误差范围抽样结果在实际总体值的特定范围(抽样结果+(-)抽样误差)内的置信水平正态分布重要的原因许多变量的概率分布趋于正态分布。爱吃快餐的人平均每月吃快餐的次数,每星期看电视的小时数,男性身高的分布等。中心极限定理——对于任何总体,不论其分布如何,随着样本容量的增加,抽样平均数的分布趋近于正态分布2.正态分布如果多数回答都接近于同一个数字,而且大多数的回答者都集中在某一小范围内,则差异性小;反之,则差异性就大•差异性–差异性的基本概念就是指回答的相似程度。差异性小意味着回答相当相似,差异性大表示回答很不相似。–如果答案曲线图显示十分集中或呈“尖峰”状态,则差异性小。如果曲线图显示受访者在各种可能的答案选项间平均分布,则差异性大。–测量差异性的指标——标准差1ixxnn2i=1(-)标准差=将两个样本的标准差进行比较,以判定相关的差异性。–比较两个图形,可以得出结论:–在1955年汽车拥有者的驾驶里程较少(平均),而且差异性也不大(标淮差),但现在的车主们年平均驾驶里程较多,差异性也较大。•正态分布的特征(根据以上图形)1.正态分布呈钟形且只有一个众数2.关于均值对称,集中趋势的三个衡量标准(平均数、众数、中位数)相等3.一个正态分布的特殊性由其均值和标准差决定4.正态曲线下方的面积等于1,它包括了所有观测值5.正态曲线下方任意两个变量值之间的面积,等于在这一范围内随机抽取一个观察对象的概率6.在均值的给定比例标准差范围内的概率为固定值。即所有的正态分布在平均数+-1个标准差之间的面积相同,都占曲线下方面积的68.26%,或者说占全部调查总体结果的68.26%。这叫正态分布的比例性。xf(x)xxfx,eπ21)(22212•f(x)=随机变量X的频数•=正态随机变量X的均值•=正态随机变量X的方差•=3.1415926;e=2.71828•x=随机变量的取值(-x)正态分布2~(,)xN•标准正态分布–任何正态分布都可以转化为标准正态分布–均值等于0–标准差等于1正态分布的任一变量值X通过一个简单的转化公式就能变成相应的标准正态分布中的Z值其中X是变量值,µ是变量平均值,σ是变量标准差变量标准差变量平均值变量值-Z-XZ总体分布:是总体中全部单位的频率分布,这一频率分布的平均数,通常用希腊字母µ表示,标准差用希腊字母σ表示样本分布:是单个样本中所有单位的频率分布,样本分布的平均数常用表示,标准差用S表示_X3.总体分布、样本分布样本平均数的抽样分布:是指从一个总体中抽取一定数量的样本,由样本平均数构成的概率分布。首先,要从特定的总体中抽取一定的样本,计算各样本的平均数,并排列出频率分布每个样本由样本单位数不同的子集构成,因此,样本平均数不会完全相同4.抽样分布•如果样本是随机的且容量足够大,则样本均值的分布近似于正态分布•理论基础是中心极限定理:随着样本容量的增加,从任一总体中抽取的大量随机样本平均数的分布接近服从正态分布。•其均值为,且标准差等于:n为样本容量,为总体的标准差xSn2~(,)xNn•平均数的标准误差:实际总体值与所预期的典型样本结果的差距。–平均数标准误差,即样本均值的标准差(抽样误差)。–由于总体标准差是未知的,一般由样本标准差s代替。–例如:驾驶里程调查中,样本容量n是100名驾驶者,标准差是3000公里,则平均数标准误差=300。211()nNCxiniNSxXCn基本概念一位调查人员以在最近30天内至少吃过一次快餐的所有顾客为总体,从中抽取了1000组容量为200的简单随机样本,调查目的是要估计平均一个月内,这些人吃快餐的平均次数,计算出每一组的平均数,按相关值确定区间,整理后便得到表中的频率分布图,而图以直方图的形式表示这些频率,直方图上方还可见到一条正态曲线,直方图十分接近正态曲线的形状,如果选取足够的容量为200的样本,计算每组的平均数,整理排列后所得的分布就是正态分布。图正态曲线就是这项调查中平均数的抽样分布平均数的实际抽样分布大样本平均数的抽样分布有以下特征:是正态分布分布的平均数等于总体平均数分布有标准差,称为平均数的标准误差,它等于总体标准差除以样本容量的平方根:根据单个样本做出推断通过任一简单的随机样本对总体均数进行的估计,其估计值在总体平均值1个标准误差内的概率究竟为多大?根据表14-1可知,概率为68%,因为所有样本平均数有68%都在此范围内,而通过简单随机样本对总体做的估计为实际总体平均值2倍标准误差范围内的概率为95%,在实际总体平均值3倍标准误差范围内的概率为99.7。点估计和区间估计点估计:把样本平均值作为总体平均数的估计值没有给出估计值接近总体参数程度的信息,没有给出可信程度1.区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量–比如,某班级平均分数在75~85之间,置信水平是95%样本统计量(点估计)置信区间置信下限置信上限nx置信区间与置信水平在给定置信度下,总体参数可能落入的区域的大小是置信区间;而置信度则是置信区间包含总体参数的概率。平均数的区间估计:从总体中抽出一定量的随机样本,计算出样本平均数,可知这个样本平均数存在于所有样本平均数的抽样分布中,但是确切位置不知道。这个样本平均数在实际总体平均值+-一个标准误差范围内的概率是68.26%。所以实际值减去或加上1个标准误差的置信度为68.26%。即:XXX11X比例的抽样分布特征:近似于正态分布所有比率抽样的平均值等于总体比率比率抽样分布的标准误差计算公式:Sp表示抽样比率分布的标准误差,p表示总体比率的估计值,n表示样本单位数例如:如果需要估计一下最近90天内曾在网上购物的所有成年人的百分比,那么就想要得到平均数的抽样分布一样,要从成年人总体中选出1000组容量为200的随机样本,计算出1000组样本中所有在最近90天内曾在网上购物的人数的比率,这些值排列将形成一个趋近于正态分布的频率分布。平均值问题(在单个参数、已知均值的情境下,确定样本容量)在确定了理想的置信区间后,接下来根据均值的标准化公式来确定样本容量:得到样本容量公式:5.样本容量的确定n-XZ_222EZn_XE计算比率的问题(在单个参数、已知比率的情境下,确定样本容量)从比率出发求解样本容量时,决定样本容量的关键因素是比率,此时计算样本容量的方法与由均值求样本容量的方法相似。公式:22EP-1PZ)(nP-Ep假定研究者对拥有信用卡的家庭感兴趣,想要确定比率
本文标题:第14章样本容量的确定
链接地址:https://www.777doc.com/doc-4063323 .html