您好,欢迎访问三七文档
当前位置:首页 > 中学教育 > 高中教育 > 8.4 统计案例(精讲)(教师版)
资料整理【淘宝店铺:向阳百分百】8.4统计与统计案例(精讲)一.简单随机抽样1.定义:一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤nN)个个体作为样本.如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.(除非特殊声明,本章所称的简单随机抽样指不放回简单随机抽样)2.简单随机样本:通过简单随机抽样获得的样本称为简单随机样本.3.简单随机抽样的常用方法:抽签法和随机数法二.分层随机抽样1.分层随机抽样的概念一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.资料整理【淘宝店铺:向阳百分百】2.分层随机抽样的平均数计算在分层随机抽样中,以层数是2层为例,如果第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,样本平均数分别为x,y,总体的样本平均数为w,则w=MM+Nx+NM+Ny=mm+nx+nm+ny.三.总体百分位数的估计1.百分位数:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.2.百分位数的意义:反映该组数中小于或等于该百分位数的分布特点.四.总体集中趋势的估计名称概念平均数如果有n个数x1,x2,…,xn,那么1n(x1+x2+…+xn)就是这组数据的平均数,用x表示,即x=1n(x1+x2+…+xn)中位数将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)叫做这组数据的中位数众数一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)叫做这组数据的众数五.总体离散程度的估计总体(样本)方差和总体(样本)标准差假设一组数据是x1,x2,…,xn,用x表示这组数据的平均数,那么这n个数的1.标准差s=1n[(x1-x)2+(x2-x)2+…+(xn-x)2];2.方差s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2].六.相关关系1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)散点图:每一个成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们把这样资料整理【淘宝店铺:向阳百分百】的统计图叫做散点图.(3)相关关系的分类:正相关和负相关.(4)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.2.样本相关系数(1)r=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2∑ni=1(yi-x)2.(2)当r0时,称成对样本数据正相关;当r0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型参数的最小二乘估计(1)我们将y^=b^x+a^称为Y关于x的经验回归方程,其中b^=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2,a^=y-b^x.七、独立性检验1.分类变量与列联表(1)分类变量:在讨论问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.(2)2×2列联表列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为y1y2合计x1aba+bx2cdc+d合计a+cb+da+b+c+d2.独立性检验(1)零假设:以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.H0:分类变量X和Y独立.通常称H0为零假设或原假设.资料整理【淘宝店铺:向阳百分百】(2)χ2公式假设我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示:XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+dχ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值xα越大.(3)独立性检验基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.一.分层随机抽样1.抽样比=该层样本容量n总样本容量N=该层抽取的个体数该层的个体数.2.在分层随机抽样中,如果第一层的样本量为m,平均值为x;第二层的样本量为n,平均值为y,则样本的平均值为mx+nym+n.二.计算一组数据第p百分位数的步骤资料整理【淘宝店铺:向阳百分百】三.频率分布直方图的数字特征1.众数:众数一般用频率分布表中频率最高的一组的组中值来表示,即在样本数据的频率分布直方图中,最高矩形的底边中点的横坐标;2.中位数:在频率分布直方图中,中位数左边和右边的直方图的面积和应该相等;3.平均数:平均数在频率分布表中等于组中值与对应频率之积的和,即在频率分布直方图中,每个小矩形的面积乘以小矩形底边中点的横坐标之和.四.常用结论1.画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.2.相关系数:当r0时,正相关;当r0时,负相关;|r|越接近于1,相关性越强.3.经验回归方程:当b^0时,正相关;当b^0时,负相关.4.若x1,x2,…,xn的平均数为x,那么mx1+a,mx2+a,…,mxn+a的平均数为mx+a;5.若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2;6.s2=1n∑ni=1(xi-x)2=1n∑ni=1x2i-x2,即各数平方的平均数减去平均数的平方.考点一简单随机抽样及分层抽样【例1-1】(2023·贵州·校联考模拟预测)已知某班共有学生46人,该班语文老师为了了解学生每天阅读课外书籍的时长情况,决定利用随机数表法从全班学生中抽取10人进行调查.将46名学生按01,02,…,46进行编号.现提供随机数表的第7行至第9行:844217533157245506887704744767217633502583921206766301637859169556571998105071751286735807443952387933211234297864560782524207443815510013429966027954资料整理【淘宝店铺:向阳百分百】若从表中第7行第41列开始向右依次读取2个数据,每行结束后,下一行依然向右读数,则得到的第8个样本编号是()A.07B.12C.39D.44【答案】D【解析】由题意可知得到的样本编号依次为12,06,01,16,19,10,07,44,39,38,则得到的第8个样本编号是44.故选:D.【例1-2】(2023秋·湖南长沙·高三长郡中学校考假期作业)为了庆祝中国共产党第二十次全国代表大会,学校采用按比例分配的分层随机抽样的方法从高一1002人,高二1002人,高三1503人中抽取126人观看“中国共产党第二十次全国代表大会”直播,那么高三年级被抽取的人数为()A.36B.42C.50D.54【答案】D【解析】根据分层抽样的方法,抽样比为1266100210021503167,高三年级被抽取的人数为6150354167人.故选:D.【一隅三反】1.(2023秋·云南·高三校联考阶段练习)要调查某地区高中学生身体素质,从高中生中抽取100人进行跳远测试,根据测试成绩制作频率分布直方图如图,现从成绩在120,140之间的学生中用分层抽样的方法抽取5人,应从120130,间抽取人数为b,则().A.0.025a,2bB.0.025a,3bC.0.030a,4bD.0.030a,3b【答案】D【解析】由题得100.0050.0350.0200.0101a,所以0.030a.在120130,之间的学生:100100.03030创=人,资料整理【淘宝店铺:向阳百分百】在130140,之间的学生:100100.02020创=人,在120,140之间的学生:50人,又用分层抽样的方法在120,140之间的学生50人中抽取5人,即抽取比为:110,所以成绩在120130,之间的学生中抽取的人数应为130310,即3b.故选:D.2.(2023·西藏日喀则·统考一模)某市四区夜市地摊的摊位数和食品摊位比例分别如图1、图2所示,为提升夜市消费品质,现用分层抽样的方法抽取5%的摊位进行调查分析,则抽取的样本容量与B区被抽取的食品摊位数分别为()A.210,24B.210,12C.252,24D.252,12【答案】B【解析】根据分层抽样原则知:抽取的样本容量为1000800100014005%210;B区抽取的食品推位数为8005%0.312.故选:B.3.(2023·河南·襄城高中校联考三模)现有300名老年人,500名中年人,400名青年人,从中按比例用分层随机抽样的方法抽取n人,若抽取的老年人与青年人共21名,则n的值为()A.15B.30C.32D.36【答案】D【解析】由题可知211200700n,解得36n.故选:D.4.(2023·全国·高三对口高考)某学校为了调查学生的学习状况,由每班随机抽取5名学生进行调查.若一班有50名学生,将每一学生编号,从01到50为止,请从随机数表的第2行第11列(下表为随机数表的前5行)的42开始,依次向右,直到取足样本,则抽取样本的号码是.资料整理【淘宝店铺:向阳百分百】0347437386369647366146986371623326168045601114109597742467624281145720425332373227073607512451798973167662276656502671073290797853135538585988975414101256859926969668273105037293155712101421882649817655595635643854824622316243099006184432532383013030【答案】42,14,20,32,37【解析】由题意,从随机数表的第2行第6列的42开始,根据随机数表法的读取规则,依次读取01到50为的两位数,得到抽取的样本为42,14,20,32,37.故答案为:42,14,20,32,37.5.(2022·全国·高三专题练习)总体由编号为01,02,,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始从左到右依次选取两个数字,则选出来的第5个个体的编号为.7816657208026314070243699728019832049234493582003623486969387481【答案】01【解析】从随机数表第1行的第5列和第6列数字开始从左到右依次选取两个数字,得65,72,08,02,63,14,07,02,43,69,97,28,01,去掉不在编号范围内的65726343699728,,,,,,,再去掉
本文标题:8.4 统计案例(精讲)(教师版)
链接地址:https://www.777doc.com/doc-12827695 .html