您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 2018高三第一轮复习统计与统计案例
12018高三第一轮复习统计与统计案例一、随机抽样三种抽样方法的比较类别共同点各自特点相互联系适用范围简单随机抽样都是不放回抽样,抽样过程中,每个个体被抽到的机会(概率)相等从总体中逐个抽取总体中的个数较少系统抽样将总体均分成几部分,按事先确定的规则,在各部分抽取在起始部分抽样时,采用简单随机抽样总体中的个数比较多分层抽样将总体分成几层,分层进行抽取各层抽样时,采用简单随机抽样或者系统抽样总体由差异明显的几部分组成二、用样本估计总体1.用样本频率分布估计总体频率分布(1)频率分布直方图的作法①求极差:即最大数与最小数的差;②决定组距与组数:组距与组数的确定没有固定的标准,试题中一般有规定;③数据分组:计算各小组的频数和频率,列出频率分布表;④画频率分布直方图:图中纵轴表示频率组距,各小矩形宽为组距,面积为频率.(2)茎叶图茎叶图中,茎是指中间的一列数,叶是茎的旁边的数,茎中一个数与叶中的一个数并在一起构成一个完整数据.茎叶图的优点是所有数据都可以在图中得到,且便于记录和表示,数据的分布情况也比较明显.缺点是当数据较多时,用起来不太方便.22.众数、中位数、平均数数字特征样本数据频率分布直方图众数出现次数最多的数据取最高的小长方形底边中点的横坐标中位数将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)把频率分布直方图划分为左右两个面积相等的部分,分界线与x轴交点的横坐标平均数样本数据的算术平均数每个小矩形的面积乘小矩形底边中点的横坐标之和3.方差和标准差:方差和标准差反映了数据波动程度的大小.(1)方差:s2=1n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2];(2)标准差:s=1n[(x1-x-)2+(x2-x-)2+…+(xn-x-)2].性质:标准差(或方差)越小,说明数据波动越小,越稳定;标准差越大,说明数据越分散,越不稳定.三、变量间的相关关系及回归分析1.相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫作相关关系.与函数关系不同,相关关系是一种不确定关系.2.散点图:表示具有相关关系的两个变量的一组数据的图形叫作散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些点散布在从左下角到右上角的区域,则称两个变量正相关;若这些点散布在从左上角到右下角的区域,则称两个变量负相关.3.回归分析:对具有相关关系的两个变量进行统计分析的方法叫作回归分析.在线性回归模型y=bx+a+e中,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化,在统计中,我们把自变量x称为解释变量,因变量y称为预报变量.4.回归方程:y^=b^x+a^,其中b^=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2=∑ni=1xiyi-nx-y-∑ni=1x2i-nx-2,a^=y--b^x-.主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.35.回归中心:点(x-,y-)叫作回归中心,回归直线一定经过回归中心.6.相关系数:r=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2∑ni=1(yi-y-)2.主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r0时,表示两个变量正相关;当r0时,表示两个变量负相关.|r|越接近1,表明两个变量的线性相关性越强;当|r|接近0时,表明两个变量间几乎不存在线性相关关系.四、独立性检验1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d可构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.3.独立性检验利用随机变量、独立性假设来确定是否一定有把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.两个分类变量X和Y是否有关系的判断方法:统计学研究表明:当K2≤3.841时,认为X与Y无关;当K2>3.841时,有95%的把握说X与Y有关;当K26.635时,有99%的把握说X与Y有关;当K2>10.828时,有99.9%的把握说X与Y有关.4题型一:抽样方法1.(2013·安徽,5,易)某班级有50名学生,其中有30名男生和20名女生,随机询问了该班五名男生和五名女生在某次数学测验中的成绩,五名男生的成绩分别为86,94,88,92,90,五名女生的成绩分别为88,93,93,88,93.下列说法一定正确的是()A.这种抽样方法是一种分层抽样B.这种抽样方法是一种系统抽样C.这五名男生成绩的方差大于这五名女生成绩的方差D.该班男生成绩的平均数小于该班女生成绩的平均数2.某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.3.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.5工人编号年龄工人编号年龄工人编号年龄工人编号年龄1401036192728342441131204329393401238214130434411339223731385331443233432426401545244233537451639253734378421738264435499431836274236394.某工厂36名工人的年龄数据如上表.(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;(2)计算(1)中样本的平均值x-和方差s2;(3)36名工人中年龄在x--s与x-+s之间有多少人?所占的百分比是多少(精确到0.01%)?5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A.7B.9C.10D.1566.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为()A.11B.12C.13D.147.(2016·重庆巴蜀一模,5)一个单位有职工800人,其中具有高级职称的160人,具有中级职称的320人,具有初级职称的200人,其余人员120人.为了解职工收入情况,决定采用分层抽样的方法,从中抽取容量为40的样本.则从上述各层中依次抽取的人数分别是()A.12,24,15,9B.9,12,12,7C.8,15,12,5D.8,16,10,68.设样本数据x1,x2,…,x10的均值和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的均值和方差分别为()A.1+a,4B.1+a,4+aC.1,4D.1,4+a9.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为()A.8B.15C.16D.3210.将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003,这600名学生分住在三个营区.从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区.三个营区被抽中的人数依次为()A.25,17,8B.25,16,9C.26,16,8D.24,17,9711.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()7816657208026314070243699728019832049234493582003623486969387481A.08B.07C.02D.01分层抽样和系统抽样中的计算(1)系统抽样总体容量为N,样本容量为n,则要将总体均分成n组,每组Nn个(有零头时要先去掉).若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+Nn,…,k+(n-1)Nn.(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.题型二:频率分布直方图1.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56B.60C.120D.14082.为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100cm.3.随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:件),获得数据如下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36.根据上述数据得到样本的频率分布表如下:(1)确定样本频率分布表中n1,n2,f1和f2的值;(2)根据上述频率分布表,画出样本频率分布直方图;(3)根据样本频率分布直方图,求在该厂任取4人,至少有1人的日加工零件数落在区间(30,35]的概率.94.为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为()A.6B.8C.12D.185.我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.106.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为me,众数为m0,平均值为x-,则()A.me=m0=x-B.me=m0x-C.mem0x-D.m0mex-7.如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45)的上网人数呈现递减的等差数列分布,则年龄在[35,40)的网民出现的频率为()A
本文标题:2018高三第一轮复习统计与统计案例
链接地址:https://www.777doc.com/doc-3653800 .html