您好,欢迎访问三七文档
1.2独立性检验的基本思想及其初步应用第一章统计案例1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.第一章统计案例1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的____________,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的__________称为列联表;不同类别频数表②2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+d_____________a+b+c+d2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否___________,常用等高条形图展示列联表数据的____________.(2)观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间_________.相互影响频率特征有关系3.独立性检验(1)定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定________k0;临界值②利用公式计算随机变量K2的________k;③如果________,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则,就认为在________________不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中_______________________支持结论“X与Y有关系”.观测值犯错误的概率没有发现足够证据k≥k01.对“分类变量”的两点说明(1)这里的“变量”和“值”都应作为“广义”的变量和值进行理解.例如,对于性别变量,其取值为男和女两种.这里的变量指的是性别,同样这里的“值”指的是“男”和“女”.因此,这里所说的“变量”和“值”不具有一般数值的大小与含义.(2)分类变量是大量存在的.例如,是否吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别.2.2×2列联表(1)2×2列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类变量进行独立性检验的基础.(2)表中|ad-bc|越小,两个变量之间的关系越弱;|ad-bc|越大,两个变量之间的关系越强.3.独立性检验的关注点(1)使用K2统计量作独立性检验时,2×2列联表中的数据a,b,c,d都要大于5.(2)独立性检验类似于数学中的反证法,要确认“两个变量有关系”这一结论成立的可信度,首先假设结论不成立,在假设下,我们构造的统计量K2应该很小.如果由观测数据计算得到的K2值很大,则在一定程度上说明假设不合理,再根据不合理的程度与临界值的关系作出判断.判断(正确的打“√”,错误的打“×”)(1)列联表中的数据是两个分类变量的频数.()(2)事件A与B的独立性检验无关,即两个事件互不影响.()(3)K2的值越大,两个事件的相关性就越大.()答案:(1)√(2)×(3)√下列关于等高条形图的叙述正确的是()A.从等高条形图中可以精确地判断两个分类变量是否有关系B.从等高条形图中可以看出两个变量频数的相对大小C.从等高条形图可以粗略地看出两个分类变量是否有关系D.以上说法都不对解析:选C.在等高条形图中仅能粗略判断两个分类变量的关系,故A错.在等高条形图中仅能找出频率,无法找出频数,故B错.下面是2×2列联表.y1y2总计x1332154x2a1346总计b34则表中a,b处的值应为()A.33,66B.25,50C.32,67D.43,56答案:A在2×2列联表中,两个比值________相差越大,两个分类变量之间的关系越强()A.aa+b与cc+dB.ac+d与ca+bC.aa+d与cb+cD.ab+d与ca+c解析:选A.aa+b与cc+d相差越大,说明ad与bc相差越大,两个分类变量之间的关系越强.根据下表计算:不看电视看电视男3785女35143K2的观测值k≈________(保留3位小数).解析:k=300×(37×143-85×35)2122×178×72×228≈4.514.答案:4.514探究点1等高条形图与2×2列联表某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.【解】根据题目所给数据得如下2×2列联表:合格品数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1475251500所以ad-bc=982×17-8×493=12750,|ad-bc|比较大,说明甲在不在生产现场与产品质量好坏有关系.相应的等高条形图如图所示.图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样本中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.(1)判断两个分类变量是否有关系的方法①利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法;②在等高条形图中,aa+b与cc+d相差越大,两个分类变量有关系的可能性就越大.(2)利用等高条形图判断两个分类变量是否相关的步骤一次调查男女学生喜欢语文学科的情况,共调查了90人,具体如下:喜欢不喜欢男2025女3015据此材料,你认为喜欢语文学科与性别()A.有关B.无关C.不确定D.无法判断解析:选A.在男生中约有44%的喜欢语文学科,而女生中约有67%的喜欢语文学科,直观判断可知喜欢语文学科与性别有关.探究点2K2独立性检验为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?【解】根据题目所给的数据得到如下列联表:理科文科总计有兴趣13873211无兴趣9852150总计236125361根据列联表中数据由公式计算K2的观测值k=361×(138×52-73×98)2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以,在犯错误的概率不超过0.1的前提下,不能认为“学生选报文、理科与对外语的兴趣有关”.解决独立性检验问题的基本步骤(1)根据已知的数据作出列联表.(2)求K2的观测值.(3)判断可能性:与临界值比较,得出事件有关的可能性大小.在对人们休闲方式的一次调查中,共调查120人,其中女性70人,男性50人.女性中有40人主要的休闲方式是看电视,另外30人主要的休闲方式是运动;男性中有20人主要的休闲方式是看电视,另外30人主要的休闲方式是运动.(1)作出性别与休闲方式的列联表;(2)能否在犯错误的概率不超过0.10的前提下,认为休闲方式与性别有关?解:(1)2×2列联表如下:休闲方式性别看电视运动总计女性403070男性203050总计6060120(2)计算K2的观测值k=120×(40×30-20×30)270×50×60×60≈3.429.而3.429>2.706,因为P(K2>2.706)≈0.10,所以能在犯错误的概率不超过0.10的前提下,认为休闲方式与性别有关.规范解答频率分布直方图与独立性检验的综合应用(本题满分12分)某高校共有学生15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断在犯错误的概率不超过0.05的前提下,是否可认为“该校学生的每周平均体育运动时间与性别有关”.P(K2≥k0)0.100.050.0100.005k02.7063.8416.6357.879附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).【解】(1)300×450015000=90,所以应收集90位女生的样本数据.(3分)(2)由频率分布直方图得1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(6分)(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过4小时453075每周平均体育运动时间超过4小时16560225总计21090300结合列联表可算得K2的观测值k=300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.(10分)所以,在犯错误的概率不超过0.05的前提下,可以认为“该校学生的每周平均体育运动时间与性别有关”.(12分)(1)按频率分布直方图的信息,统计出相关的数值.(2)利用独立性检验的基本思想作出分析判断.1.观察下列各图,其中两个分类变量x,y之间关系最强的是()解析:选D.在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选D.2.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B.根据随机变量K2的观测值k的意义,知只有B正确.3.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A和B有关系,则具体计算出的数据应该是()A.k≥6.635B.k<6.635C.k≥7.879D.k<7.879解析:选C.犯错误的概率为0.5%,对应的k0的值为7.879,由独立性检验的思想可知应为k≥7.879.4.某小学在对232名小学生调查中发现:180名男生中有98名有多动症,另外82名没有多动症,52名女生中有2名有多动症,另外50名没有多动症,用独立性检验方法判断多动症与性别是否有关系.解:由题目数据列出如下列联表:多动症无多动症总计男生9882180女生25052总计100132232由表中数据可得到K2的观测值k=232×(98×50-82×2)2100×132×180×52≈42.11710.828.所以在犯错误的概率不超过0.001的前提下认为多动症与性别有关系.知识结构深化拓展反证法与独立性检验的关系反证法独立性检验要证明结论A要确认“两个分类变量有关系”在A不成立的前提下进行推理假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下计算K2推出矛盾意味着结论A成立由观测数据计算得到的K2的观测值k很大,则在一定可信程度上说明假设不合理没有找到矛盾,不能对A下任何结论,即反证法不成立根据随机变量K2的含义,可以通过概率P(K2≥k0)的大小来评价该
本文标题:2019-2020学年高中数学 第一章 统计案例 1.2 独立性检验的基本思想及其初步应用课件 新人
链接地址:https://www.777doc.com/doc-8285731 .html