您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 选修2-3-第三章-统计案例-教案
选修2-3第三章统计案例§3.1独立性检验(1)一.问题情境5月31日是世界无烟日。有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手。这些疾病与吸烟有关的结论是怎样得出的呢?我们看一下问题:1.某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?二.学生活动为了研究这个问题,(1)引导学生将上述数据用下表来表示:患病未患病合计吸烟37183220不吸烟21274295合计58457515(2)估计吸烟者与不吸烟者患病的可能性差异:在吸烟的人中,有3716.82%220的人患病,在不吸烟的人中,有217.12%295的人患病.问题:由上述结论能否得出患病与吸烟有关?把握有多大?三.建构数学1.独立性检验:(1)假设0H:患病与吸烟没有关系.若将表中“观测值”用字母表示,则得下表:患病未患病合计吸烟abba不吸烟cddc合计cadbdcba(近似的判断方法:设nabcd,如果0H成立,则在吸烟的人中患病的比例与不吸烟的人中患病的比例应差不多,由此可得acabcd,即()()0acdcabadbc,因此,||adbc越小,患病与吸烟之间的关系越弱,否则,关系越强.)设nabcd,在假设0H成立的条件下,可以通过求“吸烟且患病”、“吸烟但未患病”、“不吸烟但患病”、“不吸烟且未患病”的概率(观测频率),将各种人群的估计人数用,,,,abcdn表示出来.例如:“吸烟且患病”的估计人数为()abacnPABnnn;“吸烟但未患病”的估计人数为()abbdnPABnnn;“不吸烟但患病”的估计人数为()cdacnPABnnn;“不吸烟且未患病”的估计人数为()cdbdnPABnnn.如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H.否则,应认为假设0H不能接受,即可作出与假设0H相反的结论.(2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(χ22()观测值预期值预期值)来进行估计.卡方χ2统计量公式:χ222abacabbdanbnnnnnabacabbdnnnnnn22cdaccdbdcndnnnnncdaccdbdnnnnnn2nadbcabcdacbd(其中nabcd)由此若0H成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274abcd代入计算得χ211.8634,统计学中有明确的结论,在0H成立的情况下,随机事件“26.635”发生的概率约为0.01,即2(6.635)0.01P,也就是说,在0H成立的情况下,对统计量χ2进行多次观测,观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H不成立,即有99%的把握认为“患病与吸烟有关系”.象以上这种用2统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.说明:(1)估计吸烟者与不吸烟者患病的可能性差异是用频率估计概率,利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,观测数据,,,abcd取值越大,效果越好.在实际应用中,当,,,abcd均不小于5,近似的效果才可接受.(2)这里所说的“呼吸道疾病与吸烟有关系”是一种统计关系,这种关系是指“抽烟的人患呼吸道疾病的可能性(风险)更大”,而不是说“抽烟的人一定患呼吸道疾病”.(3)在假设0H下统计量χ2应该很小,如果由观测数据计算得到χ2的观测值很大,则在一定程度上说明假设不合理(即统计量χ2越大,“两个分类变量有关系”的可能性就越大).2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A和类B(如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:Ⅱ类1类2合计Ⅰ类Aabba类Bcddc合计cadbdcba推断“Ⅰ和Ⅱ有关系”的步骤为:第一步,提出假设0H:两个分类变量Ⅰ和Ⅱ没有关系;第二步,根据2×2列联表和公式计算χ2统计量;第三步,查对课本中临界值表,作出判断.3.独立性检验与反证法:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立.四.数学运用1.例题:例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?未感冒感冒合计使用血清258242500未使用血清216284500合计4745261000分析:在使用该种血清的人中,有24248.4%500的人患过感冒;在没有使用该种血清的人中,有28456.8%500的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设0H:感冒与是否使用该种血清没有关系.由列联表中的数据,求得221000(258284242216)7.075474526500500∵当0H成立时,26.635的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.例2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?有效无效合计口服584098注射643195合计12271193分析:在口服的病人中,有5859%98的人有效;在注射的病人中,有6467%95的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明.解:提出假设0H:药的效果与给药方式没有关系.由列联表中的数据,求得22193(58314064)1.38962.072122719895当0H成立时,21.3896的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H,即不能作出药的效果与给药方式有关的结论.说明:如果观测值22.706,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“0H成立”,即Ⅰ与Ⅱ没有关系.§3.1独立性检验(2)一.学生活动练习:(1)某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据?.(2)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:非统计专业统计专业男1310女720为了判断主修统计专业是否与性别有关系,根据表中的数据,得到χ2250(1320107)4.84423272030,∵χ23.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为.(答案:5%)附:临界值表(部分):P(χ20x)0.100.050.0250.0100x2.7063.8415.0246.635二.数学运用1.例题:例1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。(1)根据以上数据建立一个2×2列联表;(2)判断性别与休闲方式是否有关系。解:(1)2×2的列联表:休闲方式性别看电视运动总计女432770男213354总计6460124(2)假设“休闲方式与性别无关”χ22124(43332721)6.20170546460因为χ25.024,所以有理由认为假设“休闲方式与性别无关”是不合理的,即有97.5%的把握认为“休闲方式与性专业性别别有关”。例2.气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?有效无效合计复方江剪刀草18461245胆黄片919100合计27570345分析:由列联表中的数据可知,服用复方江剪刀草的患者的有效率为18475%245,服用胆黄片的患者的有效率为9191%100,可见,服用复方江剪刀草的患者与服用胆黄片的患者的有效率存在较大差异.下面用2进行独立性检验,以确定能有多大把握作出这一推断.解:提出假设0H:两种中草药的治疗效果没有差异,即病人使用这两种药物中的何种药物对疗效没有明显差异.由列联表中的数据,求得22345(18496191)11.09827570245100当0H成立时,210.828的概率约为0.001,而这里211.09810.828所以我们有99.9%的把握认为:两种药物的疗效有差异.例3.下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?解:提出假设0H:该周内中学生是否喝过酒与性别无关.由列联表中的数据,求得21.6366,当0H成立时,23.841的概率约为0.05,而这里21.63663.841,所以,不能推断出喝酒与性别有关的结论.三.回顾小结:1.独立性检验的思想方法及一般步骤.四.课外作业:补充。§3.2回归分析(1)教学目标(1)通过实例引入线性回归模型,感受产生随机误差的原因;(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法;(3)能求出简单实际问题的线性回归方程.教学重点,难点喝过酒没喝过酒合计男生77404481女生16122138合计93526619线性回归模型的建立和线性回归系数的最佳估计值的探求方法.教学过程一.问题情境1.情境:对一作直线运动的质点的运动过程观测了8次,得到如下表所示的数据,试估计当x=9时的位置y的值.时刻x/s12345678位置观测值y/cm5.547.5210.0211.7315.6916.1216.9821.06根据《数学3(必修)》中的有关内容,解决这个问题的方法是:先作散点图,如下图所示:从散点图中可以看出,样本点呈直线趋势,时间x与位置观测值y之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数公式,1221()niiiniixynxybxnxaybx可以得到线性回归方为3.53612.1214yx,所以当9x时,由线性回归方程可以估计其位置值为22.6287y2.问题:在时刻9x时,质点的运动位置一定是22.6287cm吗?二.学生活动思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映x与y之间的关系,y的值不能由x完全确定,它们之间是统计相关关系,y的实际值与估计值之间存在着误差.三.建构数学1.线性回归模型的定义:我们将用于估计y值的线性函数abx作为确定性函数;y的实际值与估计值之间的误差记为,称之为随机误差;将yabx称为线性回归模型.说明:(1)产生随机误差的主要原因有:①所用的确定性函数不恰当引起的误差;②忽略了某些因素的影响;③存在观测误差.(2)对于线性回归
本文标题:选修2-3-第三章-统计案例-教案
链接地址:https://www.777doc.com/doc-4684578 .html