您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 104变量的相关性回归分析独立性检验课件_
123224.会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系..了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程..了解独立性检验的基本思想、方法,能利用列联表进行独立性检验分析判断..了解回归的基本思想、方法,会进行简单的回归分析.1__________.___________________..两个变量间的相关关系如果两个变量之间确实存在关系,但又没有函数关系所具有的确定性,它们的关系带有随机性,则称这两个变量具有①有相关关系的两个变量,若一个变量的值由小到大时,另一个变量的值也是由小到大,这种相关称为②;反之,一个变量的值由小到大,另一个变量的值由大到小,这种相关称为③相关关系正相关负相关2__________.____________________________,ybxa.散点图在平面直角坐标系中描点,得到关于两个变量的一组数据的图形,这样的图形叫做④如果散点图中,相应于具有相关关系的两个变量所有观察值的数据点,分布在一条直线附近,则称这两个变量具有⑤,这条直线叫做⑥,方程为散点图线性相关关系回归直线1122121()(),.3______________.nniiiiiiniiiniiixxyyxynxybxxxnxaybxQybxa其中.最小二乘法使残差平方和为最小的方法,叫做⑦ 最小二乘法122114.1()()r0r0r1r0niiinniiiixynxyrxxyy线性回归模型样本的相关系数当时,表示两个变量正相关,当时,表示两个变量负相关,越近于,表明两个变量的线性相关性越强:越近于,表明两个变量之间几乎不存在线性相关关系.5()n.列联表即列出两个分类变量的频率表其中为样本容量.2226.KnadbcKabacbdcd.利用随机变量进行判断检验参考数据:2222.706“”xyKKxyK先假设两个分类变量与无关系,若的值较大,则拒绝假设,只要,就认为与有关系.利用来确定在多大程度可以认为两个分类变量有关系的方法称为独立性检验.1.对变量x,y有观测数据(xi,yi)(i=1,2,3,…,n),所得的散点图如下,其中具有负相关关系的是()【解析】由散点分布状况可知C、D具有相关关系,其中C是正相关,D是负相关,故选D.2.下列说法不正确的是()A.相关关系的两个变量不具备因果关系B.散点图能直观反映观测数据的相关程度C.回归直线最能表示线性相关的两个变量之间的关系D.任何一组数据都存在相应的回归直线方程【解析】只有线性相关的观测数据才存在回归直线方程,可知应选D.3.统计某种实验中两个量x,y的观测数据,得到下面一个2×2的列联表:求a,b的值?【解析】a=73-21=52,b=a+2=54.4.经过对K2的统计量的研究,得到若干个临界值,当K2=4.238时,我们认为事件A与B中有95%的把握认为A与B有关.【解析】由于K2≥3.841时,则有95%的把握认为事件A与B有关,而题设K2=4.2383.841,因此,有95%的把握认为A与B有关系.5.某化工厂为预测产品的回收率y,需要对它和原料的有效成分含量x之间的相关关系进行研究.现有8对观测数据(xi,yi)(i=1,2,3,…,8),利用计算器得计算得i=18xi=52,i=18yi=228,i=18x2i=478,i=18xiyi=1849,则其线性回归方程为y^=2.62x+11.47.【解析】由题设,x-=18i=18xi=6.5,y-=18i=18yi=28.5,从而b^=i=18xiyi-8x-y-i=18x2i-8x-2=367140≈2.62,a^=y--b^x-≈11.47,则线性回归方程为y^=2.62x+11.47.一两个变量的相关关系的判定【例1】下是水稻产量与施化肥量的一组观测数据:利用散点图分析施化肥量与水稻产量是否具有相关关系?若具有相关关系,是一种怎样的相关关系?【解析】观察数据对应的散点图如下图.由散点图可知施化肥量与水稻产量具有正相关关系.【点评】散点图是直观判断两个量是否具有相关关系的常用方法.(1)下列说法正确的是()A.任何两个变量都具有相关关系B.球的体积与该球的半径具有相关关系C.农作物产量与施化肥量之间是一种确定性关系D.一个学生的数学成绩与物理成绩是一种非确定性关系素材1D(2)汽车的重量和汽车消耗1升汽油所行驶的路程成负相关,这说明()A.汽车越重,每消耗1升汽油所行驶的路程越短B.汽车越轻,每消耗1升汽油所行驶的路程越短C.汽车越重,消耗的汽油越多D.汽车越轻,消耗的汽油越多A二线性回归方程的求法及回归分析【例2】下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨)标准煤的几组对照数据.(1)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=a^+b^x.(2)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?【解析】(1)因为x-=4.5,y-=3.5,所以b^=i=14xiyi-4x-y-i=14x2i-4x-2=0.7,a^=y--bx-=0.35,所以y^=0.35+0.7x.(2)因为90-(0.35+0.7×100)=19.65(吨),所以生产能耗比技改前节省了19.65吨标准煤.【点评】回归分析在生产和生活中的应用是依据已知的统计数据判定是否具有相关关系,如果具有较强的相关关系,则由回归方程可预测未来.假设关于某设备的使用年限x和所支出的维修费y(万元),有如下的统计资料:若由资料可知,y和x呈线性相关关系,试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?素材2【解析】(1)由已知数据制成下表:于是有b^=112.3-5×4×590-5×42=1.23,a^=y--b^x-=5-1.23×4=0.08,所以y^=1.23x+0.08.(2)回归直线方程为y^=1.23x+0.08,当x=10时,y^=1.23×10+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.三独立性检测及应用【例3】为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果(疱疹面积单位:mm2):表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B后皮肤疱疹面积的频数分布表(1)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;(2)完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.表3:附:K2=nad-bc2a+bc+da+cb+d【解析】(1)如图所示.可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数.(2)表3:K2=200×70×65-35×302100×100×105×95≈24.56.由于K210.828,所以有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.在对人群的休闲方式的一次调查中,共调查了124人,其中女性70人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中21人主要的休闲方式是看电视,其余男性的主要休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)判断性别与休闲方式是否有关系,并说明理由.素材3【分析】是否有关系取决于K2的大小.【解析】(1)2×2列联表为(2)K2=nad-bc2a+bc+da+cb+d=124×43×33-27×21270×54×64×60≈6.2.设H1:性别与不同运动方式有关系.假设H0:性别与不同的运动方式没有关系,在H0的前提下,K2应该很小,而P(K2≥5.024)≈0.025.所以有97.5%的把握认为性别与不同的运动方式之间有关系.备选例题下面是两个变量间的一组数据:(1)在同一直角坐标系中画出散点图、直线y^=24+2.5x和曲线y^=60x2+x;(2)比较所画直线与曲线,哪一条更能表现这组数据之间的关系?(3)分别计算用直线方程与曲线方程得到在5个x点处的预测值与实际预测之间的误差,比较两个误差绝对值之和的大小.【解析】(1)所求作图形如下:(2)从图形上看,曲线y^=60x2+x比直线y^=24+2.5x更能表现这组数据间的关系.(3)用直线y^=24+2.5x近似数据时,误差绝对值的和为27.5,用曲线y^=60x2+x时,误差绝对值的和为12.5,比前者小得多.【点评】由散点图可比较直观地看出更能表现所给数据的关系的曲线,再通过比较误差绝对值之和的大小,则显得更有说服力.2123422ababcdK.计算回归直线方程中的参数、时应分层进行,避免因计算错误而产生误差..求线性回归方程之前,应对数据进行线性相关分析..回归分析的关键是根据散点图选择函数模型,用相关系数判定哪种模型更好..独立性检验不能用比例余数来判定,、、、成比例扩大,的值是不同的,正确列出列联表是解题的关键步骤.5.只要求了解独立性检验、回归分析的基本思想和方法及初步应用,对于其理论基础不作要求.
本文标题:104变量的相关性回归分析独立性检验课件_
链接地址:https://www.777doc.com/doc-3055288 .html