您好,欢迎访问三七文档
1.2相关系数高二数学选修1-2西安远东二中李建章1、两个变量的关系不相关相关关系函数关系线性相关非线性相关相关关系:对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。复习回顾2、最小二乘估计下的线性回归方程:2n12n1__2n1__)n()xxxxxxyxxbiiiiiiiniiiyny()y)((12)a,b的意义是:以a为基数,x每增加1个单位,y相应地平均增加b个单位。1)称为样本点的中心。(x,y)xbyaaxby(1)计算平均数(2)计算与的积,求(3)计算(4)将上述有关结果代入公式,求b、a,写出回归直线方程.,xyixiy1niiixy2211,nniiiixy3、求线性回归方程的步骤:1221niixyinxxiixynxylblxnxaybx给定n个样本点(x1,y1),(x2,y2),…(xn,yn),如果图像上面显示它们具有线性相关关系的话,就可以通过下面的公式计算出a,b的值,代入y=a+bx即可得线性回归方程。若b0则正相关;若b0则负相关复习相关性1、在散点图中,点有一个集中的大致趋势2、在散点图中,所有的点都在一条直线附近波动----线性相关。xxxyyyOOO从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似描述,这种近似的过程称为曲线拟合。在两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的。此时,我们可以用一条直线来拟合,这条直线叫回归直线。xyO051015202530354020253035404550556065年龄脂肪含量思考:观察散点图的大致趋势,人的年龄的与人体脂肪含量具有什么相关关系?年龄与脂肪的散点图,从整体上看,它们是线性相关的051015202530354020253035404550556065年龄脂肪含量思考2:在上面的散点图中,这些点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.一般地,如果两个变量成正相关,那么这两个变量的变化趋势如何?但是在样本点非常多的情况下,散点图不好做,那么我们如何来刻画他们之间是否具有线性相关关系呢?如何描述它们之间线性相关关系的强弱呢?…(xn,yn),则变量间线性相关系数r的计算公式如下:假设两个随机变量的取值分别是(x1,y1),(x2,y2),12211()()()()niixyinnxxyyiiiixxyylrllxxyy1222211niiinniiiixynxyxnxyny相关系数niii=1nn22iii=1i=1(x-x)(y-y)r=(x-x)(y-y)2_n1i2i2n1i2in1i__ii)yn(y)xn(xyxnyx建构数学相关系数r的性质:(2);1r(3)越接近于1,x,y的线性相关程度越强;r(4)越接近于0,x,y的线性相关程度越弱;r.,0;,0表明两个变量负相关时当表明两个变量正相关时当rr(1)P7思考交流222(,)[()]()xyxyyyxxxxxxllQablnyabxlbll222min(1)(1)xyxyyyyyyyxxyyxxllQlllrlll误差0Q21r[1,1]r由于,所以,即|r|越接近0,误差Q越大,变量间的线性程度越弱.|r|越接近1,误差Q越小,变量间的线性程度越强;若0b0r,则,则两变量负相关;0r若,则两变量不相关。0r0xyl0xyxxlbl若,则,即,则两变量正相关;相关系数取值及其意义-1.01.00-0.50.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加4xy0-26241-4-6532x-5-4-30345y03454302.计算下表中两变量的线性相关系数r:经计算后得r=0。通常,|r|越大,线性关系越强,用直线拟合的效果就越好。一般来说:1.试计算课本P73中变量的线性相关系数r。r∈[-1,-0.75]或[0.75,1],线性关系很强;r∈[-0.75,0.75],线性关系很弱。1.如图所示,图中有5组数据,去掉组数据后(填字母代号),剩下的4组数据的线性相关性最大()A.EB.CC.DD.AA2、对于散点图下列说法中正确一个是()A.通过散点图一定可以看出变量之间的变化规律B.通过散点图一定不可以看出变量之间的变化规律C.通过散点图可以看出正相关与负相关有明显区别D.通过散点图看不出正相关与负相关有什么区别CA32_n1i2i2n1i2in1i__ii)yn(y)xn(xyxnyxr2n12n1__2n1__)n()xxxxxxyxxbiiiiiiiniiiyny()y)((1例.下表是随机抽取的8对母女的身高数据,试根据这些数据探讨y与x之间的关系.母亲身高x/cm154157158159160161162163女儿身高y/cm155156159162161164165166解:画出散点图列表:ixiyixi2yi2xiyi11541552371624025238702157156246492433624492315815924964252812512241591622528126244257585160161256002592125760616116425921268962640471621652624427225267308163166265692755627058∑1274128820294420748420519416125.159nyynxxii 其中:963.01165.5980161820748425.159820294416125.1598205194222_n1i2i2_n1i2in1i__iiynyxnxyxnyxr计算相关系数:因为r=0.963接近1,所以x与y具有较强的线性相关关系.建立线性回归模型:y=a+bx191.53345.1xbyab2_n1i2in1i__ii2_n1i2in1i__iix8xyx8yxxnxyxnyxxyxy345.1191.53的线性回归方程为对故说明:1。由于0Q从而12r]1,1[故相关系数的取值范围是r2.||r最大时,Q越小变量之间的线性相关程度越高3.||r越接近0,Q越大变量之间的线性相关程度越低4.当0r,0xxxyllb,y与x同增减两个变量正相关5.当0rb0一个变量增加,另一变量减少两个变量负相关6.当0ry与x两个变量线性不相关7.当75.0||r很强的线性相关关系8.当75.0||r不具有线性相关关系例1为了研究三月下旬的平均气温x(单位:C)与四月二十号前棉花害虫化蛹高峰日y的关系,某地区观察了2000年至2005年间的情况,得到下面的数据:年份200020012002200320042005x24.429.532.928.730.328.9y19611018(1)对变量x,y进行相关性检验:(2)根据规律推断,该地区2006年三月下旬平均气温为C27,试估计2006年四月化蛹高峰日为哪一天解析:12.29x5.7y01.51252ix5632iy1222iiyx9493.06662222yyxxyxyxriiii3.212.29601.512512.295.7612222b476.7412.293.25.7xbya所以,线性回归方程为476.743.2xy当27x时,376.12476.74273.2y据此估计该地区2006年4月12日或13日为化蛹高峰日。例2请计算表1-3中变量的线性相关系数r,通过计算,发现了什么?x-5-4-30345y0345430I1-5025002-43149-123-34916-12405025053491612643169127502500019100750ixiy2ix2iyiiyx10012niix7512niiy01niiiyx0x71.2y071.27750710071.20702222221ynyxnxyxnyxriiniii1.列表2.计算相关系数表1-3yx654321-10-6-4-2642
本文标题:相关系数
链接地址:https://www.777doc.com/doc-3229993 .html