您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 15-直线相关与回归
直线相关与回归相关与回归的概念经典相关分析要求X与Y都是随机变量,而且服从双变量正态分布。相关关系的统计量使人们对变量间的相关关系是否成立、相关的性质和强弱等有了量化依据。它采用严格的数学计算和概率分布理论使得经典哲学中对事物间的“相关”的定性判断和解释有了定量的前提,也就是说,它使得定性判断以定量分析为基础,因而使前者具有更高的客观性和精确性。回归分析则是试图在变量间建立一种数学公式化的理想模型,通过这个模型,我们可以用一个(组)变量来估计或预测另一个(组)变量的取值,即寻求反应变量对于因变量间依存比例的数量。直线相关分析二维散点图作为相关分析最直观的表达形式莫过于用两变量值绘制的散点分布图数据表达格式实例为探讨产妇尿液中雌三醇含量与初生儿体重是否有关,以便尽早根据产妇产前尿中雌三醇含量水平估计胎儿是否超重,并判断生产过程的风险,某产科医师测量了31例待产妇24小时的尿雌三醇及其初生儿体重,数据记录如下表。散点图22.533.544.5510152025雌三醇含量(mg/24h)初生儿体重(kg)相关分析的基本思想相关系数r的算法niniiininiiinininiiiiininiiiniiininiiiniiinyynxxnyxyxyyxxyyxxnyynxxnyyxxYXYXr121212121111122111221)()())(()1/()()1/()()1/())((的方差的方差的协方差与相关系数的计算相关系数计算的基本统计量变量名常数项xy常数项N=31Σx=534Σy=99.2xΣx=534Σx2=9876Σxy=1750yΣy=99.2Σxy=1750Σy2=324.18相关系数的计算相关系数总体相关系数的显著性检验样本只是总体的一个随机代表,由于抽样误差不可避免,样本相关系数r并非恰好等于总体的相关系数,或者说即使总体相关系数=0,样本相关系数r也不恰好等于0,因此,样本相关系数r必须接受“是否来自总体相关系数=0”的假设检验。6097.0]31)2.99(18.324][31)534(9876[31)2.99)(534(175022r相关系数的显著性检验需要对样本相关系数r的抽样误差进行估计,确定其发生的概率,从而在一定的概率水平上对=0的假设作出推断。假设检验的目的也是为了对样本所代表的总体相关系数是否为0作出概率推断。直接查r的界值表;t检验法t检验法检验的统计量自由度v=n–2本例212rnrtr14.4)6097.0(12316097.01222rnrtr总体相关系数的可信区间估计首先对样本相关系数r进行以下函数变换按正态近似的原理,1-的可信区间最后对此区间的上下限取tanh-1的反函数tanh,就可以得到总体相关系数的1-可信区间,即rrz11ln213/,3/nuznuz)]3/tanh(),3/[tanh(nuznuzrz1tanh可信区间估计本例总体相关系数的95%置信区间为:0.6009~0.6186秩相关适用条件:①资料不服从双变量正态分布而不宜作积差相关分析;②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;③原始数据用等级表示的资料。一、Spearman秩相关1.意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。2.计算公式)1(6122nndrs3.确定P值---查表当50n£时,查附表14的rs界值表;当50n时,计算检验统计量u,查t界值表。例11-4某地研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见表11-2,试用秩相关进行分析表11-2急性白血病患儿的血小板(109/L)和出血症状病人编号血小板数秩次p2出血症状秩次q2pqXpYq(1)(2)(3)(4)(5)(6)(7)(8)=(3).(6)112111+++11.5132.2511.5213824++9.08118316539+7.049214310416-3.512.25145426525++9.081456540636++9.081547740749-3.52.2524.581060864-3.512.252891260981-3.512.2531.510129010100-3.512.253511143811121+++11.5132.25126.2512200412144-3.512.2542合计—78650-78630451利用表11-2中的数据容易算得秩相关系数为负,说明两变量间有负相关关系,同样由样本算得的秩相关系数是否有统计学意义,也应做检验143ppl123qql56pql560.422143123pqsppqqlrll二秩相关系数的统计推断检验步骤假设检验统计推断当时,可查书后的临界值表,若秩相关系数超过临界值,则拒绝;当时,也可采用公式(11-5)或(11-6)式做检验1:0sH0:0,sH0.050H50nsr50nt例11-5对例1-4的秩相关系数作假设检验例11-4中算得查临界值表,,按的水准,不能拒绝,可以认为急性白血病患儿的出血症状与血小板数之间无相关关系0.442srsr12,0.10.503srr0.050H应用相关系数时应注意的问题相关关系不等于因果关系。两变量之间相关系数有统计学意义,只是从统计学上反映出它们之间的变化存在某种规律性,不能直接把这种相关性解释为因果关系。有无因果关系的结论还须从专业角度作进一步的研究。当观察例数较少,例如n<15时,相关系数容易受个别观察对象的特殊值所影响,故不够稳定。有时甚至个别特殊值的存在与否,能改变相关系数的统计学检验结论。因此须事先作好试验设计,正确确定样本含量。在实际工作中,应区别相关有统计学意义与相关强度。相关具有统计学意义指该样本相关系数r来自相关系数=0的总体的概率很小。而相关强度表示两变量间相互联系的密切程度,其大小是用r的绝对值来反映的。简单线性回归分析回归的一般概念回归概念的提出表明我们可以用理想化的数学函数关系来解释因变量y与自变量x在数量变化方面的相互数量比例依存关系,因而可以用自变量x的变化来预测因变量y的取值,这是回归分析的数理逻辑基础。回归分析的目的用已知或易测或可测的变量对未知或难测或不可测变量的状态进行估计。直线回归的统计模型直线回归分析的核心任务是建立两个连续型变量间最优化的直线回归模型,从而采用x对y进行估计或预测。其统计模型可表述为:用样本数据获得该数学模型的估计称为回归方程,即:iiixybxayˆ线性回归模型的含义每个观测的y值都可以分解成三个部分:常量α(constant):即回归直线在纵坐标上的截距(intercept),它是y的本底水平,即x对y没有任何作用时,y的数量表现。回归部分βx:它刻画了因变量y的取值改变中,由y与自变量x的线性相关关系所引起的部分,即可以由x直接估计的部分。其中,x是自变量的取值。β称为回归系数(coefficientofregression),或回归直线的斜率(slope),β的数值的意义是指当自变量x每改变一个度量单位时,因变量y的改变量的平均估计值。上述两部分之和用回归方程解释,就是yi在xi处的平均估计值,即为(a+bxi)回归估计误差回归分析中总变异的分解)ˆ()ˆ()(iiiiiyyyyyyyyy最小二乘法leastsquaremethod使各散点到直线的纵向距离的平方和最小。即使最小。2ˆYYniiiniiibXaYYYYYQ12122)ˆ()ˆ(a和b的样本估计算法样本测量数据估计b的算法:样本的截距a的计算公式:xxxyniniiininiiniiiiniiniiillnxxnyxyxxxyyxxb1212111121)()()()())((xbya实例本例观测数据分别代入,得:本例回归方程:06082.031)534(9876312.9953417502b15234.23153406082.0312.99axy0608.01523.2ˆ回归模型的方差分析计算因变量y的总变异计算回归变异MS回(variationcausedbyregression):回归变异又称回归均方(meanofsquaresforregression)。指的是由于y对x的回归所解释的y的变异,用符号MS回表示。将因变量y与自变量x关联起来进行回归后,回归模型为我们提供了通过给定x估计y的平均水平的途径。因此,y中由于x的作用导致的回归变异就可以被分离出来。其含义也被解释为是x通过回归关系对y的变异产生的贡献。niniiinyySS1212)(总回归变异计算方法回归离均差平方和,简称回归平方和回归均方本例]))(([111niniiniiiinyxyxbSS回回回回回vyyvSSMSi/ˆ/250574.2]31)2.99)(534(1750[06082.0回MS残差变异计算方法残差变异MS残(variationcausedbyresiduals):残差变异又称残差均方(meanofsquaresforresiduals)。它指的是由除x以外所有其它因素导致的y的变异,因此,其含义是y的变异中不能由x解释的部分。它在性质上显然属于随机变异。计算方法本例回总残残残残SSSSvyyvSSMSii/ˆ/223426.450574.274.6残MS总变异与回归变异和残差变异的关系总变异中的离均差平方和自由度都可以被分解为上述两个部分。根据离均差平方和和自由度的可加性,有残回总SSSSSS残回总vvv回归模型的方差分析变异来源DFSSMSF值P值回归12.505742.5057417.160.0003残差294.234260.14601总变异306.74000a和b的显著性检验这一检验通常采用t检验法。该检验的目的是判断样本回归系数是否是从回归系数为0的总体中随机抽取的。或者说,如果总体回归系数为0,样本回归系数不等于0是否由不寻常的抽样误差所导致。分布残tlnSSblsbsbtxxxxbb~2/0确定系数与回归模型的效应评价因变量y的全部变异包括:随x变化而发生b个单位的改变量和残差两个部分。这表明,x不能100%地解释y的全部变异。那么,y的全部变异中,x的确定能力有多大呢?决定系数就是用来回答这个问题的一个统计量。通过研究发现,相关系数的平方就是这个决定系数,因此,用r2表示。显然,r2的定义域为[0,1]。r2越大,表明x对y的改变量贡献越大,回归模型的估计精度就越高,回归效应就越好;反之,r2越小,表明x对y的改变量贡献越小,回归模型的估计精度就越低,回归效应就越差。决定系数的计算总回SSSSllllllryyxxxyyyxxxy/222(二)的区间估计|YX给定0XX时,总体均数0|YX的(1-)可信区间为0ˆ0/2,ˆYYtS其中220.ˆ)()(10XXXXnSSXYY,当0XX时,达到其最小值nSXY/.。0X离X越远,其标准误0ˆYS越大。在直角坐标系中表示一条中间窄、两端宽的带子(回归直线的上下各有一条曲线所夹的区域),其中最窄处对应于0XX。个体Y值的预测区间给定0XX时个体Y值的(1-)预测区间为00/2,ˆYYtS其中220.)()(110XXXXnSSXYY,当0XX时,达
本文标题:15-直线相关与回归
链接地址:https://www.777doc.com/doc-3018681 .html