您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > (统计学 第九周)简单回归分析―李琳琳老师
生物医学研究的统计方法第10章第十章简单回归分析生物医学研究的统计方法第10章第一节简单线形回归第二节线形回归的应用主要内容生物医学研究的统计方法第10章学习目标①了解回归分析的基本思想。②熟悉线性回归的基本步骤;求解回归方程中参数估计量a和b值所遵循的策略—最小二乘原则。③掌握简单线性回归的基本概念;回归模型的前提假设;回归系数的含义、计算方法及假设检验。生物医学研究的统计方法第10章教学重点线性回归模型的前提假设线性回归分析的基本步骤回归方程的解释生物医学研究的统计方法第10章第一节简单线性回归LinearRegressionAnalysis生物医学研究的统计方法第10章为研究大气污染一氧化氮(NO)的浓度是否受到汽车流量、气候状况等因素的影响,选择24个工业水平相近的一个交通点,统计单位时间过往的汽车数(千辆),同时在低空相同高度测定了该时间段平均气温(℃)、空气湿度(%)、风速(m/s)以及空气中一氧化氮(NO)的浓度(×),数据如表10-1所示。【例10.1】610生物医学研究的统计方法第10章表10-124个城市交通点空气中NO浓度监测数据生物医学研究的统计方法第10章资料类型:定量资料;研究目的:了解一氧化氮浓度与汽车流量、气候状况等因素之间的依存关系。【案例解析】生物医学研究的统计方法第10章函数关系:它反映着现象之间严格的数量化依存关系,也称确定性的依存关系。如正方形的面积和边长的关系。回归关系:变量之间存在着不确定、不严格的依存关系,即对于一个变量的某个数值,可以有另一变量的若干数值与之相对应bxaybxayˆ2XY在这种关系中,对于变量的每一个数值,都有一个或几个确定的值与之严格对应。生物医学研究的统计方法第10章回归关系的几个例子子女身高y与父亲身高x之间的关系收入水平y与受教育程度x之间的关系体重y与身高x1、胸围x2之间的关系体表面积y与体重x之间的关系商品销售额y与广告费支出x之间的关系生物医学研究的统计方法第10章一、回归分析的基本概念回归(Regression)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量x取某个值时,变量y的取值可能有几个4.各观测点分布在直线周围X1.31.21.11.0.9.8.7.6.5Y201918171615141312生物医学研究的统计方法第10章回归分析(Regressionanalysis)1.从一组样本数据出发,确定变量之间的数学关系式;2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出具有统计学意义的变量;3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。生物医学研究的统计方法第10章自变量与因变量a)自变量(independentvariable):能独立自由变化的变量一般用X表示a)因变量(dependentvariable):非独立的、受其它变量影响的变量一般用Y表示c)x与y确定原则生物医学研究的统计方法第10章回归模型分类a)按变化趋势:线性回归模型非线性回归模型b)按自变量个数:简单线性回归模型多重线性回归模型生物医学研究的统计方法第10章一元线性回归模型描述y如何依赖于x和误差项的方程称为回归模型一元线性回归模型可表示为y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项是随机变量,反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数XY10生物医学研究的统计方法第10章二、简单线性回归分析回归模型的基本假设1.线性(linear)2.独立(independent)3.正态(normal)4.等方差(equalvariance)生物医学研究的统计方法第10章线性(linear)指反应变量Y的总体平均值与自变量X呈线性关系。独立(independent)指任意两个观察值互相独立。正态(normal)假定线性模型的误差项服从正态分布。等方差(equalvariance)是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。生物医学研究的统计方法第10章3X1ˆY2ˆY3ˆYYX2X1X图1回归模型前提假设示意图生物医学研究的统计方法第10章回归分析的方法步骤绘制散点图求回归系数和常数项回归系数和常数项的假设检验列出回归方程,并进行假设检验回归方程的解释生物医学研究的统计方法第10章(一)绘制散点图图2车流量与空气中NO浓度关系散点图从散点图可见:车流量与空气中NO浓度有线性关系,可以考虑做线性回归分析。生物医学研究的统计方法第10章(二)求回归系数和常数项直线回归分析的关键就是求出回归方程bXaYˆ中a、b两个常数。由数学知识可知,两点决定一条直线。将容量为n的样本标在),(YX坐标平面上,可得到n个点。n个点可确定许多直线,到底以哪条线作为回归线呢?直线回归的主要应用是统计预测,即根据实测的X估算Y,当然是希望估算的Y(称为Yˆ)与实测Y之间的差值(Y-Yˆ)越小越好。故由样本资料决定回归线时,往往用数学上的最小二乘法(leastsquaremethod)原理求解a和b两个系数(和的点估计值),即在所有直线中找出2ˆYY(残差平方和,记为残差SS)达最小值时所对应的直线作为回归线。生物医学研究的统计方法第10章xxxyLLXXYYXXb=2)())((XbYabXaYˆ系数估计公式:回归方程:生物医学研究的统计方法第10章生物医学研究的统计方法第10章xy1584.01353.0ˆ回归方程本例中b=0.1584;a=-0.1353生物医学研究的统计方法第10章参数β的意义:若自变量X增加1个单位,反应变量Y的平均值便增加β个单位。β=0,说明Y与X之间并不存在线性关系;β≠0,说明Y与X之间存在线性关系。理由:从β=0的总体抽得样本,计算出的回归系数b很可能不为零。方法:回归系数的假设检验可通过t检验实现。(三)回归系数和常数项的假设检验生物医学研究的统计方法第10章t检验生物医学研究的统计方法第10章。于可以认为回归系数不等,所以00001.0,,222432.60246.01584.0005.00:0:22,0001.010PttnsbtHHbb生物医学研究的统计方法第10章(四)回归方程的假设检验目的:检验求得的回归方程在总体中是否成立;方法:单因素方差分析。生物医学研究的统计方法第10章因变量y的取值是不同的,y取值的这种波动称为变异。变异来源:因自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变异的大小可以通过该实际观测值与其均值之差来表示变异(变差)及其分解yy生物医学研究的统计方法第10章xyyxy10ˆˆˆyy{}}yyˆyyˆ),(iiyx生物医学研究的统计方法第10章SST=SSR+SSEniiniiniiyyyyyy121212ˆˆ总平方和(SST){回归平方和(SSR)残差平方和(SSE){{生物医学研究的统计方法第10章SST是指没有利用X的信息时,Y观察值的变异;SSE反应回归方程未能解释的那部分变异;SSR反应回归方程解释的那部分变异。决定系数(R2)=SSR/SST,反应了Y的总变异中回归关系所能解释的百分比,R2越大,说明构建的回归方程越好。生物医学研究的统计方法第10章变异来源SSdfMSFP回归0.053010.0530残差0.0282220.001341.3760.0001总变异0.081223表3简单线性回归模型方差分析表生物医学研究的统计方法第10章查F界值表,得P0.05,说明构建的回归方程具有统计学意义。研究表明,车流量和空气中NO浓度存在着线性依存关系:车流量每增加100辆(0.1千辆),空气中NO浓度平均可能增加0.01584×(五)回归方程的解释610生物医学研究的统计方法第10章线性回归分析的SPSS过程:Analyze→Regression→LinearDependentlist框→YIndependentlist框→X1OK生物医学研究的统计方法第10章【电脑实现】—SPSS线性回归分析:1.数据录入生物医学研究的统计方法第10章2.线性回归分析的步骤:生物医学研究的统计方法第10章Coefficientsa-.135.035-3.829.001.158.025.8086.432.000(Constant)车流量Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:NOa.ANOVAb.0531.05341.376.000a.02822.001.08123RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),车流量a.DependentVariable:NOb.3.结果及结果输出:生物医学研究的统计方法第10章第二节线形回归的应用生物医学研究的统计方法第10章直线回归方程的应用(一)定量描述两变量之间的依存关系。(二)利用回归方程进行预测。(三)利用回归方程进行统计控制。生物医学研究的统计方法第10章一、总体回归线的95%置信带的总体均数的点估计为时,给定YXpX生物医学研究的统计方法第10章生物医学研究的统计方法第10章二、个体Y预测值的区间估计总体中,当XP为某一固定值时,个体Y值围绕着对应于XP值的总体均数波动,其分布的标准差按下式估计:生物医学研究的统计方法第10章即生物医学研究的统计方法第10章图5空气中NO浓度(Y)与车流量(X)回归线的95%置信带与Y个体值的95%预测带生物医学研究的统计方法第10章三、统计控制:例:该城市为降低空气中NO的含量,拟对车流量进行适当的控制,根据空气污染指数分级,要求空气中氮氧化合物含量不超过0.100~0.150×10-6。XY1584.01353.0ˆ已知回归方程答:千辆时当千辆时当801.11584.0/135.0150.010150.0485.11584.0/135.0100.010100.0162161,XY,XY故该城市单位时间内车流量应控制在1500辆以内,最多不超过1800辆,否则会导致轻度污染的发生。生物医学研究的统计方法第10章简单线性回归分析的注意事项1.要注意实际意义;2.绘制散点图观察两变量的关系以及找出异常点;3.注意自变量和因变量的变化范围。生物医学研究的统计方法第10章小结相关分析是用来描述两变量的相关关系,当两变量满足双变量正态分布时,可以计算Pearson积差相关系数,如果有任何一个变量不满足正态分布或为等级资料,需计算Spearman等级相关系数。而回归分析是用来刻画两变量的依存关系,它要求资料满足LINE(线性、独立、正态和等方差),二者之间既有联系又有区别。生物医学研究的统计方法第10章区别点直线回归直线相关资料要求固定X,应变量Y服从正态分布,X是可以精确测量和严格控制的变量,也可以是随机变量。两个变量X、Y服从双变量正态分布。用途Y的总体均数变化与X之间的直线关系说明两变量间的相关关系意义b表示X每增(减)一个单位时,Y平均改变b个单位r说明具有直线关系的两个变量间关系的密切程度与相关方向计算xxxyLLb/yyxxxyLLLr/取值范围—∞<b<+∞11r单位b有单位r没有单位生物医学研究的统计方法第10章联系(1)方向一致:对一组数据若能同时计算r和b,它们的符号一致。(2)假设检
本文标题:(统计学 第九周)简单回归分析―李琳琳老师
链接地址:https://www.777doc.com/doc-4412562 .html