您好,欢迎访问三七文档
曲线回归吴库生汕头大学医学院预防医学教研室回归分析的概念寻求有关联(相关)的变量之间的关系主要内容:从一组样本数据出发,确定这些变量间的定量关系式对这些关系式的可信度进行各种统计检验从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著利用求得的关系式进行预测和控制回归分析的模型按是否线性分:线性回归模型和非线性回归模型按自变量个数分:简单的一元回归,多元回归常见回归分析的模型在回归种类中包括:Liner:线性回归CurveEstimation:曲线估计BinaryLogistic:二分变量逻辑回归MultinomialLogistic:多分变量逻辑回归Ordinal序回归Probit:概率单位回归Nonlinear:非线性回归WeightEstimation:加权估计2-StageLeastsquares:二段最小平方法OptimalScaling最优编码回归一、曲线拟合Curvefitting医学研究中,X与Y两变量的数量关系并非总是线性的,如•毒物剂量——动物死亡率•年龄——身高•时间——血药物浓度可用曲线直线化估计(Curveestimation)或非线性回归(Nonlinearregression)方法进行统计学分析。曲线估计(CurveEstimation)对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方式方便地进行各种方程拟合,如:指数拟合(Exponential)、二次拟合(Quadratic)、三次拟合(Cubic)等。采用哪种拟合方式更合理主要取决于各种拟合模型对数据的充分描述(看校正AdjustedR2→1)不同模型的表示模型名称回归方程相应的线性回归方程Linear(线性)Y=b0+b1xQuadratic(二次)Y=b0+b1x+b2x2Compound(复合)Y=b0(b1x)Ln(Y)=ln(b0)+ln(b1)xGrowth(生长)Y=eb0+b1xLn(Y)=b0+b1xLogarithmic(对数)Y=b0+b1ln(x)模型名称回归方程相应的线性回归方程Cubic(三次)Y=b0+b1x+b2x2+b3x3SY=eb0+b1/xLn(Y)=b0+b1/xExponential(指数)Y=b0*eb1*xLn(Y)=ln(b0)+b1xInverse(逆)Y=b0+b1/xPower(幂)Y=b0(xb1)Ln(Y)=ln(b0)+b1ln(x)Logistic(逻辑)Y=1/(1/u+b0b1x)Ln(1/Y-1/u)=ln(b0+ln(b1)x)选择曲线的基本方法根据专业知识和过去经验(或文献)选择曲线类型利用算术格纸、半对数格纸等,将实测数据绘制散点图。根据散点图的特点选择曲线类型先在普通格纸上绘制散点图,再根据各点分布趋势用试配法来选择曲线类型。曲线拟合方式曲线直线化估计曲线直接拟合绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类)按曲线类型,作曲线直线化变换建立变换数据间的直线回归方程(假设检验,计算决定系数)比较决定系数选取“最佳”方程写出曲线方程曲线直线化估计的步骤YX0二、常见的几种曲线对数曲线b0b0YX0指数曲线b0b0及其变换形式YX0Y=b0+b1X+b2X2抛物线b20b20YXY=b0+b1X+b2X2+b3X303次多项式曲线SPSS中曲线模型SPSS中曲线模型SPSS回归分析的过程基本的步骤:利用SPSS得到模型关系式,是否是我们所要的,要看回归方程的显著性检验(F检验)和回归系数b的显著性检验(t检验),还要看拟合程度R2(相关系数的平方,一元回归用RSquare,多元回归用AdjustedRSquare)常见的曲线回归方程②对数:)ln(ˆXbaY①幂函数:ˆbYaX或ˆln()lnln()YabX③指数函数:ˆbXYaeˆln()lnYabX④多项式:nnXbXbXbaY221ˆ)1/(1ˆbXae或⑤logistic:bXa)]ˆ1/(ˆln[或利用线性回归拟合曲线(例1)例上海医科大学微生物学教研室以已知浓度X的免疫球蛋白A(IgA,μg/ml)作火箭电泳,测得火箭高度Y(mm)如表1所示。试拟合Y关于X的非线性回归方程。编号XYX'=lnX10.27.6-1.609420.412.3-0.916330.615.7-0.510840.818.2-0.223151.018.7061.221.40.182371.422.60.336581.623.80.4700合计140.3-2.2708(一)绘制散点图,决定曲线类型(二)曲线直线化变换=a+blnXYˆ(三)建立直线回归方程YˆXYX'=lnX(lnX)2Y2(lnX)Y残差平方0.27.6-1.60940.412.3-0.91630.615.7-0.51080.818.2-0.22311.018.701.221.40.18231.422.60.33651.623.80.4700合计140.3-2.27082.590257.76-12.23140.8396151.29-11.27050.2609246.49-8.01960.0498331.24-4.06040.0000349.690.00000.0332457.963.90120.1132510.767.60490.2209566.4411.18604.10782671.63-12.88987.2312.6215.7718.0119.7521.1622.3623.400.13800.10170.00530.03611.09210.05630.05660.15971.64589922.0);(ln7771.77451.19ˆ2RXY(四)比较决定系数,确定“最佳”方程y^=19.3248x0.5367R2=0.982305101520253000.511.52y^=8.7302e0.7136xR2=0.842505101520253000.511.52y^=10.863x+7.7607R2=0.939105101520253000.511.52y^=7.7771Ln(x)+19.745R2=0.9922051015202500.511.52SPSS实现过程ModelSummaryandParameterEstimatesDependentVariable:y.992763.49916.00019.7457.777EquationLinearRSquareFdf1df2Sig.ModelSummaryConstantb1ParameterEstimatesTheindependentvariableislnx.9922.0);(ln7771.77451.19ˆ2RXY15名重伤病人的住院天数X与预后指数Y编号123456789101112131415X257101419263134384552536065Y54504537352520161813811846利用线性回归拟合曲线(例2)(一)绘制散点图,决定曲线类型0102030405060020406080住院天数X预后指数Y(二)曲线直线化变换012345020406080住院天数(天)X预后指数的对数lnY(三)建立线性回归方程Yˆln回归方程为:4.037-0.038X方差分析有统计学意义,P=0.0000,F=276.38,表明回归方程有贡献。确定系数为0.9551,表明回归拟合原资料较好。转换为原方程的另一种形式:XXeeY038.0)038.0037.4(665.56ˆXXeYeY0396.0038.06066.58ˆ;665.56ˆModelSummaryandParameterEstimatesDependentVariable:lny.955276.379113.0004.037-.038EquationLinearRSquareFdf1df2Sig.ModelSummaryConstantb1ParameterEstimatesTheindependentvariableisx.XXeYeY0396.0038.06066.58ˆ;665.56ˆ比较两个回归方程可见,对同一份样本采用不同估计方法得到的结果并不相同。主要因为曲线直线化以后的回归只对变换后的Y*(=lnY)负责,得到的线性方程可使Y*与其估计值之间的残差平方和最小,并不保证原变量Y与其估计值之间的残差平方和也是最小。YˆYˆ曲线直线化非线性最小二乘法Yˆ)ln()ˆln(XbaY问题:前一个例子只对自变量作对数变换的对数曲线拟合,能否保证原变量Y与其估计值之间的残差平方和也是最小?幂函数曲线拟合呢?)ln(ˆXbaY问题:如何判断哪个曲线拟合方程更佳?对于前例,几个常见曲线拟合得到的决定系数R2如下(曲线直线化):线性(直线)R2:0.8856(y=46.4604-0.7525x)幂曲线R2:0.8293(y=159.9297x-0.7191)对数曲线R2:0.9654(y=72.2829-15.9662Ln(x))指数曲线R2:0.9551(y=56.6651e-0.0380x)二项式曲线R2:0.9812(y=55.8221-1.7103x+0.0148x2)问题:如何判断那个曲线拟合方程更佳?对于例2,几个常见曲线拟合得到的决定系数R2如下(非线性回归——迭代法):线性(直线)R2:0.8856(y=46.4604-0.7525x)幂曲线R2:0.8413(y=88.7890x-0.4662)对数曲线R2:0.9654(y=72.2829-15.9662Ln(x))指数曲线R2:0.9875(y=58.6066e-0.0396x)二项式曲线R2:0.9812(y=55.8221-1.7103x+0.0148x2)散点图辨析0102030405060010203040506070病人住院天数X预后指数Y对数曲线指数曲线如果条件允许最好采用非线性回归(NonlinearRegression)拟合幂函数曲线与指数函数曲线注意绘制散点图,并结合专业知识解释非线性回归方程非线性回归与一般线性回归的求解方法不同在于:1.需要给定参数(a、b)的初始值2.采用迭代方法,不断更新估计的参数,直至稳定在某一值为止。优点:在需要变换Y时,结果更可靠。缺点:a.计算复杂;b.初始值不适当时,估计不准确.采用SPSS进行曲线拟合曲线直线化AnalyzeRegressionCurveEstimation…可选Power、Logarithmic、Exponential、Quadratic、Cubic等非线性回归AnalyzeRegressionNonlinear…设置模型:ModelExpression参数赋初值:Parameters…SPSS曲线拟合实例一只红铃虫的产卵数与温度有关,下面是有关数据:温度21232527293235产卵数711212466115325试找出一种较佳的经验回归函数?全选拟合曲线图方差分析表ExponentialModelSummary.993.985.982.181RRSquareAdjustedRSquareStd.ErroroftheEstimateTheindependentvariableis温度.ANOVA10.931110.931333.866.000.1645.03311.0946RegressionResidualTotalSumofSquaresdfMeanSquareFSig.Theindependentvariableis温度.Coefficients.272.015.99318.272.000.021.0092.415.060温度(Constant)BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoeffici
本文标题:曲线回归
链接地址:https://www.777doc.com/doc-3062088 .html