您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > Logistic回归(1)..
1Logistic回归分析Logisticregression392讲述内容:第一节logistic回归第二节条件logistic回归第三节logistic回归的应用及其注意事项393目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。资料:1.应变量为反映某现象发生与不发生的二值变量;2.自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。394用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。用检验(或u检验)的局限性:1.只能研究1个危险因素;2.只能得出定性结论。2395种类:1.成组(非条件)logistic回归方程。2.配对(条件)logistic回归方程。396第一节logistic回归(非条件logistic回归)7(一)基本概念和原理1.应用背景Logistic回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。8设资料中有一个因变量y、p个自变量x1,x2,…,xp,对每个实验对象共有n次观测结果,可将原始资料列成表2形式。2、Logistic回归模型的数据结构9•表2Logistic回归模型的数据结构实验对象yX1X2X3….XP1y1a11a12a13…a1p2y2a21a22a23…a2p3y3a31a32a33…a3p…………………nynan1an2an3…anp━━━━━━━━━━━━━━━━━━其中:y取值是二值或多项分类•表3肺癌与危险因素的调查分析•例号是否患病性别吸烟年龄地区•1110300•2101461•3000351•………………•30000261•注:是否患病中,‘0’代表否,‘1’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。•11Logistic回归--Logistic回归与多重线性回归联系与区别联系:用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。区别:线性模型中因变量为连续性随机变量,且要求呈正态分布.Logistic回归因变量的取值仅有两个,不满足正态分布。123、Logistic回归模型令:y=1发病(阳性、死亡、治愈等)y=0未发病(阴性、生存、未治愈等)将发病的概率记为P,它与自变量x1,x2,…,xp之间的Logistic回归模型为:可知,不发病的概率为:)exp(1)exp(110110ppppXXXXp)exp(111110ppXXp经数学变换得:定义:为Logistic变换,即:ppXXpp110)]1/(ln[)]1/(ln[)(logpppitppXXpLogit110)(144、回归系数βi的意义流行病学的常用指标优势比(oddsratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为:)1/()1/(0011PPPPORiiiPitPitORLn)0()1()]0([log)]1([log)(00•故对于样本资料OR=exp()•95%置信区间为:•可见是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。•如果要比较不同因素对Y作用大小,需要消除变量量纲的影响,为此计算标准化回归系数ibi的标准差。为的标准差,为其中ySXSSSbbyiiyiii,/*'影响越大。其因素对的估计值,此值越大,为Ybii))(96.1exp(iibSEb二、Logistic回归的参数估计及意义Logistic回归的参数估计及意义P表示某个体发生某病的概率,自变量表示m个危险因素,式中的常数项表示在无各危险因素时的发病概率对不发病概率之比的自然对数,而logistic回归系数表示当危险因素每变化1个单位时(其它危险因素取值的变化量。通常用最大似然估计法求解模型中参数的估计值似然函数niYiYiiiPPL11)1(5.假设检验•(1)回归方程的假设检验•H0:所有H1:某个•计算统计量为:G=-2lnL,服从自由度等于n-p的分布•(2)回归系数的假设检验•H0:H1:pii,,2,1,0,00i20i0i计算统计量为:Wald2,自由度等于1。18•具体方法是:①先拟合不包含待检验因素的logistic模型,求对数似然函数值;②再拟合包含待检验因素的logistic模型,求另一个对数似然函数值;③比较两个对数似然函数值差别的大小2d2lndGDD不包含此变量的模型-包含此变量的模型不含此变量的似然函数=-含此变量的似然函数19ModelParameter-2lnLP-valueGScore10244.3460.02--20,1236.7360.037.6107.85430,1,2227.2000.069.5366.89840,1,2,3222.6160.094.5835.309ComparingModel3and4200.227ln2L616.222ln2L583.4616.222200.227)ln2(ln2LLG13412kk,05.0PModel4isthebestmodel20Wald检验将各参数的估计值jb与0比较,而用它的标准误jbS作为参照,检验统计量为2,1jjjjbbbbuSS2或221220111022120.885634.860.15000.526111.200:0,:0,0.05,:0,:0,.157005,2.HHHH2值均大于3.84,说明食道癌与吸烟、饮酒有关系,结论同前。2.21•3score检验以未包含某个或几个变量的模型计算保留模型中参数的估计值,并假设新增参数为零,计算似然函数的一价偏导数及信息距阵,两者相乘便得比分检验的统计量S。n较大时,S近似服从自由度为待检因素个数的2分布。22•以上三种方法中,在多数情况下,似然比检验是最有效的检验,score检验一般与它相一致。但两者计算量均较大;•Wald检验主要用于对单个回归系数的检验,但是Wald检验未考虑各因素间的综合作用,比较保守,在因素间有共线性存在时,结果不像其它两者可靠。1、似然比检验检验统计量为)ln(ln201LLGG服从2分布,自由度为增加变量的个数。2、Wald检验检验统计量为22))ˆ(ˆ(SELogistic回归分析一般过程•变量的选择–建立logistic回归模型时,要求进入模型的自变量应对反应变量有解释能力。通常研究者根据专业知识和研究的问题,首先确定要研究的反应变量和自变量•单因素分析(变量的粗略选择)–用单因素分析对自变量进行筛选:卡方检验、t检验或单因素的logistic回归25变量筛选Logistic逐步回归变量筛选的过程与线性逐步回归变量筛选的过程极为相似,但其中所用的检验统计量不再是F统计量,而是似然比统计量、Wald统计量等。例如使用似然比统计量,即利用()()102[lnln]llGLL,在进行到第l步时,通过比较含有jX和不含jX的模型,决定jX是否引入模型。与多元线性回归类似,标准化偏回归系数可以比较各因素作用的相对重要性。为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。26解释•设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数。•当bi0时,对应的优势比(oddsratio,记为ORi):ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素。•27二分类Logistic回归method中文名称剔除依据Enter全部进入Forward:conditional向前逐步条件参数估计似然比Forward:LR向前逐步最大偏似然估计似然比Forward:Wald向前逐步Wald统计量Backward:conditional向后逐步条件参数估计似然比Backward:LR向后逐步最大偏似然估计似然比Backward:Wald向后逐步Wald统计量28二分类Logistic回归—多重比较的方法Indicator—第一类或最后一类为参照类,每一类与参照类比较Simple------除参照类外,每一类与参照类比较Difference-除第一类外,每一类与其前各类的平均效应比较,有称反HelmertHelmert----除最后一类外,每一类与其后各类的平均Repeated—相邻两类比较,除第一类外,每类与其前一比较Polynominal—正交多名义分类比较,该法假设每一分类都有相等的空间,仅适于数值变量Deviation—除参照类外,每一类与总效应比较•为了探讨糖尿病与血压、血脂等因素的关系,某研究者对56例糖尿病病人和65例对照者进行病例-对照研究,收集了性别、年龄、学历、体重指数、家族史、吸烟、血压、总胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白11个因素的资料。例题性别年龄学历体重指数家族史吸烟血压总胆固醇甘油三脂hdlldl糖尿病160221114.301.501.242.300148321114.601.321.152.300263211124.601.151.152.300168322114.151.431.073.210145212113.421.22.632.300145332114.16.96.982.650159211114.321.021.053.490168331113.801.422.86.850263221113.871.552.44.810•表2糖尿病影响因素赋值说明因素变量名赋值说明性别X1男=1,女=2年龄X2学历X3小学以下=1,小学=2,初中=3,高中=4,大专及以上=5体重指数X424=1,24~26=2,26~=3家族史X5无=1,有=2吸烟X6不吸=1,吸=2血压X7正常=1,高=2总胆固醇X8甘油三酯X9高密度脂蛋白X10低密度脂蛋白X11糖尿病Y对照=0,病例=1•建立数据库•单因素logistic回归(分别对性别、年龄、学历等做回归分析)VariablesintheEquation.263.636.1711.6791.301.3744.527.085.0365.5211.0191.0891.0141.168-.699.2985.5131.019.497.277.8911.621.5528.6211.0035.0561.71414.9151.634.6825.7441.0175.1241.34719.4973.126.71419.1741.00022.7875.62392.3411.647.6706.0401.0145.1901.39619.298.606.4721.6471.1991.832.7274.6212.3121.0424.9291.02610.0981.31177.767-.914.4324.4841.034.401.172.934.017.416.0021.9671.017.4502.300-20.2074.65218.8661.000.000性别年龄学历体重指数家族史吸烟血压总胆固醇甘油三脂hdlldlConstantStep1aBS.E.WalddfSig.Exp(B)LowerUpper95.0%C.I.for
本文标题:Logistic回归(1)..
链接地址:https://www.777doc.com/doc-7754353 .html