您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 卫生统计学第八版李晓松第十三章 多重回归分析简介
卫生统计学刘美娜哈尔滨医科大学王雪梅内蒙古医科大学第十三章多重回归分析简介目录第一节:多重线性回归第二节:logistic回归第三节:Cox回归01020304重点难点※理解多重线性回归模型的基本思想,掌握多重线性回归模型的参数估计、假设检验及用途。※理解logistic回归的基本思想,logistic回归系数的意义及其与优势比的关系,掌握logistic回归模型的参数估计、假设检验及用途。※理解Cox回归模型的基本结构、比例风险假定和用途,掌握Cox回归中RR的意义。第一节多重线性回归1.模型(1)表示模型中解释变量取值固定时反应变量的总体均数。(2)为解释变量个数。(3)为常数项,为解释变量的偏回归系数。(一)多重线性回归模型第一节多重线性回归01122...yppxxxyyp0jjx2.方程(1)为反应变量总体均数的估计值。(2)分别为的估计值。第一节多重线性回归yppxbxbxbby...ˆ22110ˆy012,,,...,pbbbb012,,,...,p3.解释变量及偏回归系数的标准化(1)解释变量的标准化:(2)偏回归系数的标准化:第一节多重线性回归*iiiixxxsjjjysbbs1.参数估计多重线性回归采用最小二乘法估计未知参数,即使得反应变量的观测值和估计值之间的残差平方和取最小值时的作为相应的估计值,需要利用统计软件来完成。2.假设检验(1)回归模型的方差分析:确定回归方程是否有统计学意义。(2)偏回归系数的t检验:在回归方程具有统计学意义的情况下,检验某个总体偏回归系数是否等于零,判断某个解释变量在数据中是否有作用。(二)多重线性回归模型参数估计及假设检验第一节多重线性回归b例1通过收集某学校20名一年级女大学生体重(kg)、胸围(cm)、肩宽(cm)及肺活量(L),分析影响女大学生肺活量的相关因素,实测数据见下表。编号体重x1(kg)胸围x2(cm)肩宽x3(cm)肺活量y(L)编号体重x1(kg)胸围x2(cm)肩宽x3(cm)肺活量y(L)151.3073.6036.402.991148.8083.8033.903.10248.9083.9034.003.111252.6088.4038.003.28342.8078.3031.001.911342.7078.2030.901.92455.0077.1031.002.631452.5088.3038.103.27545.3081.7030.002.861555.1077.2031.102.64645.3074.8032.001.911645.2081.6030.202.85751.4073.7036.502.981751.4078.3036.503.16853.8079.4037.003.281848.7072.5030.002.51949.0072.6030.102.521951.3078.2036.403.151053.9079.5037.103.272045.2074.7032.101.92某学校20名一年级女大学生肺活量及有关变量测量值第一节多重线性回归例1的数据,利用统计软件计算可获得回归方程:123ˆ4.7150.0610.0360.049yxxx第一节多重线性回归例1回归模型的方差分析结果见表:变异来源自由度SSMSF值P值回归模型33.4361.14514.0670.001残差161.3020.081总变异194.738回归方程的方差分析表上表显示,P0.001,可按0.05水准拒绝;说明整体而言,用这三个解释变量构成的回归方程解释一年级女大学生的肺活量具有统计学意义。0H第一节多重线性回归偏回归系数的t检验统计量为:jjjbbbts例1的3个偏回归系数进行t检验,并计算标准化偏回归系数,结果见下表:变量偏回归系数标准误t值P值标准化偏回归系数截距-4.7151.301-3.6250.002—x10.0610.0212.9710.0090.482x20.0360.0152.3270.0330.336x30.0490.0291.7180.1050.302偏回归系数的t检验与标准化偏回归系数第一节多重线性回归上表显示:以0.05为检验水准,三个变量中,变量x1和x2的偏回归系数具有统计学意义,x3的偏回归系数无统计学意义,即在考虑肩宽的前提下,体重和胸围对肺活量有作用。标准化偏回归系数提示每个解释变量对反应变量作用的大小,两个有统计学意义的变量中对肺活量作用较大的是体重,其次是胸围。第一节多重线性回归决定系数为回归平方和在总平方和中所占百分比:2SSrSS回总决定系数为0.7251,说明体重、胸围和肩宽三个解释变量的作用可以解释一年级女大学生肺活量变异的72.51%。例1的决定系数为:第一节多重线性回归1.“最优回归方程”(1)对反应变量有统计学意义的解释变量,全部入选回归方程。(2)对反应变量无统计学意义的解释变量,都未入选回归方程。2.选择“最优回归方程”的方法(1)最优子集回归法。(2)向后剔除法(backwardselection)。(3)向前引入法(forwardselection)。(4)逐步筛选法(stepwiseselection)。(三)解释变量的筛选第一节多重线性回归利用统计软件,采用逐步回归法获得例1的筛选过程和最终结果如表所示:步骤引入变量剔除变量方程内变量数模型r2F值P值1x3-10.51018.7200.0002x1-20.6325.6500.0233x2-30.7255.4200.0334-x320.6742.9500.105逐步回归的变量筛选过程第一节多重线性回归变量自由度偏回归系数标准误t值P值标准化偏回归系数截距1-4.9081.368-3.5900.0020.000体重x110.0810.0184.6200.0010.644胸围x210.0460.0153.1300.0060.436变量筛选结果得到的回归方程为:12ˆ4.908+0.081+0.046yxx上述结果,可以认为体重和胸围是影响该校一年级女大学生肺活量的主要因素,体重增加1kg,估计肺活量平均增加0.081L;胸围增大1cm,估计肺活量平均增加0.046L;体重对肺活量的影响大于胸围对肺活量的影响。第一节多重线性回归1.多重线性回归的用途(1)影响因素分析。(2)估计与预测。2.多重线性回归模型的注意事项(1)多重共线性问题。(2)解释变量间的交互作用。(3)通径分析。(四)多重线性回归用途及注意事项第一节多重线性回归第二节logistic回归1.logistic回归模型的基本形式(一)logistic回归模型第二节logistic回归01122logit()ln()...1ppxxxy=1发生的概率记为,y=0的概率为1-;为常数项,为logistic回归系数。012,,...,p2.logistic回归系数的流行病学意义第二节logistic回归logistic回归模型的回归系数具有特殊含义,其解释可与流行病学中的优势比(oddsratio,OR)联系起来:第二节logistic回归两个优势之比为OR:当解释变量仅有两个取值0和1,通常定义某影响因素的暴露为1,非暴露为0,为OR:logistic回归系数可解释为:其他解释变量不变时,暴露于某影响因素相对于非暴露于该影响因素的值的自然对数;或者调整(控制)其他解释变量的影响后,解释变量每增加一个单位,得到的优势比的自然对数。(1)当时,,暴露与结局间不存在关联。(2)当时,,暴露与结局间存在关联。(3)当解释变量的回归系数时,,提示为危险因素。(4)当解释变量的回归系数时,,提示为保护因素。ORixix01OR01ORixix0i1iOR0i1iORiXiX第二节logistic回归1.参数估计(二)logistic回归模型参数估计及假设检验第二节logistic回归采用极大似然估计(maximumlikelihoodestimate,MLE)样本似然函数为:11(1)iinyyiiiL对似然函数取对数后,用Newton-Raphson迭代方法获得参数的估计值及其标准误。2.OR值的置信区间第二节logistic回归当样本含量较大时,的抽样分布近似服从正态分布,优势比的100()%置信区间为:iiOR13.假设检验第二节logistic回归(1)logistic回归模型的假设检验似然比检验统计量G为:102(lnln)GLL(2)logistic回归系数的假设检验检验统计量Wald服从自由度为1的分布,计算公式为:222(ald)W/iis2例2为获得两周患病居民就诊的可能影响因素,采用多阶段分层整群随机抽样进行卫生服务利用的入户调查,收集两周患病的15岁以上居民1493人,就诊者495人。调查的相关因素包括:性别、年龄、文化程度、社会医疗保障、自感疾病严重程度、最近医疗点距离、年人均收入、城乡类型和是否就诊。调查所涉及因素的变量名及赋值说明见表,收集数据的基本形式见下表。第二节logistic回归因素变量名赋值说明性别x1男=1,女=2年龄(岁)x245=1,45~=2,55~=3,65~=4文化程度x3小学及以下=1,初中=2,高中及中专=3,大专=4,大学及以上=5社会医疗保障x4无=0,有=1自感疾病严重程度x5不严重=1,一般=2,严重=3最近医疗点距离(公里)x63=0,3~=1年人均收入(元)x73000=1,3000~=2,5000~=3,10000~=4城乡类型x8农村=0,城市=1是否就诊y否=0,是=1两周患病居民就诊的影响因素与赋值说明第二节logistic回归患者编号性别年龄文化程度社会医疗保障自感疾病严重程度最近医疗点距离年人均收入城乡类型是否就诊x1x2x3x4x5x6x7x8y11221201102144130410314112010042421204115141111300…………………………14892421204101490231120410149124212031014922311103001493111120301两周患病居民就诊影响因素分析的部分原始数据第二节logistic回归假设例2影响因素仅有社会医疗保障x4和最近医疗点距离x6,利用软件建立两周患病是否就诊的logistic回归模型为:46logit()ln()1.6490.9851.0101xx4646exp(1.6490.9851.010)1exp(1.6490.9851.010)xxxx或(1)有社会医疗保障,最近医疗点距离小于3公里,两周患病就诊的概率为0.34。(2)无社会医疗保障,最近医疗点距离小于3公里,两周患病就诊的概率仅为0.16。第二节logistic回归当固定时x6,设有社会医疗保障就诊的优势为odds1,没有社会医疗保障就诊的优势为odds0,则有社会医疗保障相对于没有社会医疗保障的优势比为:6106exp(1.6490.98511.010)odds=exp(0.985)2.678oddsexp(1.6490.98501.010)xORx有社会医疗保障增加了两周就诊的可能性,有社会医疗保障是没有社会医疗保障两周就诊的2.678倍。第二节logistic回归例2分析性别、年龄、文化程度、社会医疗保障、自感疾病严重程度、最近医疗点距离、年人均收入、城乡类型对是否就诊的影响,统计软件分析结果如表所示。变量偏回归系数标准误Wald值P值OR值OR的95%置信区间x10.0110.1200.0090.9241.012(0.800,1.279)x2-0.1010.0583.0440.0810.904(0.807,1.013)x30.1060.0593.2350.0721.111(0.991,1.247)x41.5440.5
本文标题:卫生统计学第八版李晓松第十三章 多重回归分析简介
链接地址:https://www.777doc.com/doc-5954625 .html