您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 医学统计学 多元线性回归 多因素统计分析方法
多因素统计分析方法多因素分析概述疾病的发生:致病源、环境条件、机体状况疾病的诊断:症状、体症、检验结果疾病的预后:病情、病程、治疗、机体状况在医学、生物学中,许多现象的发生、发展和变化是多种因素在一定条件下相互影响、相互制约而产生的共同结果。药物临床疗效研究疗效药物病情心理因素患者的状况(性别、年龄其他因素混杂因素举例临床药物疗效研究疗效药物病情心理因素患者的状况(性别、年龄其他因素混杂因素举例YX2X3X4X5X1何为单因素分析?分析时只涉及一个研究因素(指标)的分析方法。例:治疗高血压病。疗效指标:舒张压。比较两种药物对治疗高血压的疗效:药物(一个因素)两种药物治疗高血压的疗效比较药物治疗例数有效例数有效率/%A药1009595.0B药1008686.0单独分析药物之间的效果有无差别:单因素分析(必须假设其他影响因素相同)两种药物治疗高血压的疗效比较(轻型重型合计)药物治疗例数有效例数有效率/%A药1009595.0B药1008086.0X2=10.286,P=0.001比较病情、两种药物对治疗高血压的疗效:(两个因素)可按单因素分析,也可按多因素分析!该表只比较一个因素轻型两种药物治疗高血压的疗效比较药物治疗例数有效例数有效率/%A药504896.0B药503672.0同病型不同药物比较:重型两种药物治疗高血压的疗效比较药物治疗例数有效例数有效率/%A药504998.0B药504488.0每张表都只比较一个因素X2=10.714,P=0.001X2=3.840,P=0.05A药物治疗高血压疗效的男女比较病型治疗例数有效例数有效率/%男504896.0女504998.0B药物治疗高血压疗效的男女比较病型治疗例数有效例数有效率/%男503672.0女504488.0同药物不同性别比较:说明性别对疗效也有影响!X2=0.344,P=0.558X2=4.000,P=0.046两种药物治疗高血压的疗效比较药物治疗例数有效例数有效率/%A药100(轻70,重30)9595.0B药100(轻35,重65)8086.0如何处理?方法有三⑴拆分两两比较(轻重分别比较)⑵标准化⑶多因素分析Y-有效=1无效=0A药-用=1不用=0B药-用=1不用=0病情-轻=1重=2AB两药的交互作用如果同时分析病情、药物与疗效的关系,或病情与药物之间、药物与药物之间有无交互作用?单因素分析:t检验、卡方检验等——睁只眼闭多只眼!!——累人的方法!!(严格的设计)要解决上述问题,必须采用多因素分析的方法。医学统计学的发展空间:单因素多因素时间:随机过程(时间序列)常用的多因素分析方法:多元方差分析、多重线性回归、协方差分析、判别分析、聚类分析、主成分分析、因子分析、典型相关分析、logistic回归分析、Cox回归分析等。多元方差分析:包括第十章:析因设计、交叉设计的方差分析等。结果变量的类型结果变量的举例多变量分析的类型连续血压、体重、体温多元线性回归二分类是否死亡、是否患病多元logistic回归二分类事件结果出现时间死亡时间、疾病复发时间Cox模型多因素分析方法的选择(摘自:姚晨译《多变量分析—临床使用指南》)(取决于结果变量的类型)按应用来分类1、因素筛选:多重线性回归、logistic回归、Cox模型2、预测预报:多重线性回归、logistic回归、Cox模型、判别分析3、分类:聚类分析(样本聚类、指标聚类)4、多指标综合:主成分分析、因子分析(降维,指标化多为少)5、多个Y与多个X的相关关系:典型相关分析多因素分析的定义:①是研究多个相依因素(变量)之间的关系的统计分析方法(黄正南《医用多因素分析》)。②是一种用于制定不同原因对某一事件或结果相对作用大小的统计学工具(姚晨译《多变量分析—临床使用指南》)。与单因素、双因素分析比较多因素分析的优点1、取得原始资料容易:单因素分析必须要有严格的实验设计来排除非实验因素对结果的影响(控制干扰因素),达到组间均衡可比。(累,伤财)多因素分析可同时分析几个或几十个因素,把干扰因素当作研究因素。(化敌为友)2、可从整体分析结果:既可以分析单独作用,又可以分析各因素的交互作用。结果A因素B因素C因素D因素X因素(未知因素)(已知因素)X因素X因素第十四章多重线性回归(MultipleLinearRegression)分析一个因变量(dependentvariable)与多个自变量(independentvariable)的数量关系的方法,称多重线性回归(多元回归分析)。★多元线性回归是简单线性回归的直接推广,其包含一个因变量和二个或二个以上的自变量。★简单线性回归是研究一个因变量(Y)和一个自变量(X)之间数量上相互依存的线性关系。而多元线性回归是研究一个因变量(Y)和多个自变量(Xi)之间数量上相互依存的线性关系。★简单线性回归的大部分内容可直接引用于多元回归,因其基本概念得意义是一样的。(MultipleLinearRegression)第一节多重线性回归分析直线回归复习研究两个变量间的线性关系,称直线回归(linearregression)。这是回归分析中,最简单的一种。如由x推算y,则:X称自变量(independentvariable)Y称因变量(dependentvariable)直线回归分析:分析两个变量间的数量关系,目的是用一个变量推算另一个变量(建立回归方程)(或b0)称为截距,b为回归系数,即直线的斜率(其实就是反映x对Y影响)。ab0yxxbbybxay10ˆˆ或pronounced‘Yhat’直线回归复习0ˆˆ或求方程:b0和b1方法:最小二乘法:使各实测点距回归直线的纵向距离的平方和最小。2ˆyyyyˆ残差,或剩余如果各实测点落在直线上,表示估计值与实测值完全相同。直线回归复习函数关系(影响因素是唯一的)1.是一一对应的确定关系2.设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值3.各观测点落在一条线上在同一电路中,导体中的电流跟导体两端的电压成正比,跟导体的电阻阻值成反比,这就是欧姆定律,基本公式是I=U/R。由于生物间存在变异,故两相关变量之间的关系具有某种不确定性,如同性别、同年龄的人,其肺活量与体重有关,肺活量随体重的增加而增加,但体重相同的人其肺活量并不一定相等。岁健康男童的身高体重资料双变量:身高与体重研究目的:1、身高与体重有无关系?什么样的关系2、能否用身高推算体重?第九章双变量线性回归与相关不在一条直线上,但呈直线趋势例9-120名15岁健康男童的身高体重资料第九章双变量线性回归与相关直线回归应用条件(LINE):1、直线性:x和y必需呈直线趋势(Linear),且Y必须是随机变量,X可以是计量、计数、等级资料。2、独立性:各观测点相互独立,即任意两个观测点的残差的协方差为0。(Independent)3、正态性:残差服从正态分布。(Normality)4、方差齐性:残差的大小不随变量取值水平的改变而改变。(Equalvariance,orhomogeneity)以上条件缩写为:LINE。如果只作因素筛选,不作预测,条件3、4可适当放宽。—必须是呈正态分布的随机变量。可以是非随机变量:年龄、药物浓度或剂量—Ⅰ型回归也可以是随机变量:身高、体重、血清胆固醇的含量,血红蛋白的含量—Ⅱ型回归X直线回归复习、用原始数据绘制散点图(确保呈直线趋势)2、求a和b(如果呈直线关系)(用SPSS统计软件)3、对回归系数b作假设检验(方法:a.F检验b.t检验)4、判断回归方程的效果(回归方程估计的精度指标)⑴剩余标准差(Sy.x):越小,回归方程的精度越高。⑵残差(residual):越小,回归方程的效果越好。⑶决定系数(r2):越接近于1,效果越好。1组数据可尝试配合多种回归模型(直线、曲线),然后比较哪个模型更好。、线性模型:2、二次模型10、幂模型:8、指数模型:7、S型曲线:bxby0ˆ2210ˆxbxbby3、复合模型:xbby10ˆ4、生长模型:xbbey10ˆ5、对数模型:xbbylnˆ106、三次模型:332210ˆxbxbxbbyxbbey/10ˆxbeby10ˆ10ˆbxby9、逆模型:xbby/ˆ1011、Logistic模型:xbbuy10/1/1ˆ1234567109811刘桂芬主编《医学统计学》P218:例题14-133名5-8岁健康男童身高与体表面积的关系全模型的结果回归方程为:xy633.1662.18ˆ决定系数P值、分析是否符合LINE条件:⑴绘制散点图;⑵学生化残差图;⑶P-P图。2、求回归方程:全模型(所有的回归方程都求)3、回归效果判断:(哪种回归方程最好?确定系数最大、最熟悉、最简单的模型)4、结论:有无回归关系,列出回归方程。附:进行回归诊断:判断是否有异常点(Outlier)、高杠杆点(Leveragevalue)、强影响点(Influentialpoint)。(如果回归效果不好,就要进一步作回归诊断。)第一节多重线性回归分析一、模型a:截距(constant/interception)…,xm的多重回归方程为:mmxbxbxbby22110ˆ称y的估计值(predictedva
本文标题:医学统计学 多元线性回归 多因素统计分析方法
链接地址:https://www.777doc.com/doc-3149417 .html