您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 求职简历 > 同济医学院-《医学多元统计》考试总结1
一、判别分析与聚类分析在原理及其应用上的区别原理:聚类分析是对于总体分类未知的一群事物依照“物以类聚”的思想,把性质相近的事物归入同一类,而把性质相差较大的事物,归入不同类的一种统计分析方法。判别分析是对样本个体进行分类的另一种统计分析方法,但它是是根据一批分类明确的样本在若干指标上的观察值,建立一个判别函数和判别准则,然后以此准则来对新的样本进行判别分类。应用:1、聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类。2、聚类分析实现不知道事物的类别,也不知道应分几类;而判别分析必须事先知道事物的类别,也知道应分几类。3、聚类分析不需要分类的历史资料,能直接对样本进行分类;而判别分析需要分类历史资料区建立判别函数,然后才能对样本进行分类。二、logistic回归和COX风险模型在应用上的区别1、Logistic回归模型可以用于多因素预后分析,控制混杂因素效应,并可进行优势比OR(或相对危险度RR)的估计,但不能处理随访中常见的删失数据。另外,Logistic回归模型仅考虑随访结局(生存或死亡,有效或无效),而未考虑出现结局的时间长短。2、Cox比例危险率回归模型的应变量观察结局有关时间,它不仅可以从结局的好坏,而且可以从出现该结局的时间长短进行分析比较,并可进行相对危险度RR的估计,因而Cox回归具有logistic回归模型的所有优点,并可处理删失数据,特别适用于长期随访资料的分析,如肿瘤及慢性病的预后分析。但当数据删失较少或终点时间发生数据少时,宜用logistic回归。三、主成分分析有哪些主要应用?其与多元线性回归分析有何区别?主成分分析在医学中的应用:1、对原始指标进行综合。可以降维,直观明了。从方法学上讲,主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原始指标所提供的信息,这就为进一步的统计分析奠定了基础。2、可用于判别归类。利用主成分分析还可对样品进行分类。求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分析。3、可消除多元线性回归中自变量的多重线性——共线性问题。原因在于各成分之间相互独立,不存在因果关系多元线性回归在医学中的应用:1、确定多个指标变量与一个反应变量之间的线性关系。2、筛选疾病的危险因素和有利于健康的健康促进因素。筛选危险因素3、从较易测得的自变量来推测较难测得的自变量。4、从已知发生的X来预测将发生的Y。5、用于建立专家辅助诊断系统。校正混杂因子四、谈谈你对多元统计方法在医学科研数据分析中应用的重要性多元统计方法作为一种更复杂的统计学方法,它在医学科研中具有很高的应用价值,主要包括以下三方面的作用(1)统计描述①均数向量②组间比较(2)关联性分析①线性相关与回归:在大量的医学科研与实践中,经常会遇到对两个变量或多组指标变量与一个反应变量之间关系的研究,例如糖尿病人的血糖与其胰岛素水平的关系如何,此时可用回归与相关分析,包括直线线性回归与直线相关,多元线性回归等。②非线性回归:A医学科研中经常需要分析分类型变量的问题(二分类、多分类),研究者关心的问题如哪些因素导致人群中有些人患某种病,有些人不患某种疾病的问题,不能用线性回归分析方法解决,但可以用logistic回归来分析。B医学研究中常常用追踪的方式来研究事物发展的规律,例如了解手术后的存活时间,了解某药物的疗效。这种追踪研究都要经过一段时间,此时可用生存分析方法对资料进行分析。生存分析具有重要的应用价值,它对人群寿命的研究,各种慢性病的现场追踪研究等随访资料的处理起着举足轻重的作用。C某些研究如毒理试验具有安全期参数,此时可用Wwibull回归。D此外还可用泊松回归(对数线性回归模型),负二项回归等方法对医学科研数据进行分析处理。(3)综合评价①专家诊断系统:可用聚类分析、判别分析方法建立专家诊断系统,总体分类未知,没有先验信息的情况下,用聚类分析去进行判定分类,有先验信息,事先知道总体的分类时,再去归类则可用判别分析。②变量结构分析:可利用主成分分析和因子分析③量表的研制和评价:信度和效度评价④预测:用神经网络、时间序列模型进行预测⑤宏观评价:包络分析五、试述二判别分析的基本原理总体分类已知的一群事物,根据已有的分类信息把性质相近的事物归入同一类,而把性质差异较大的事物归入不同类的一种统计方法。根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率估计它的实用性。6、试述系统聚类法的基本思想系统聚类法的基本思想:先将n个样品各自看成一类,然后选择相似程度最大(距离系数d最小或相关系数最大)的样品归为一类,再选择相似程度次大的样品归为一类。以此类推,直到所有的没有归入其他类的样品都归类完为止。在归类过程中:①若两样本在已经形成的类中没有出现过,则成立一个新类;②若两样本中有一个是在已经形成的类中出现过,则另一样品加入该类;③若两样品分别出现在已经形成的两个类中,则把这两类归并为一类;④若两样品都在同一类中出现,则这一对样品就不再归类了。这样反复进行直到对所有样品都归类完毕为止,形成一个分类系统。七、试述最小二乘法与最大释然函数法区别最小二乘法基本思想是使误差平方和最小,达到在误差之间建立一种平衡,以防止某一极端误差对决定参数的估计值起支配地位。极大似然法,首先建立包括有该参数估计量的似然函数,然后根据实验数据求出似然函数达极值时的参数估计量或估计值。上极大似然法要求已知总体的分布,才能获得估计量,最小二乘法对分布没有严格的要求。一般地,极大似然法估计结果大多具有无偏性、有效性和相合性等优良的估计量性质,因此被广泛采用,但也并不是该法估计的结果就一定最好,例如极大似然方法估计平均数尽管是无偏估计,但其估计的方差是有偏的,在样本容量小时不能很好地反映总体变异。最小二乘法在估计线性回归模型参数时具有灵活方便的特点,因此被广泛采用。八、主成份分析和因子分析的区别和联系。区别:1、主成分不考虑观察变量的度量误差,直接用观察变量的某种线性组合来表示一个综合变量,而探索性因子分析所产生的综合变量,即潜在变量,是校正了观察变量的度量误差的,因此它的分析结论更接近真实。2、另外探索性因子分析的优点是可以进行因子旋转,使得潜在因子具有更明确的实际意义,从而使用价值也更高一些。3、主成份分析重在综合原始变量的信息,而因子分析则重在解释原始变量之间的关系。联系:1、从方法上讲,主成份分析与因子分析都是把多个相关的原始指标转换成少数几个相互独立的新变量,并且因子分析提取初始因子时常采用主成份法,这时因子分析的结果(主成份解)与主成份分析的结果一致。2、主成份分析的基本思想是将彼此相关的一组指标变量转化为彼此独立的一组新指标变量,并且其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息,又各自带有独特的专业含义。3、因子分析是用来寻找那些隐藏在可测变量中,无法直接观察到,即影响和支配可测变量的潜在因子,并估计潜在因子对可测变量的影响程度以及潜在因子之间的关联性的一种多元统计分析方法。九、简述直线回归与直线相关的联系与区别。1、两者的联系:1)对于既可作相关又可做回归分析的同一组数据,计算出的b与r正负号一致。2)相关系数与回归系数的假设检验等价,即对于同一样本,tb=tr。3)同一组数据的相关系数和回归系数可以相互换算:r=b×。4)用回归解释相关:由于决定系数r2=SS回/SS总,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,则r2越接近1,说明相关的效果越好。2、两者的区别:1)资料要求上:相关要求X、Y服从双变量正态分布,这种资料进行回归分析称为II型回归;回归要求Y在给定某个X值服从正态分布,X是可以精确测量和严格控制的变量,称为I型回归。2)应用上:说明两变量间相互关系用相关,此时两变量的关系是平等的;而说明两变量间依存变化的数量关系用回归,用以说明Y如何依赖于X而变化。3)意义上:r说明具有直线关系的两变量间相互关系的方向与密切程度;b表示X每变化一个单位所导致Y的平均变化量。4)计算上:(r=b=)。5)取值范围:-1≤r≤1,-∞b∞。6)单位:r是无量纲的,不受X、Y计量单位的影响。b是有量纲的,受X、Y计量单位的影响。十、简单线性回归的应用和前提条件。应用:1、用来分析一个因变量与一个自变量之间的关系,从统计意义上确定自变量的变化是否引起因变量的变化,并估计出自变量对因变量的数值影响大小。2、利用回归方程进行估计和预测。即在给定X=X0时,可以计算相应Y的均数的可信区间与其个体Y值的预测区间。前提条件(LINE):线性:反应变量Y的总体平均值与自变量X呈线性关系。独立:指任意两个观察值互相独立。随机误差与自变量是独立的。正态性:误差项服从正态分布。等方差性:指在自变量X的取值范围内,不论X取什么值,Y都具有相同的方差。十一、Cox模型与logistic回归的异同点。相同点:在估计出回归系数后,可以得到相应因素的相对危险度。不同点:1、logistic分析时只考虑了事件的结果,而没有考虑生存时间的长短,因此,Cox模型更多的利用了资料的信息。2、logistic回归模型要求资料满足事件的发生率较低的假定,而Cox模型则不受该条件的限制。3、在前瞻性研究中,如用logistic回归分析方法,则在设计上要求每个观察对象的观察时间长短一致,而用Cox回归分析方法,在研究设计上比较灵活,只要纪律每个观察对象的观察时间即可。4、在有研究对象发生失访时,用logistic回归较难处理,而用Cox回归处理就容易得多。十二、logistic回归分析和线性回归分析的异同点。相同点:1、都可以利用模型来筛选危险因素。2、都可以校正混杂因子的影响。3、都可以用来预测。不同点:1、前者对因变量无分布要求,后者要求因变量是正态分布变量。2、前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。3、前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量呈线性关系。4、前者是分析因变量取某个值的概率与自变量的关系,后者是直接分析因变量与自变量的关系。十三、COX模型在医学上的应用。1、它是一种多元统计,可分析多种因素对疾病预后或对生存时间的影响。这一多变量统计方法使生存分析更适合流行病学研究。流行病学研究的重要目的之一是分析各种因子与发病的关系,Cox回归可用来分析各因子对发病的影响。2、它具有一般回归方法的特点,可用于比较和预测。在其他因素固定的情况下,它可以用于某一因素不同水平的比较;在患者的各因素已知时,可预测不同时刻的生存概率。3、与参数法相比,它不考虑生存资料的分布,即任何分布的生存资料均可用Cox回归进行分析。4、它能将定性指标与定量信息相结合,提高实验效率。在临床试验和实验医学研究中,有时观察结果是定性指标,如“显效”、“死亡”等,这就需要有大量的数据才能使实验获得统计学上的可靠结论,如果同时将观察结果的发生时间记录下来,增加信息量,用Cox回归进行分析,可起到以少量观察对象而得到可靠结论的作用,从而提高实验效率。此外,Cox回归在分析过程中不用归组,使得资料保存的信息较多。5、在流行病学研究中,它与logistic回归类似,在得到回归系数的估计值B后,则在t时刻的相对危险度很容易估计:h(t)/h(0)=exp()。十四、多元Logistic回归分析应用1、筛选危险因子。它常用在流行病学的病因学研究中。2、校正混杂因子,校正非研究因素对研究因素的混杂作用。如它可以消除性别、年龄、病情等对治疗效果分析的干扰,消除年龄、职业、收入等对生活嗜好与疾病关系分析的干扰等。3、预测疾病或时间发生的概率。非条件Logistic回归模型是一个概率模型,它可以用来预测事件发生的概率,如暴露在某些危险因素下得病的概率,这是其它模型不具有的特征。4、将样本进行判别分类。它起的作用和判别分析一样
本文标题:同济医学院-《医学多元统计》考试总结1
链接地址:https://www.777doc.com/doc-2263194 .html