您好,欢迎访问三七文档
多元统计分析方法习题指导赵珍Tel:4366365流行病学与卫生统计学教研室主要章节:多重线性回归聚类分析判别分析Logistic族回归简答题1.评价多重线性回归方程的方法?方差分析法F检验是把所有自变量作为一个整体,检验它们对应变量Y的影响是否具有统计学意义。决定系数R2法R2表示方程中的自变量能够解释应变量Y变化的百分比,其值越接近1,说明模型对数据的拟合程度越好。2.常用的衡量方程优劣的标准有哪些?复相关系数R,其值越大方程拟合越好。校正复相关系数Radj,其值越大方程拟合越好。剩余标准差Sy.12….m,其值越小说明回归效果越好。赤池信息准则AIC,其值越小越好。Cp统计量。3.聚类分析常被分为哪两大类?常用的距离有哪几种?聚类分析常被分为:R型聚类(变量聚类)Q型聚类(样品聚类)常用的距离:绝对值距离、欧氏距离、马氏距离、明氏距离、切比雪夫距离和兰氏距离。4.常用的类间距离分类的方法有哪几种?最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、离差平方和法和可变法。5.Fisher判别和Bayes判别的判别准则有何不同?Fisher判别准则:变异用离均差平方和表示,要求各类之间的变异尽可能地大,而各类内部的变异尽可能地小(既类类之间变异最大,类内之间变异最小)。Bayes判别的判别准则:是以个体归属某类的概率最大为标准。6.聚类分析与判别分析关系?二者同属分类问题。聚类分析“无师可循”,其目的就是把相似的东西归成类;判别分析“有师可循”,对个体进行归类。当各类总体不清楚时,可先用聚类分析法进行聚类,然后建立判别函数,再对新个体判别其归属。7.一般情况下,多元线性回归、Logistic回归和Cox比例风险回归对应变量的资料类型各有什么要求?多元线性回归要求应变量为定量资料;Logistic回归要求应变量为二分类或多分类资料;Cox比例风险回归要求应变量为表示时间长短的资料。8.某医师用B超测量一批4岁男孩心脏纵径x1(cm)、心脏横径x2(cm)和心象面积y(cm2)三项指标,在统计软件包的支持下,得到多元线性回归方程:Y=-3.12695+3.210445x1+3.662086x2,经检验,方程与两个自变量均有统计学意义。–结合专业知识解释以上两个偏回归系数的含义。–若决定系数R2=0.81,请解释其含义。答:b1=3.210445的含义是:对于心脏横径相同的4岁男孩,其心脏纵径每增加1cm,则心象面积平均增加3.210445cm2;b2=3.662086的含义是:对于心脏纵径相同的4岁男孩,其心脏横径每增加1cm,则心象面积平均增加3.662086cm2。R2=0.81表示:4岁男孩心象面积的变异中可由其心脏纵径和心脏横径解释的部分占81%。9.某北方城市研究喉癌发病的危险因素,用1:2配对的病例-对照研究进行了调查。现选取6个可能的危险因素并节录25对数据,各因素的赋值如下:表1喉癌的危险因素与赋值说明危险因素变量名赋值说明咽炎X1无=1,偶尔=2,经常=3吸烟量(支/日)X2每日0支=1,每日1~4支=2,每日5~9支=3,每日10~19支=4,每日20支~=5声嘶史X3无=1,偶尔=2,经常=3摄食新鲜蔬菜X4少=1,经常=2,每天=3摄食水果X5很少=1,少量=2,经常=3癌症家族史X6无=0,有=1是否患喉癌Y对照=0,病例=1对上面6个危险因素按连续变量采用逐步法进行多变量筛选,最终进入方程的危险因素分别为X2,X3,X4,X6结果见下表:表2进入方程中的自变量及有关参数入选变量bSbX2POR吸烟量X21.4870.5517.9210.00694.423声嘶史X31.9170.9444.1190.04246.798摄食新鲜蔬菜X4-3.7641.8254.2530.03920.023癌症家族史X63.6321.8663.9830.047137.793问:写出logistic回归方程试分析4个自变量回归系数的意义6432632.3764.3917.1487.1P1PInXXXXlogistic回归方程如下:4个自变量回归系数的意义:β2=1.487,其相应的优势比OR2=4.423。说明吸烟量是个危险因素,其他因素不变的情况下,吸烟量每增加一个等级,患喉癌的危险增加4.423倍。β3=1.917。其相应的优势比OR3=6.798。说明有声嘶史是危险因素,其他因素不变的情况下,声嘶史每增加一个等级,喉癌的患病的危险增加6.798倍。β4=-3.764,其相应的优势比OR4=0.023,表示摄食新鲜蔬菜为保护因素,说明在其他因素不变的情况下,每天摄食新鲜蔬菜比少摄食新鲜蔬菜或经常摄食新鲜蔬菜患喉癌的危险低。β6=3.623表示,其相应的比数比OR6=37.793,表示喉癌家族史为危险因素,说明在其他因素不变的情况下,有癌症家族史者患喉癌的危险是没有癌症家族史的37.793倍。10.某医生对218例成年男子的3个指标:身高X1、体重X2、肺活量X3进行了测量,并计算出它们的简单相关系数和一级偏相关系数,r12=0.807,r13=0.935,r23=0.770,r13.2=0.832,r23.1=0.075(前四个相关系数有统计学意义,第五个没有统计学意义)。该医生不会分析这个结果,请你帮助他。r12=0.807,r13=0.935,r23=0.770,它们分别表示身高和体重;身高和肺活量;体重和肺活量之间存在直线相关性。r13.2=0.832,这个相关系数有统计学意义,它表示体重固定的情况下,身高和肺活量存在直线相关性r23.1=0.075,这个相关系数没有统计学意义。它表示身高固定的情况下,体重和肺活量没有相关性。而其简单相关系数r23=0.770有统计学意义?这是由于身高与体重呈正相关r12=0.807,在r23中含有身高对肺活量的影响,从而使r23不能真实地反映两者间的关系。判断题偏回归系数bi的意义是指当其它的变量作用加以固定后,Xi改变一个单位,Y改变bi个单位。某多元回归中,b3=0.92,b2=0.31,则说明X3对Y的作用比X2大。穷举法所得方程中,若存在m个自变量,其方程的总个数是2m-1。0≤R2≤1,它意味着Y的变异中由自变量所解释的那部分占总变异中的多少。增加有统计学意义的自变量后,R2增大;增加无统计学意义的自变量后,R2减小。对于R型聚类,它的聚类指标是相似系数,包括相关系数、列联系数、点相关系数。当多元回归方程中,增加一个作用不大的自变量时,剩余平方和肯定会减少,所以剩余标准差也会减少。决定系数开方得R,称为多元相关系数或复相关系数,它表示多元回归中应变量Y与各个自变量线性组合间的相关。多元回归方程中,自变量作用显著当然很好,但即使有些自变量作用不显著,只要有点作用,多几个自变量总比少几个好。若X1、X2与周围其他变量没有什么关系,则用简单相关系数r表示它们的相关性是可以的。若还存在着对X1、X2关系密切的其他变量,则r就不能真实地反映X1、X2之间的关系,需要用偏相关系数。判别分析是根据某些指标的观测值对所研究的对象判断其归属类别的一种统计分析方法。所谓训练样本就是一定数量的已知实际类别且各指标的观测值均齐全的样本。建立Fisher两类判别的准则是使类间差别最大,而类内变异最小。系统聚类法不仅试用于对样本的聚类,也可用于对指标的聚类。判别分析效果好坏的关键是训练样本,训练样品数越多,则所建立的判别函数就越有效,用于对新样品的判断分类也越可靠。逐步判别中Λ大,表明该函数在K类之间的判别能力越强。Q型聚类分析是对变量进行聚类。有序样品聚类中,为了求出最优分割,必须定义类的直径和目标函数。有序样品聚类中,如果Si到Sj为一类,其间有j-i+1个样品,则类直径只能定义为j-i+1个样品观察值的离均差平方和。有序样品聚类中,如果n个样品要分为k类,分类方案会有许多种,不同的分类方案所求得的目标函数也会不同。目标函数一般定义为类直径之和。一般目标函数越大,这个分类方案就越合理。有序样品聚类中,计算n个样品分为k类的最小目标函数,即分别算出所有可能的分法的k类的类直径之和,其中最小者就是最小目标函数。此分类方式即为最优分割。选择题用偏回归平方和法对自变量Xi的检验是()A.t检验B.F检验C.X2检验D.A和B均可以E.A和C均可在多元回归分析中,可用以衡量各Xi对Y作用大小的指标有()A.偏相关系数B.偏回归平方和C.标准偏回归系数D.以上都对E.以上都不对逐步回归分析中,选变量时,是在未选入变量中挑选()进入方程A.Pi最大者B.Pi最大且有统计学意义者C.Pi最小者D.Pi最小且有统计学意义者E.只要有统计学意义者向后剔除法中,方程和偏回归系数的检验依次是()A.F检验、t检验B.t检验、F检验C.均为F检验D.均为t检验对于标准偏回归系数,下列哪些是错误的?()A.其大小受自变量所取单位的影响B.无单位,可直接用以比较C.其数值大小可以衡量每个自变量对y作用的大小D.它表示固定其他变量,当Xi变动一个标准差单位,y平均变动bi个标准单位E.是由偏回归系数标准化得到的判别分析是一种()的统计方法。A.“无师可循”,对个体归类B.“无师可循”,对群体分类C.“有师可循”,对个体归类D.“有师可循”,对群体分类E.以上都不对Fisher准则下的判别分析,判别临界值YC的确定从理论上讲,()方法最合理。A.两均数平均值B.用样本含量加权C.用方差加权平均D.目视法E.以上方法均可Bayes公式法理论上要求()A.各类指标Xi间相互独立B.各类别AG间互斥C.各类别AG构成完备事件D.ABCE.ACBayes准则下所建立判别函数式有()A.一个B.一组,各类一个C.一组,各指标一个D.事先不能确定E.以上均不对逐步判别中,变量的判别能力和函数的判别能力的检验统计量分别是()A.F、X2B.X2、FC.均为FD.均为X2E.T、X2逐步判别中,剔选变量时,()变量Xi判别能力越强。A.Ui越大B.Ui越小C.Pi越大D.Pi越小E.以上均不对逐步回归分析中,若增加引入的自变量,则()A.回归平方和与残差平方和均增大B.回归平方和与残差平方和均减少C.总平方和与回归平方和均增大D.回归平方和增大,残差平方和减少E.总平方和与回归平方和均减少对系统聚类法,下列哪条是错误的?()A.聚类对象不宜太多B.聚类开始时,各样品(或各指标)自成一类C.类间聚类方法常采用最短距离法D.类间聚类方法不同,聚类结果也不同E.类间聚类方法常采用类平均法多元线性回归分析中,反映回归平方和在应变量Y的总离均差平方和中所占比重的统计量是()A.复相关系数B.偏相关系数C.偏回归系数D.回归均方E.决定系数作多元回归分析时,若降低进入的F界值,则进入方程的变量一般会()A.增多B.减少C.不变D.可增多也可减少E.以上都不对Logistic回归与多重线性回归比较()。A.logistic回归的因变量为二分类变量B.多重线性回归的因变量为二分类变量C.logistic回归和多重线性回归的因变量都可为二分类变量D.logistic回归的自变量必须是二分类变量E.多重线性回归的自变量必须是二分类变量Logistic回归适用于因变量为()。A.二分类变量B.多分类有序变量C.多分类无序变量D.连续型定量变量E.A、B、C均可资料()不适合用logistic回归来分析。A.临床治疗效果评价的随访研究B.成组设计的病例-对照研究C.配对设计的病例-对照研究D.横断面研究E.随机化临床试验下列不属于截尾数据的是()。A.随访对象因搬迁等原因而失去联系B.随访对象死于其他疾病C.随访对象资料的丢失D.随访对象到研究者总结工作时仍然活着。E.以上都不是Logistic回归中自变量如为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用
本文标题:多元统计分析方法
链接地址:https://www.777doc.com/doc-3209420 .html