您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 医学多元统计分析方法总结
1绪论多元分析常用统计量⚫均向量(𝑿̅)171.0175.0164.258.565.046.581.087.073.0=A748.0833161.864.367750=X⚫离差阵(𝑺𝑺或𝑳)离均差平方和与离均差积和矩阵deviationsumofsquaresandcross-productsmatrixDSSCP矩阵简称:离差阵,记作SS或L==5629.3881249.5005498.3549168.7659831.5539464.502333231222111ssssssssssssSS⚫方差-协方差矩阵(𝑽或𝚺)==3239.354659.452318.326288.693621.507224.45333231222111vvvvvvV𝑽=𝑺𝑺𝑛−1简称协方差阵。⚫相关系数矩阵(𝑹)𝜌𝑖𝑗=𝑙𝑖𝑗√𝑙𝑖𝑖𝑙𝑗𝑗==𝑙𝑖𝑗𝑛−1√𝑙𝑖𝑖𝑛−1𝑙𝑗𝑗𝑛−1=𝜎𝑖𝑗2√𝜎𝑖𝑖2𝜎𝑗𝑗2𝑟(𝑋,𝑌)=𝐶𝑜𝑣(𝑋,𝑌)√𝑉𝑎𝑟(𝑥)𝑉𝑎𝑟(𝑌)==19168.08020.09168.018926.08020.08926.01333231232221131211rrrrrrrrrR==19168.08020.018926.01333231222111rrrrrrR⚫方差-协方差矩阵与相关系数矩阵间的关系将原始数据的每一个变量进行标准化变换,均数为0,方差为1。变换后变量的方差-协方差矩阵就等于相关系数矩阵。⚫离差和-离差积和-相关系数矩阵⚫方差协方差-相关系数矩阵距离和相似系数⚫距离每个样品可以看成p维空间中的一个点(p等于指标数)。绝对值距离𝑑𝑖𝑗(1)=∑|𝑥𝑖𝑘−𝑥𝑗𝑘|𝑝𝑘=1欧氏(Euclidean)距离𝑑𝑖𝑗(2)=[∑(𝑥𝑖𝑘−𝑥𝑗𝑘)2𝑝𝑘=1]12⁄切比雪夫(Chebychev)距离𝑑𝑖𝑗(∞)=𝑚𝑎𝑥1≤𝑘≤𝑝|𝑥𝑖𝑘−𝑥𝑗𝑘|明氏(Minkowski)距离𝑑𝑖𝑗(𝑞)=(∑|𝑥𝑖𝑘−𝑥𝑗𝑘|𝑞𝑝𝑘=1)1𝑞欧式距离、绝对值距离是明氏距离𝑞=2和𝑞=1时的特例。当𝑞→∞时,明氏距离就是切比雪夫距离。兰氏(Lanberra)距离𝑑𝑖𝑗(𝐿)=1𝑝∑|𝑥𝑖𝑘−𝑥𝑗𝑘|𝑥𝑖𝑘+𝑥𝑗𝑘𝑝𝑘=1没有考虑变量间的相关。马氏距离𝑑𝑖𝑗2(𝑀)=(𝐗𝑖−𝐗𝑗)′𝚺−1(𝐗𝑖−𝐗𝑗)2多元正态分布𝑓(𝑿)=1(2𝜋)𝑚2|𝜮|12𝑒−12(𝑿−𝝁)′(𝜮)-1(𝑿−𝝁)x1,x2的协方差阵22211211=逆矩阵−−−22211211212221111=-行列式)1(222112122211−=−=⚫二元正态分布的密度函数2211221122211122112222112212(1(,)exp22(1)1)fxxxxxx−−−−+−−=−−m元正态分布的性质1.每一个变量均服从正态分布。2.变量的线性组合服从正态分布。3.𝑚元正态分布中的任意𝑘(0𝑘𝑚)个变量服从𝑘元正态分布。4.𝑚元正态分布的条件分布仍服从正态分布。5.协方差为0的变量间相互独立。二元正态相关变量的参考值范围单变量正态分布参考值范围的确定双变量正态分布参考值范围的确定()()()()2)2(22222212211212112211=−+−−−−xxxx-ux=−()2)1(22=−x()22221122(2)21zzzz−+=-相关系数0,椭圆的长轴在过原点45度上相关系数0,椭圆的长轴在过原点135度上3均向量的统计推断多元分析的必要性1.某些特征常常用多个相关的变量来描述2.一元分析的缺点当变量较多时,重复进行一元分析会大大增加假阳性错误。一元分析结果不一致时,难以得到一个综合结论。忽略了变量间的相互关系。多元配对T检验两组个体,多个指标。1.检验假设000:000:32113210HH=2.检验统计量0102−−=−XVXnT3.Hotelling𝑇2的分布mnmFmnmnT−−−,2)1(~mnmFTmnmnF−−−,2~)1(=多元成组T检验1.检验假设::2121121210BABAHH=或00:00:2211122110−−−−BABABABAHH=2.检验统计量BABABABAXXVXXnnnnT−−+=−122)1()1(21−+−+−−+=BABBAABAnnVnVnSSnnV=3.Hotelling𝑇2的分布1,21)2(~−−+−−+−+mnnmBABABAFmnnmnnT1,2~)2(1−−+−+−−+mnnmBABABAFTmnnmnnF=成组设计设计资料的多元方差分析组内变异W(三组的离差矩阵之和)𝑾=𝑺𝑺𝐴+𝑺𝑺𝐵+𝑺𝑺𝑪总变异T(所有数据的离差阵)𝑻组间变异B𝑩=𝑻−𝑾多元分析的精髓是对SSCP矩阵的分解𝜦=|𝑾||𝑾+𝑩|⚫𝜦统计量的精确分布变量数(𝑚)不多,总体数(g)不多时,可导出统计量的精确分布。当变量数、总体数超过上述范围时,可以采用近似分布若𝐻0成立,且𝑛充分大时,Bartlett给出了近似卡方分布2(1)1()ln2mgnmg−−−+−→Rao给出了近似F分布变量数总体数𝜦的分布𝑚=1g≥2𝑛−gg−11−𝜦𝜦→𝐹g−1,𝑛−g𝑚=2g≥2𝑛−g−1g−11−𝜦𝜦→𝐹2(g−1),2(𝑛−g−1)𝑚≥1g=2𝑛−𝑚−1𝑚−11−𝜦𝜦→𝐹𝑚,𝑛−𝑚−1𝑚≥1g=3𝑛−𝑚−2𝑚1−𝜦𝜦→𝐹2𝑚,2(𝑛−𝑚−2)变量数总体数𝜦的分布𝑚=1g≥2𝑛−gg−11−𝜦𝜦→𝐹g−1,𝑛−g𝑚=2g≥2𝑛−g−1g−11−𝜦𝜦→𝐹2(g−1),2(𝑛−g−1)𝑚≥1g=2𝑛−𝑚−1𝑚−11−𝜦𝜦→𝐹𝑚,𝑛−𝑚−1𝑚≥1g=3𝑛−𝑚−2𝑚1−𝜦𝜦→𝐹2𝑚,2(𝑛−𝑚−2)''121/'21/',1'12'22222221142()25245ssTTTTTETTTFFmmmmmmsm−=→=++−−=+−−+−−=+−𝑣𝑇是处理的自由、𝑣𝐸是误差自由度SAS和SPSS软件中均采用Rao的方法。随机区组资料的多元方差分析处理SSSSSSEE+=析因设计资料的多元方差分析𝑺𝑺𝐴×𝐵=𝑺𝑺组间-𝑺𝑺𝐴-𝑺𝑺𝐵𝑺𝑺误差=𝑺𝑺𝑇-𝑺𝑺组间𝜦=|𝑺𝑺误差||𝑺𝑺处理+𝑺𝑺误差|𝜦𝐴×𝐵=|𝑺𝑺误差||𝑺𝑺𝐴×𝐵+𝑺𝑺误差|4多重线性回归多重线性回归模型简介⚫模型𝑦̂=𝑏0+𝑏1𝑥1+𝑏2𝑥2+⋯+𝑏𝑚𝑥𝑚𝑦𝑖=𝑦̂𝑖+𝑒𝑖=𝑏0+𝑏1𝑥1𝑖+𝑏2𝑥2𝑖+⋯+𝑏𝑚𝑥𝑚𝑖+𝑒𝑖𝑏0为截距,又称常数项,表示各自变量均为0时𝑦的估计值。𝑏𝑖称为偏回归系数,简称回归系数,表示其他自变量不变时,𝑥𝑖每改变一个单位,𝑦估计值的变化量。𝑦̂称为𝑦的估计值或预测值。𝑒𝑖为残差,表示不能由现有自变量决定的部分。⚫回归模型的应用条件1.自变量与因变量的关系是线性的(Linear)2.𝐶𝑜𝑣(𝑒𝑖,𝑒𝑗)=0,即独立性(Independence)3.𝑒𝑖~𝑁(0,2),即正态性(Normality)4.𝑉𝑎𝑟(𝑒𝑖)=2,即方差齐性(Equalvariance)⚫回归方程的矩阵形式𝒀=𝑿𝑩+𝑬=𝒀̂+𝑬121=nnyyyY)1(1212111111+=mnmnnmmxxxxxxX1)1(10+=mmbbbB121=nneeeE回归系数的估计基本思想:最小二乘法,要求残差平方和𝑄=∑(𝑦𝑖−𝑦̂𝑖)2𝑛𝑖=1=∑[𝑦𝑖−(𝑏0+𝑏1𝑥1+𝑏2𝑥2+⋯+𝑏𝑚𝑥𝑚)]2𝑛𝑖=1最小。正规方程:𝑿′𝑿𝑩=𝑿′𝒀⚫矩阵计算法𝑩=(𝑿′𝑿)−𝟏𝑿′𝒀⚫消去变换法(P37)消去变换求回归系数的估计值的做法是:对𝑥1,𝑥2,⋯,𝑥𝑚,𝑦的离差矩阵(𝑙𝑖𝑗)(𝑚+1)(𝑚+1)分别(1,1),(2,2),⋯,(𝑚,𝑚)为主元作消去变换,所得矩阵中,最后一列的前𝑚个元素就是对应于各自变量的回归系数的估计值。方程的假设检验⚫𝑦的总变异分解总变异:𝑙𝑦𝑦=∑(𝑌−𝑌̄)2未引进回归时的总变异回归贡献:𝑈=∑(𝑌∧−𝑌)2回归的贡献,回归平方和剩余变异:𝑄=∑(𝑌−𝑌∧)2引进回归以后的变异𝑙𝑦𝑦=𝑄+𝑈⚫回归方程的方差分析变异来源SS自由度MSF总𝑙𝑦𝑦𝑛−1𝑛−𝑚−1𝑚𝑈𝑄回归𝑈𝑚𝑈/𝑚剩余𝑄𝑛−𝑚−1𝑄/(𝑛−𝑚−1)决定系数与剩余标准差⚫决定系数𝑅2=𝑈𝑙𝑦𝑦=1−𝑄𝑙𝑦𝑦𝑅2可用于检验多元回归方程。𝐹=𝑅21−𝑅2𝑛−𝑚−1𝑚~𝐹(𝑚,𝑛−𝑚−1)⚫复相关系数𝑅=√𝑈𝑙𝑦𝑦=√1−𝑄𝑙𝑦𝑦复相关系数只反映因变量与自变量间的密切程度,而不反映相关的方向。复相关系数的性质1.0≤𝑅≤1。2.当只有一个因变量𝑦与一个自变量𝑥时,𝑅就等于𝑦与𝑥的简单相关系数之绝对值。𝑅=|𝑟𝑦𝑥|3.当有多个自变量,𝑅的值比任何一个自变量与因变量的简单相关系数之绝对值大,即𝑅≥𝑚𝑎𝑥{|𝑟𝑦𝑥1|,|𝑟𝑦𝑥2|,⋯,|𝑟𝑦𝑥𝑚|}⚫剩余标准差(即残差之标准差)𝑠𝑦•12⋯𝑚=√𝑄𝑛−𝑚−1,其中𝑄=∑(𝑦𝑖−𝑦̂𝑖)2𝑛𝑖=1剩余标准差主要反映回归方程的估计精度。其值越小说明回归效果越好。偏回归系数的假设检验与区间估计𝐻0:𝑖=0,𝐻1:𝑖≠0。𝑡𝑖=𝑏𝑖𝑠𝑏𝑖~𝑡(𝑛−𝑚−1)其中𝑠𝑏𝑖=𝑠𝑦•12⋯𝑚√𝑐𝑖𝑖𝑐𝑖𝑖是矩阵(𝑿′𝑿)−1对角线上对应于𝑥𝑖的元素。⚫偏回归系数的比较𝐻0:𝑖=𝑗,𝐻1:𝑖≠𝑗。𝑡=𝑏𝑖−𝑏𝑗𝑠𝑏𝑖−𝑏𝑗=𝑏𝑖−𝑏𝑗𝑠𝑦•12⋯𝑚√𝑐𝑖𝑖+𝑐𝑗𝑗−2𝑐𝑖𝑗~𝑡(𝑛−𝑚−1)标准偏回归系数与自变量的贡献⚫标准偏回归系数𝑏𝑖′=𝑏𝑖√𝑙𝑖𝑖𝑙𝑦𝑦=𝑏𝑖𝑠𝑖𝑠𝑦⚫自变量作用的分解𝑥𝑖对𝑦的直接作用=𝑏𝑖′𝑥
本文标题:医学多元统计分析方法总结
链接地址:https://www.777doc.com/doc-4139385 .html