您好,欢迎访问三七文档
统计分类陶庄中国CDC卫生统计研究室类的定义类是相似物体的集合。较好的类不好的类好类的定义同质性:同一类内中的元素,其相似性应尽可能高;差异性:不同类中的元素间的差异性应尽可能大。对异同的度量原始矩阵pnnpnnppijsssssssssS212222111211相似(异)性矩阵nnnnnnnnijdddddddddD212222111211对异同度量的指标对差异的度量:距离;对相似性的度量:相似系数。距离距离矩阵nnnnnnijddddddD000212211127种距离(1)2/1121)2(Euclidean2)1(1pkjkikijpkjkikijxxdxxd)距离:欧式(绝对值距离:7种距离(2)qpkjkikijjkikijxxdxxd/11qpk1)q(Minkowski4)(Chebychev3max)距离:明式()距离:切比雪夫(方差不齐时距离判别示意图7种距离(3)pkjkikjkikijjiTjiijxxxxpdXXXXMdsMahalanobi111)L(Lanberra6)(5)距离:兰式()距离:马氏(7种距离(4):取值一致的指标数。:所有指标数,配合距离:mppmdij7相似系数相似矩阵nnnnnnijrrrrrrR11121221112方差和协方差矩阵(COV)mmmmmmnkjjkiikijnkiikiijjiijiijvvvvvvvvvVnxxxxvnxxvEXXEXXEXXCovV2122221112111121,1,则存在协方差矩阵:即:离均差平方和与离均差积和矩阵(SSCP)mmmmmmnkjjkiikijnkiikiissssssssssssssssssSSxxxxvxxvVnSS212222111211112,1则存在离差阵:即:相关系数矩阵(CORR)111,21221112mmmmjijiijrrrrrrRDXDXXXCovR则存在相关系数矩阵:常见的相似系数指数相似系数列联系数夹角余弦…距离与相似系数在分类中的使用距离最小合并;相似系数最大合并;“相似系数距离”:d=1-|r|用于分类的指标人不可貌像——指标的选取比统计算法更重要ArmandDavid(1826-1900)争论!又是争论!熊?浣熊?按骨架分析,它更像浣熊;它不像其它熊那样冬眠;雄性生殖器很短且反向,与浣熊相同;不会像熊那样吼叫,却像浣熊一样小声叫;但是,它实在比浣熊大太多了…EdwinColbert(1905-2001)支持熊科的人,以及认为是浣熊科的人,还有中间派对于这个问题进行了多年的探索,也发展了一些逻辑清晰的观点,而与此同时,大熊猫正安祥地生活在中国四川的深山老林中,却从来没有想到过由于它作为一个大熊猫而引起的动物学争论。—1938棕熊北极熊黑熊眼睛熊大猫熊浣熊小猫熊基于DNA的分析研究分类的两类方法有指导的学习(supervisedlearning)无指导的学习(unsupervisedlearning)判别分析判别的一般步骤训练样本:一定数量的已知实际类别且各指标的观测值均齐全的样品。建立判别函数:参数估计和假设检验。对待判样品的评判。设有X1,X2,…,Xm共m个指标,要在A,B两类间进行判别,两类分别收集nA和nB个训练样本。编号A类编号B类X1X2…XmX1X2…Xm1X11X12…X1m1X11X12…X1m2X21X22…Xm22X21X22…Xm2::::::::::nAXnA1XnA2…XnAmnBXnB1XnB2…XnBm均数X1AX2A…XmAX1BX2B…XmB距离判别距离判别例解目标:判别国家的发展水平类别:A类—发达国家;B类—发展中国家指标:X1—出生时期望寿命,X2—成人识字率训练样本:nA=5,nB=5例-公式211')(1BABBAAWWjiWjiijnnVnVnVVXXVXXMdsMahalanobi权合并矩阵:是两类协方差矩阵的加)距离:使用马氏(例-指标类别序号国家名称期望寿命成人识字率第一类发达国家1美国76.099.02日本79.599.03瑞士78.099.04阿根廷72.195.95阿联酋73.877.7第二类发展中国家6保加利亚71.293.07古巴75.394.98巴拉圭70.091.29格鲁吉亚72.899.010南非62.980.6待判11中国68.579.312罗马尼亚69.996.913希腊77.693.814哥伦比亚69.390.3X1X2G例-均向量和协方差矩阵计算027810.0039261.0039261.0120447.06125.667130.217130.213800.151680.474205.294205.297030.2174.9144.70:0570.860055.140055.140570.912.9488.75:112121211WWVVVxxGVxxG均向量与协方差矩阵:例-距离计算74.9144.70027810.0039261.0039261.0120447.074.91,44.70)2(12.9488.75027810.0039261.0039261.0120447.012.94,88.75)1('212121211xxxxdxxxxdXXXXdiijijiij:各样品到第二类的距离:各样品到第一类的距离例-判别类别序号国家名称d(1)d(2)判别结果第一类发达国家1美国0.61802.019612日本0.85356.187713瑞士0.39134.040014阿根廷2.33740.270925阿联酋5.337210.54591第二类发展中国家6保加利亚2.26140.038527古巴0.09301.916718巴拉圭3.05330.012829格鲁吉亚2.98510.7913210南非11.59653.70332待判11中国4.07992.8619212罗马尼亚5.82750.9944213希腊0.40245.1346114哥伦比亚3.64700.08532距离判别先计算各类的中心(通常是各指标的均向量);再将各点(包括待判点)与类中心计算距离;分类于距离较近的类中;一般不进行检验。Fisher’s准则两类判别设有X1,X2,…,Xm共m个指标,要在A,B两类间进行判别,两类分别收集nA和nB个训练样本。编号A类编号B类X1X2…XmX1X2…Xm1X11X12…X1m1X11X12…X1m2X21X22…Xm22X21X22…Xm2::::::::::nAXnA1XnA2…XnAmnBXnB1XnB2…XnBm均数X1AX2A…XmAX1BX2B…XmB建立判别函数mmXCXCXCY2211求解系数CmBXAXCwCwCwBXAXCwCwCwBXAXCwCwCwmmmmmmmmmmm2211222222121111212111::::::::::求解wij(1)VnSSvvvvvvvvvVmmmmmm)1(212222111211则离差阵:存在协方差矩阵:求解wij(2).)()()()()()()()()()()()()()()()()()(212222111211212222111211组内变异阵可称为WBSSASSWBssBssBssBssBssBssBssBssBssBSSAssAssAssAssAssAssAssAssAssASSmmmmmmmmmmmm建立判别函数界值BABACCmmmmnnBYnAYnYBYAYYBXCBXCBXCBYAXCAXCAXCAY222112211判别如YAYB,那么:–若YYc,属于A类;–若YYc,属于B类;–若Y=Yc,暂不判断或皆可。显著性检验(1).212221212111可称为组间变异阵可称为总变异阵,新阵:构建由两类数据合并的BTWTBtttttttttTmmmmmm显著性检验(2).11,,)1,(mmNUUFFnnNWBWTWUUWilksmNmBA检验:进行:统计量计算显著性检验(3).5)1(4)1(,22)1(5)1(4)1(21'),1(',''1..222222222121/1/1gmgmsgmgmgmgmngmUUFFRaoRCss其中:检验:的更广义的,使用训练样本的回代原分类现分类AB合计Aaba+bBcdc+d合计a+cb+dnFisher’判别例解目标:判别医院的工作水平类别:A类—好;B类—差指标:X1—床位使用率,X2—治愈率,X3—诊断指数训练样本:nA=11,nB=9例—A类医院编号x1x2x3198.8285.4993.18285.3779.1099.65389.6480.6496.94473.0886.8298.70578.7380.4497.616103.4480.4093.75791.9980.7793.93887.5082.5084.10981.8288.4597.901073.1382.9492.121186.1983.5593.90例—B类医院编号x1x2x3172.4878.1272.38258.8186.2083.46372.4884.8784.09490.5682.0787.15573.7366.6363.98672.7987.5987.15774.2763.9165.54893.6285.8989.80978.6977.0176.79例—两类医院均数A类医院B类医院X186.337376.3811X282.827379.1433x394.707378.9267例—SS(A),SS(B)7168.7506582.6302566.6022045.2635352.451137.867)(6898.1871009.67177.1047890.896700.859560.921)(BSSASS例—W及均数差7806.15)()(6840.3)()(9562.9)()(109384.06368.01585.06920.00401.07891.13322113BXAXBXAXBXAXW例—求解方程组0341.00259.00020.07806.154.9388.6365.1586840.38.6360.6921.409562.95.1581.401.1789321321321321CCCCCCCCCCCC例—判别函数和界值0488.1)()(0257.12)(
本文标题:统计分类
链接地址:https://www.777doc.com/doc-3738893 .html