您好,欢迎访问三七文档
模式识别与分类导言数据预处理无监督方法有监督方法本章作业模式识别与分类导言•Clustering/Classification统称•如下问题人眼识别物中医看舌苔/脉搏图谱辨别化合物•低维与高维数据•一次观察的矢量表示tnxxx21xn为空间维数,变量数变量即特征各特征类型/量纲/大小相差大模式识别与分类数据预处理•值域调整rangescalingmin,max,min,*kkkikikxxxxx10*ikx•自标度化Autoscalingkkikiksxxx*均值0方差1模长1n模式识别与分类数据预处理•标准化Normalizationkikikxxx*模长为1niikikikxxx1*色谱面积归1)max(*ikikikxxx质谱最大为1模式识别与分类数据预处理•变换法ikikxx*原变量相加/减/除等ikikxxlg*•组合法模式识别与分类数据预处理•特征的选择偏差权重法s大的变量更重要Fisher比率法F大的变量更重要21221iiiiissxxF模式识别与分类数据预处理•协方差矩阵C与相关矩阵R对于)(pnXn为对象数,p为特征数方差j=1,…,p21211nijijijxxnsnikikjijxxxxnkj111),cov(协方差j,k=1,…,p;j≠k模式识别与分类数据预处理方差-协方差矩阵,简称协方差矩阵如下:2222211)2,cov()1,cov(),2cov()1,2cov(),1cov()2,1cov(ppspppspsC对称矩阵模式识别与分类数据预处理相关矩阵如下:11121212112pppprrrrrrR其中ikijjksskjr),cov(但对于Autoscaling后的数据,s=1。C即为R。模式识别与分类主成分分析PCA因子分析FA聚类分析clustering无监督方法模式识别与分类PCATTLX得分score载荷loadingd为主成分数模式识别与分类PCA投影判别法XLT数据重构组成互不相关的新变量取较少的主成分数(常为2),完成分类-1.5-0.50.51.52.5-3-2-10123258491367模式识别与分类PCA实例1不同嫌疑人头发中元素的含量(μg/g)样品CuMnClBrI19.20.30173012.03.6212.40.3993050.02.337.20.32275065.33.4410.20.3615003.45.3510.10.50104039.21.966.50.20249090.04.675.60.29294088.05.6811.80.4286743.11.598.50.2516205.26.2原始数据X(9×5)autoscaling计算相关矩阵计算特征值返回模式识别与分类方差百分数主成分数的确定piidiies112指定,如90%相应的d2esPCA实例1头发样品中的特征值与方差成分数特征值λ方差%累计方差%13.35267.0567.0521.18223.6590.7030.2855.7096.4040.1352.7099.1050.0450.90100.00特征值1对于相关矩阵,λ1的成分为主成分ppii1Scree检验nPC在2-3间斜率下降因此d=2合适01234012345nPCλ模式识别与分类得分图主成分图形解释PCA实例1-1.5-0.50.51.52.5-3-2-10123t1t2258491367-1.5-0.50.51.52.5-3-2-10123t1t22584913673个聚类分属三人t1对t2作图t1最重要模式识别与分类主成分图形解释PCA实例1载荷图-1-0.8-0.6-0.4-0.200.20.40.60.8-0.6-0.4-0.200.20.40.6l1l2CuMnBrClIl1对l2作图特征在主成分上的投影各变量的相关信息夹角越小,相关性越高高度相关的特征取1即可载荷大小是重要性的度量位于原点的载荷不重要金属间的相关性大于卤素间的Cu与Cl反性相关l1最重要,距原点距离越大,该特征权重越大,Cu模式识别与分类主成分图形解释PCA实例1相似系数或相关系数表CuCu1.000MnMn0.6971.000ClCl-0.950-0.6921.000BrBr-0.530-0.2330.5881.000I-0.645-0.7490.581-0.084相似系数))((cos12121nkkjknkkiknkkjkikijxxxx相关系数])(][)([))((21211nkkjjknkkiiknkkjjkiikijxxxxxxxxrBr/I接近正交Cu/Cl负相关1:完全相同0:完全正交自标度化的数据cosα=r模式识别与分类得分图主成分图形解释PCA实例1-1.5-0.50.51.52.5-3-2-10123t1t2258491367特征的选择5个全取-1012-2-1012t1t2取Cu/Br/I仍能分类效果略差-1-0.500.51-2-1012t1t2取Cu/Mn/Cl分类效果差l2无效果-0.10.1-2-10123个λ,仅1个12.57,0.38,0.05一维投影结果原始数据模式识别与分类主成分图形解释PCA实例1双重图biplot-1012-2.5-1.5-0.50.51.52.5149825167BrClICuMnt1各元素均有贡献t2由Br和I表征Cu/Mn/Cl/I将对象聚为2组Br将对象聚为另2组模式识别与分类PCA实例1应用示例烟叶硅烷化色谱•辽宁凤城烟叶不同部位烟叶的区分下部上部中部indoutd/outindd上部与中部0.01340.20519.1上部与下部0.00800.38579.6中部与下部0.00170.58978.1模式识别与分类FAEFLXT用少数几个通用因子描述矩阵中的特征抽象因子需经旋转变换成实因子TTFAF包含d个因子的特征参数,各因子对应1个起因L与对应因子相关的载荷分数E由剩余p-d个和通用因子无关的特殊因子构成,如噪声因子模式识别与分类FATFLX目标转换因子分析TargetTransformationFA*T1TLLL)(LT变换矩阵*LLT抽象载荷目标LTLˆ预测目标均值相对偏差relativedeviation估计两者的一致性pjjpjjjlllrd1*1*ˆ模式识别与分类FA实例TTFA2452652853053256.47.814.833.370.941.786.584.3352.6956.112.8920.736.6161.5899.30108.4326.9239.036.7173.3377.8997.2639.3728.676.8274.763.9282.1647.1520.066.9218.9236.9539.8225.5810.497.079.0412.0710.586.543.23HPLC-DAD数据(mA)tR/minwavelength/nm6.46.66.87.0245285325050100150200250300多环芳烃HPLC-DAD数据有3个重要因子模式识别与分类多环芳烃HPLC-DAD数据*XFTL-1.476-1.307-1.295-1.285-1.174-0.6400.088-0.017-0.5810.2220.2051.4471.2500.2441.5710.3340.8230.9800.9770.8071.4420.4160.6141.4350.1730.832-0.371-0.4120.165-0.532-0.697-1.096-1.120-0.955-1.067-2.904-0.3400.210-0.370-0.815-0.0662.178-1.192-0.2481.783-0.1700.3831.7581.2690.121-0.2191.074-0.329-2.2270.174-0.0710.3850.4730.4840.4400.4470.662-0.309-0.2110.455-0.464-0.628-0.1920.2180.699-0.181FA实例TTFA已知4物的纯光谱但仅3个主因子F补一列1111111模式识别与分类多环芳烃HPLC-DAD数据FA实例TTFA*T1TLLL)(LT111.2112.6282.128038.287.276.42.2552.569.412.21110.633.25.11.314.7256.95.5*L283.331545.91126.4-58.497102.72120.36217.71172.223.665-106.13-223.13-169.66-63.573-628.81-435.2476.663LTLˆ111.23112.88282.74274.6138.03685.85873.30428.34552.66370.73415.276-24.929110.5432.7193.991310.64514.72625.2127.38911.377B[k]FB[b]F苝蒽B[k]FB[b]F苝蒽245111.2112.6282.1280111.2112.9282.7274.626538.287.276.42.2538.085.973.328.328652.569.412.2152.770.715.3-24.9305110.633.25.11.3110.532.74.010.632514.7256.95.514.725.27.41.4KnownPredicted0100200300240260280300320wavelength/nmabsorbance/mA-5050150250240260280300320wavelength/nmabsorbance/mA存在不存在模式识别与分类聚类分析无监督学习方法根据相似性度量,物以类聚分类方法是把未知对象分配到已存在类中聚类分析步骤n个样本n类计算距离最近的2类合并继续合并最近的2类经n-1次合并最后成1类模式识别与分类聚类分析距离与相似性度量的方法明氏Minkowski距离pKkpjkikijxxd11欧氏Euclidean距离2p曼哈顿Manhattan距离city-block距离1p模式识别与分类聚类分析距离与相似性度量的方法马氏Mahalanobis距离)()(12jiTjiijDxxCxx基于协方差矩阵C的向量运算基于马氏距离的相似性量度)max(1ijijijddS完全相似Sij=1完全不相似Sij=0马氏距离可避免特征向量的相关性引起的失真无需对数据进行调整模式识别与分类聚类分析实例6个血清样本的分级聚类mg/100ml对象钙磷酸盐18.005.5028.255.7538.706.30410.003.00510.254.0069.753.50血清样本的钙和磷酸盐浓度对象12345610.00020.3540.00031.6030.7110.00043.2023.2603.3470.00052.7042.6582.7741.0310.00062.6582.7042.9900.5590.7070.000第一次距离对象1、2距离最短,聚为新对象1*设其距离为0与其余各对象用平均法或新距离221*1iiiddd模式识别与分类聚类分析实例6个血清样本的分级聚类对象1*345610.00030.8870.00043.2313.3470.00052.6812.7741.0310.00062.6812.9900.5590.7070.000第二次距离4,6并4*对象1*34*51*0.00030.8870.0004*2.9563.1690.00052.6812.7740.8690.000第三次
本文标题:模式识别与分类
链接地址:https://www.777doc.com/doc-3353549 .html