您好,欢迎访问三七文档
基础部数学教研室第10章多元分析数学建模算法与应用信息与计算科学系3数学建模多元分析(multivariateanalysis)是多变量的统计分析方法,是数理统计中应用广泛的一个重要分支。信息与计算科学系4数学建模10.1聚类分析将认识对象进行分类是人类认识世界的一种重要方法。事实上,分门别类地对事物进行研究,要远比在一个混杂多变的集合中研究更清晰、明了和细致,这是因为同一类事物会具有更多的近似特性。信息与计算科学系5数学建模分类数据库ETH80数据库信息与计算科学系6数学建模通常,人们可以凭经验和专业知识来实现分类。而聚类分析(clusteranalysis)作为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。信息与计算科学系7数学建模聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析;对指标进行分类称为R型聚类分析。信息与计算科学系8数学建模10.1.1Q型聚类分析10.1.1.1样本的相似性度量要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用p个变量描述,则每个样本点可以看成是pR空间中的一个点。因此,很自然地想到可以用距离来度量样本点间的相似程度。信息与计算科学系9数学建模记是样本点集,距离(,)d是R的一个函数,满足条件(1)(,)0dxy,,xy;(2)(,)0dxy当且仅当xy;(3)(,)(,)dxydyx,,xy;(4)(,)(,)(,)dxydxzdzy,,,xyz。这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。信息与计算科学系10数学建模在聚类分析中,对于定量变量,最常用的是Minkowski距离11(,)pqqqkkkdxyxy,0q,当1,2q或q时,则分别得到(1)绝对值距离11(,)pkkkdxyxy,(10.1)信息与计算科学系11数学建模(2)欧氏距离12221(,)pkkkdxyxy,(10.2)(3)Chebyshev距离1(,)maxkkkpdxyxy.(10.3)在Minkowski距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。信息与计算科学系12数学建模值得注意的是在采用Minkowski距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离。在采用Minkowski距离时,还应尽可能地避免变量的多重相关性(multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。由于Minkowski距离的这些缺点,一种改进的距离就是马氏距离,定义如下信息与计算科学系13数学建模(4)马氏(Mahalanobis)距离1(,)()()Tdxyxyxy,(10.4)其中,xy为来自p维总体Z的样本观测值,为Z的协方差矩阵,实际中往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。信息与计算科学系14数学建模10.1.1.2类与类间的相似性度量如果有两个样本类1G和2G,可以用下面的一系列方法度量它们间的距离(1)最短距离法(nearestneighbororsinglelinkagemethod)1212(,)min{(,)}ijijxGyGDGGdxy,(10.5)它的直观意义为两个类中最近两点间的距离。信息与计算科学系15数学建模(2)最长距离法(farthestneighbororcompletelinkagemethod)1212(,)max{(,)}ijijxGyGDGGdxy,(10.6)它的直观意义为两个类中最远两点间的距离。信息与计算科学系16数学建模(3)重心法(centroidmethod)12(,)(,)DGGdxy,(10.7)其中,xy分别为12,GG的重心。信息与计算科学系17数学建模(4)类平均法(groupaveragemethod)1212121(,)(,)ijijxGxGDGGdxxnn,(10.8)它等于12,GG中两两样本点距离的平均,式中12,nn分别为12,GG中的样本点个数。信息与计算科学系18数学建模10.1.1.3聚类图Q型聚类结果可由一个聚类图展示出来。例如,在平面上有7个点127,,,(如图10.1(a)),可以用聚类图(如图10.1(b))来表示聚类结果。图1聚类方法示意图信息与计算科学系19数学建模记127{,,,},聚类结果如下:当距离值为5f时,分为一类11234567{,,,,,,}G;当距离值为4f分为两类1123{,,}G,24567{,,,}G;当距离值为3f分为三类1123{,,}G,2456{,,}G,37{}Gw;信息与计算科学系20数学建模当距离值为2f分为四类1123{,,}G,245{,}Gww,36{}Gw,47{}Gw当距离值为1f分为六类145{,}Gww,21{}Gw,32{}Gw,43{}Gw,56{}Gw,67{}Gw当距离小于1f分为七类,每一个点自成一类。信息与计算科学系21数学建模10.1.1.4最短距离法的聚类举例如果使用最短距离法来测量类与类之间的距离,即称其为系统聚类法中的最短距离法(又称最近邻法)。信息与计算科学系22数学建模10.1.1.5Matlab聚类分析的相关命令Matlab中聚类分析相关命令的使用说明如下。(1)pdistY=pdist(X)计算mn矩阵X(看作m个n维行向量)中两两对象间的欧氏距离。对于有m个对象组成的数据集,共有(1)/2mm个两两对象组合。输出Y是包含距离信息的长度为(1)/2mm的向量。可用squareform函数将此向量转换为方阵,这样可使矩阵中的元素(i,j)对应原始数据集中对象i和j间的距离。信息与计算科学系23数学建模Y=pdist(X,’metric’)中用’metric’指定的方法计算矩阵X中对象间的距离。’metric’可取表10.2中特征字符串值。表10.2’metric’取值及含义字符串含义'euclidean'欧氏距离(缺省)'seuclidean'标准欧氏距离'cityblock'绝对值距离'minkowski'闵氏距离(Minkowski距离)'chebychev'车比雪夫距离(Chebychev距离)'mahalanobis'马氏距离(Mahalanobis距离)'hamming'海明距离(Hamming距离)信息与计算科学系24数学建模表10.2’metric’取值及含义字符串含义customdistancefunction自定义函数距离'cosine'1-两个向量夹角的余弦'correlation'1-样本的相关系数'spearman'1-样本的Spearman秩相关系数'jaccard'1-Jaccard系数Y=pdist(X,’minkowski’,p)用闵氏距离计算矩阵X中对象间的距离。p为闵氏距离计算用到的指数值,缺省为2。信息与计算科学系25数学建模(2)linkageZ=linkage(Y)使用最短距离算法生成具层次结构的聚类树。输入矩阵Y为pdist函数输出的(1)/2mm维距离行向量。Z=linkage(Y,'method')使用由'method'指定的算法计算生成聚类树。'method'可取表10.3中特征字符串值。信息与计算科学系26数学建模表10.3’method’取值及含义字符串含义'single'最短距离(缺省)'average'无权平均距离'centroid'重心距离'complete'最大距离'median'赋权重心距离'ward'离差平方和方法(Ward方法)'weighted'赋权平均距离信息与计算科学系27数学建模(3)clusterT=cluster(Z,'cutoff',c)从连接输出(linkage)中创建聚类。cutoff为定义cluster函数如何生成聚类的阈值,其不同的值含义如表10.4所示。信息与计算科学系28数学建模表10.4cutoff取值及含义cutoff取值含义0cutoff2cutoff作为不一致系数的阈值。不一致系数对聚类树中对象间的差异进行了量化。如果一个连接的不一致系数大于阈值,则cluster函数将其作为聚类分组的边界。2=cutoffcutoff作为包含在聚类树中的最大分类数信息与计算科学系29数学建模(4)zsore(X)对数据矩阵进行标准化处理,处理方式为ijjijjxxxs,其中,jjxs是矩阵()ijmnXx每一列的均值和标准差。(5)H=dendrogram(Z,P)由linkage产生的数据矩阵Z画聚类树状图。P是结点数,默认值是30。信息与计算科学系30数学建模(6)T=clusterdata(X,cutoff)将矩阵X的数据分类。X为mn矩阵,被看作m个n维行向量。它与以下几个命令等价Y=pdist(X)Z=linkage(Y,’single’)T=cluster(Z,cutoff)(7)squareform将pdist的输出转换为方阵。信息与计算科学系31数学建模一、利用clusterdata函数对数据样本进行一次聚类,这个方法简洁方便,其特点是使用范围较窄,不能由用户根据自身需要来设定参数,更改距离计算方法;二、步聚类:(1)用pdist函数计算变量之间的距离,找到数据集合中两变量之间的相似性和非相似性;(2)用linkage函数定义变量之间的连接;(3)用cophenet函数评价聚类信息(如何使用不同的距离度量方法?);(4)用cluster函数进行聚类。MATLAB两种聚类分析方法信息与计算科学系32数学建模例10.1设有5个销售员12345,,,,,他们的销售业绩由二维变量12(,)vv描述,见表10.1。表10.1销售员业绩表销售员1v(销售量)百件2v(回收款项)万元1w102w113w324w435w25信息与计算科学系33数学建模记销售员(1,2,3,4,5)iwi的销售业绩为12(,)iivv。如果使用绝对值距离来测量点与点之间的距离,使用最短距离法来测量类与类之间的距离,即21(,)ijikjkkdwwvv,(,)min{(,)}ipjqpqijwGwGDGGdww.信息与计算科学系34数学建模由距离公式(,)d,可以算出距离矩阵。1234512345014660355024040.信息与计算科学系35数学建模第一步,所有的元素自成一类112345{,,,,}H。每一个类的平台高度为零,即()0(1,2,3,4,5)ifwi。显然,这时(,)(,)pqpqDGGdww。第二步,取新类的平台高度为1,把12,ww合成一个新类6h,此时的分类情况是26345{,,,}Hh信息与计算科学系36数学建模第三步,取新类的平台高度为2,把34,ww合成一个新类7h,此时的分类情况是3675{,,}Hhhw第四步,取新类的平台高度为3,把67,hh合成一个新类8h,此时的分类情况是485{,}Hhw信息与计算科学系37数学建模第五步,取新类的平台高度为4,把8h和5w合成一个新类9h,此时的分类情况是59{}Hh图10.2最短距离法这样,9h已把所有的样本点聚为一类,因此,可以转到画聚类图步骤。画出聚类图(如图10.2(a))。这是一颗二叉树,如图10.2(b)。信息与计算科学系38数学建模信息
本文标题:第16讲多元分析
链接地址:https://www.777doc.com/doc-2153722 .html