您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 厦门大学《应用多元统计分析》第10章-多维标度法
第十章多维标度法第一节引言第二节古典多维标度法(ClassicalMDS)第三节权重多维标度(WMDS)第四节实例分析与计算实现第一节引言在实际中我们会经常遇到这些的问题,给你一组城市,你总能从地图上测出任何一对城市之间的距离。但若给你若干城市的距离,你能否确定这些城市之间的相对位置呢?假定你知道只是哪两个城市最近,哪两个城市次近等等,你是否还能确定它们之间的相对位置呢?假定通过调查了解了10种饮料产品在消费者心中的相似程度,你能否确定这些产品在消费者心理空间中的相对位置呢?在实际中我们常常会遇到类似这样的问题。多维标度法(MultidimensionalScaling)就是解决这类问题的一种方法,它是一种在低维空间展示“距离”数据结构的多元数据分析技术,简称MDS。多维标度法起源于心理测度学,用于理解人们判断的相似性。Torgerson拓展了Richardson及Klingberg等人在三、四十年代的研究,具有突破性地提出了多维标度法,后经Shepard和Kruskal等人进一步加以发展完善。多维标度法现在已经成为一种广泛用于心理学、市场调查、社会学、物理学、政治科学及生物学等领域的数据分析方法。多维标度法解决的问题是:当n个对象(object)中各对对象之间的相似性(或距离)给定时,确定这些对象在低维空间中的表示(感知图PerceptualMapping),并使其尽可能与原先的相似性(或距离)“大体匹配”,使得由降维所引起的任何变形达到最小。多维空间中排列的每一个点代表一个对象,因此点间的距离与对象间的相似性高度相关。也就是说,两个相似的对象由多维空间中两个距离相近的点表示,而两个不相似的对象则由多维空间两个距离较远的点表示。多维空间通常为二维或三维的欧氏空间,但也可以是非欧氏三维以上空间。多维标度法内容丰富、方法较多。按相似性(距离)数据测量尺度的不同MDS可分为:度量MDS和非度量MDS。当利用原始相似性(距离)的实际数值为间隔尺度和比率尺度时称为度量MDS(metricMDS),当利用原始相似性(距离)的等级顺序(即有序尺度)而非实际数值时称为非度量MDS(nonmetricMDS)。按相似性(距离)矩阵的个数和MDS模型的性质MDS可分为:古典多维标度CMDS(一个矩阵,无权重模型)、重复多维标度ReplicatedMDS(几个矩阵,无权重模型)、权重多维标度WMDS(几个矩阵,权重模型)。本章仅介绍常用的古典多维标度法和权重多维标度法。第二节古典多维标度法(ClassicalMDS)一相似与距离的概念二古典多维标度分析的思想及方法三度量MDS的古典解四非度量MDS的古典解(nonmetricMDS)首先我们提出这样一个问题,表10.1是美国十城市之间的飞行距离,我们如何在平面坐标上据此标出这10城市之间的相对位置,使之尽可能接近表中的距离数据呢?表10.1美国10城市间的飞行距离1=Atlanta,2=Chicago,3=Denver,4=Houston,5=LosAngeles6=Miami,7=NewYork,8=SanFrancisco,9=Seattle,10=Washington.DC12345678910123456789100587121270119366047482139218254358709209401745118871318581737597121292008798311726163194910211494701940879013749681420164518911220193617458311374023392451347959230060411881726968233901092259427349237487131631142024511092025712408205213918589491645347259425710678244221821737102118919592734240867802329543597149412202300923205244223290一、相似与距离的概念在解决上述问题之前,我们首先明确与多维标度法相关的数据概念。1.相似数据与不相似数据相似数据:如果用较大的数据表示非常相似,用较小的数据表示非常不相似,则数据为相似数据。如用10表示两种饮料非常相似,用1表示两种饮料非常不相似。不相似数据:如果用较大的数值表示非常不相似,较小的数值表示非常相似,则数据为不相似数据,也称距离数据。如用10表示两种饮料非常不相似,用1表示两种饮料非常相似。2.距离阵定义10.1一个nn阶的矩阵D=(dij)nn,如果满足条件:(1)DD(2)0,0,,1,2,,ijiiddijn则矩阵D为广义距离阵,ijd称为第i点与第j点间的距离。定义10.2对于一个nn的距离阵()ijnndD,如果存在某个正整数r和rR中的n个点12,,,nXXX,使得2()(),1,2,,ijijijdXXXXijn则称D为欧氏距离阵3.相似系数阵定义10.3一个nn阶的矩阵()ijnncC,如果满足条件:(1)CC(2),1,2,,ijiiccijn则矩阵C为相似系数阵,ijc称为第i点与第j点间的相似系数。在进行多维标度分析时,如果数据是多个分析变量的原始数据,则要根据聚类分析中介绍的方法,计算分析对象间的相似测度;如果数据不是广义距离阵,要通过一定的方法将其转换成广义距离阵才能进行多维标度分析。二、古典多维标度分析的思想及方法设r维空间中的n个点表示为12,,,nXXX,用矩阵表示为12(,,,)nXXXX。在多维标度法中,我们称X为距离阵D的一个拟合构图,求得的n个点之间的距离阵ˆD称为D的拟合距离阵,ˆD和D尽可能接近。如果ˆDD,则称X为D的一个构图。我们假设有n个城市对应欧氏空间的n个点,其距离阵为D,它们所对应的空间的维数为r,第i个城市对应的点记为iX,则iX的坐标记作12(,,,)iiiirXXXX。设()ijnnbB,其中:2222211111111()2nnnnijijijijijjiijbddddnnn2ijd为i城市与j城市之间的距离。那么,如果一个n×n的距离阵D是欧氏距离阵的充要条件是0B。首先考虑必要性,设D是欧氏距离阵,则存在12,,,nXXXrR,使得2()()2ijijijiijjjiijiijjijdXXXXXXXXXXXXXXXXXX(10.1)2111112nnnijjjiiijiiidXXXXXXnnn(10.2)2111112nnnijiijjijjjjdXXXXXXnnn(10.3)22211111111111()112nnnnijijjiijnnnniijjijijijddnnnXXXXXXnnn(10.4)由(10.1)、(10.2)、(10.3)和(10.4)式,得知2222211111111()2nnnnijijijijijjiijbddddnnn11111222(2)2nnnnijijijijjiijXXXXXXXXnnn()ijijXXXXXXXX()()ijXXXX其中,11niiXXn。用矩阵表示为:11()()(,,)0()ijnnnnXXbXXXXXXB这里,我们称B为X的中心化内积阵。再来考虑充分性,如果假设0B,我们欲指出X正好为D的一个构图,且D是欧氏型的。记12r为B的正特征根,12,,,r对应的单位特征向量为12,,,reee,12(,,,)reeeΓ是单位特征向量为列组成的矩阵,则1122(,,,)()rrijnreeexX,X矩阵中每一行对应空间中的一个点,第i行即为iX。令12(,,,)rdiagΛ,那么,BXXΓΛΓ(10.6)1/2XΓΛ(10.7)即ijijbXX。由于,2222211111111()2nnnnijijijijijjiijbddddnnn,因此,2()()22ijijiijjijiijjijijXXXXXXXXXXbbbd这样说明X正好是X正好为D的一个构图,D是欧氏型的。通过上面的讨论我们知道,只要按公式(10.5)求出各个点对之间的内积,求得内积矩阵B的r个非零特征值及所对应的一组特征向量,据公式(10.7)即可求出X矩阵的r个列向量或空间n个点的坐标。这里需要特别注意,并非所有的距离阵都存在一个r维的欧氏空间和n个点,使得n个点之间的距离等于D。因而,并不是所有的距离阵都是欧氏距离阵,还存在非欧氏距离阵。当距离阵为欧氏时,可求得一个D的构图X,当距离阵不是欧氏时,只能求得D的拟合构图。在实际应用中,即使D为欧氏,一般也只求r=2或3的低维拟合构图。值得注意的是,由于多维标度法求解的n个点仅仅要求它们的相对欧氏距离与D相近,也就是说,只与相对位置相近而与绝对位置无关,根据欧氏距离在正交变换和平移变换下的不变性,显然所求得解并不唯一。三、度量MDS的古典解根据上述古典多维标度法的基本思想及方法,可给出求古典解的一般步骤:(1)根据距离阵数据,按照公式(10.5)计算出ijb;(2)根据ijb构造出内积矩阵B;(3)计算内积矩阵B的特征值12n和r个最大特征值120r对应的单位特征向量。其中,r的确定有两种方法:一是事先确定r=1,2或3;二是通过计算前r个大于零的特征值占全体特征值的比例确定。12012rn0预先给定的变差贡献比例。(4)根据(10.7)式计算,得到r维拟合构图(简称古典解)。这里需要注意,如果λi中有负值,表明D是非欧氏型的。(一)已知距离矩阵的CMDS计算以前述美国10城市间的飞行距离数据来说明古典度量多维标度法的计算过程。表10.1美国10城市间的飞行距离为比率测度。数值越大表明距离越远,数值越小表明距离越短,符合广义距离阵的定义,又只涉及一个距离阵,因此为度量CMDS。根据上述度量古典CMDS的计算方法,首先可求得内积矩阵,结果见表10.2。ˆX537138227674.7-348122198968.7-808343894857.1696696.2-1005131-1050183656444.9227674.7262780.5-174029-134310-593986234414.3585085-580732-315384488486.2-348122-174029235561.7-92439.5569636.6-563061-504420681440.4658370.2-462937198968.7-134310-92439.5352200.429298.47516284.3-124221-162952-550030-32799.4-808343-593986569636.629298.471594273-1129628-149868517508921399106-1312563894857.1234414.3-563061516284.3-11296281617392920343.3-15417621866872918032696696.2585085-504420-124221-1498685920343.31415758-1583181-11295431222167-1005131-580732681440.4-1629521750892-1541762-158318120279201845928-1432422-1050183-315384658370.2-5500301399106-
本文标题:厦门大学《应用多元统计分析》第10章-多维标度法
链接地址:https://www.777doc.com/doc-3744809 .html