您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 算法合集之《浅谈“跳跃表”的相关操作及其应用》
华东师范大学第二附属中学魏冉第1页让算法的效率“跳起来”!——浅谈“跳跃表”的相关操作及其应用上海市华东师范大学第二附属中学魏冉【目录】◆关键字························································································【2】◆摘要························································································【2】◆概述及结构··················································································【2】◆基本操作·························································································【3】◇查找··················································································【3】◇插入··················································································【3】◇删除··················································································【4】◇“记忆化”查找·····································································【5】◆复杂度分析··················································································【6】◇空间复杂度分析······································································【7】◇跳跃表高度分析······································································【7】◇查找的时间复杂度分析·························································【7】◇插入与删除的时间复杂度分析··················································【8】◇实际测试效果·····································································【8】◆跳跃表的应用············································································【9】◆总结·························································································【10】◆附录·························································································【11】华东师范大学第二附属中学魏冉第2页【关键字】跳跃表高效概率随机化【摘要】本文分为三大部分。首先是概述部分。它会从功能、效率等方面对跳跃表作一个初步的介绍,并给出其图形结构,以便读者对跳跃表有个形象的认识。第二部分将介绍跳跃表的三种基本操作——查找,插入和删除,并对它们的时空复杂度进行分析。第三部分是对跳跃表应用的介绍,并通过实际测试效果来对跳跃表以及其它一些相关数据结构进行对比,体现其各自的优缺点。最后一部分是对跳跃表数据结构的总结。【概述及结构】二叉树是我们都非常熟悉的一种数据结构。它支持包括查找、插入、删除等一系列的操作。但它有一个致命的弱点,就是当数据的随机性不够时,会导致其树型结构的不平衡,从而直接影响到算法的效率。跳跃表(SkipList)是1987年才诞生的一种崭新的数据结构,它在进行查找、插入、删除等操作时的期望时间复杂度均为O(logn),有着近乎替代平衡树的本领。而且最重要的一点,就是它的编程复杂度较同类的AVL树,红黑树等要低得多,这使得其无论是在理解还是在推广性上,都有着十分明显的优势。首先,我们来看一下跳跃表的结构(如图1)535353454537303030291511111111-∞-∞-∞-∞+∞+∞+∞+∞图1有7个元素的跳跃表S0S1S2S3华东师范大学第二附属中学魏冉第3页跳跃表由多条链构成(S0,S1,S2……,Sh),且满足如下三个条件:(1)每条链必须包含两个特殊元素:+∞和-∞(2)S0包含所有的元素,并且所有链中的元素按照升序排列。(3)每条链中的元素集合必须包含于序数较小的链的元素集合,即:hSSSS...210【基本操作】在对跳跃表有一个初步的认识以后,我们来看一下基于它的几个最基本的操作。一、查找目的:在跳跃表中查找一个元素x在跳跃表中查找一个元素x,按照如下几个步骤进行:i)从最上层的链(Sh)的开头开始ii)假设当前位置为p,它向右指向的节点为q(p与q不一定相邻),且q的值为y。将y与x作比较(1)x=y输出查询成功及相关信息(2)xy从p向右移动到q的位置(3)xy从p向下移动一格iii)如果当前位置在最底层的链中(S0),且还要往下移动的话,则输出查询失败二、插入目的:向跳跃表中插入一个元素x首先明确,向跳跃表中插入一个元素,相当于在表中插入一列从S0中某一位置出发向上的连续一段元素。有两个参数需要确定,即插入列的位置以及它的“高度”。关于插入的位置,我们先利用跳跃表的查找功能,找到比x小的最大的数y。根据跳跃表中所有链均是递增序列的原则,x必然就插在y的后面。而插入列的“高度”较前者来说显得更加重要,也更加难以确定。由于它的不确定性,使得不同的决策可能会导致截然不同的算法效率。为了使插入数据之后,保持该数据结构进535353454537303030291511111111-∞-∞-∞-∞+∞+∞+∞+∞图2查询元素53的全过程S0S1S2S3华东师范大学第二附属中学魏冉第4页行各种操作均为O(logn)复杂度的性质,我们引入随机化算法(RandomizedAlgorithms)。我们定义一个随机决策模块,它的大致内容如下:·产生一个0到1的随机数rr←random()·如果r小于一个常数p,则执行方案A,ifrpthendoA否则,执行方案BelsedoB初始时列高为1。插入元素时,不停地执行随机决策模块。如果要求执行的是A操作,则将列的高度加1,并且继续反复执行随机决策模块。直到第i次,模块要求执行的是B操作,我们结束决策,并向跳跃表中插入一个高度为i的列。性质1:根据上述决策方法,该列的高度大于等于k的概率为pk-1。此处有一个地方需要注意,如果得到的i比当前跳跃表的高度h还要大的话,则需要增加新的链,使得跳跃表仍满足先前所提到的条件。我们来看一个例子:假设当前我们要插入元素“40”,且在执行了随机决策模块后得到高度为4·步骤一:找到表中比40小的最大的数,确定插入位置·步骤二:插入高度为4的列,并维护跳跃表的结构三、删除目的:从跳跃表中删除一个元素x5353534545373030302915-∞-∞-∞+∞+∞+∞图3.1确定插入的位置S0S1S2插入的位置图3.2插入高度为4的列,并维护跳跃表S05353534545373030302915S1S2S340404040-∞-∞-∞-∞+∞+∞+∞+∞注意加入新的链华东师范大学第二附属中学魏冉第5页删除操作分为以下三个步骤:(1)在跳跃表中查找到这个元素的位置,如果未找到,则退出*(2)将该元素所在整列从表中删除*(3)将多余的“空链”删除*四、“记忆化”查找(Searchwithfingers)所谓“记忆化”查找,就是在前一次查找的基础上进行进一步的查找。它可以利用前一次查找所得到的信息,取其中可以被当前查找所利用的部分。利用“记忆化”查找可以将一次查找的复杂度变为O(logk),其中k为此次与前一次两个被查找元素在跳跃表中位置的距离。下面来看一下记忆化搜索的具体实现方法:假设上一次操作我们查询的元素为i,此次操作我们欲查询的元素为j。我们用一个update数组来记录在查找i时,指针在每一层所“跳”到的最右边的位置。如图4.1中橘黄色的元素。(蓝色为路径上的其它元素)在插入元素j时,分为两种情况:(1)i=j535353454537303030291511111111-∞-∞-∞-∞+∞+∞+∞+∞图4.1删除元素11的全过程S0S1S2S35353534545373030302915-∞-∞-∞+∞+∞+∞图4.2删除以后的结构S0S1S2535353454537303030291511111111-∞-∞-∞-∞+∞+∞+∞+∞图4.1查找元素37S0S1S2S3华东师范大学第二附属中学魏冉第6页从S0层开始向上遍历update数组中的元素,直到找到某个元素,它向右指向的元素大于等于j,并于此处开始新一轮对j的查找(与一般的查找过程相同)(2)ij从S0层开始向上遍历update数组中的元素,直到找到某个元素小于等于j,并于此处开始新一轮对j的查找(与一般的查找过程相同)图4.2十分详细地说明了在查找了i=37之后,继续查找j=15或53时的两种不同情况。记忆化查找(Searchwithfingers)技术对于那些前后相关性较强的数据效率极高,这点可以在后文中的实际测试报告中略见一斑。【复杂度分析】一个数据结构的好坏大部分取决于它自身的空间复杂度以及基于它一系列操作的时间复杂度。跳跃表之所以被誉为几乎能够代替平衡树,其复杂度方面自然不会落后。我们来看一下跳跃表的相关复杂度:空间复杂度:O(n)(期望)跳跃表高度:O(logn)(期望)相关操作的时间复杂度:查找:O(logn)(期望)插入:O(logn)(期望)删除:O(logn)(期望)之所以在每一项后面都加一个“期望”,是因为跳跃表的复杂度分析是基于概率论的。有可能会产生最坏情况,不过这种概率极其微小。下面我们来一项一项分析。535353454537303030291511111111-∞-∞-∞-∞+∞+∞+∞+∞图4.2新一轮查找元素为15(53)的步骤流程S0S1S2S3华东师范大学第二附属中学魏冉第7页一、空间复杂度分析O(n)假设一共有n个元素。根据性质1,每个元素插入到第i层(Si)的概率为pi-1,则在第i层插入的期望元素个数为npi-1,跳跃表的元素期望个数为10hiinp,当p取小于0.5的数时,次数总和小于2n。所以总的空间复杂度为O(n)二、跳跃表高度分析O(logn)根据性质1,每个元素插入到第i层(Si)的概率为pi,则在第i层插入的期望元素个数为npi-1。考虑一个特殊的层:第1+np/1log3层。npS/1log31层的元素期望个数为npnp/1log3=1/n2,当n取较大数时,这个式子的值接近0,故跳跃表的高度为O(logn)级别的。三、查找的时间复杂度分析O(logn)我们采用逆向分析的方法。假设我们现在在目标节点,想要走到跳跃表最左上方的开始节点。这条路径的长度,即可理解为查找的时间复杂度。设当前在第i层第j列那个节点上。i)如果第j列恰好只有i层(对应插入这个元素时第i次调用随机化模块时所产生的B决策,概率为1-p),则当前这个位置必然是从左方的某个
本文标题:算法合集之《浅谈“跳跃表”的相关操作及其应用》
链接地址:https://www.777doc.com/doc-2174400 .html