您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 流数据处理技术的概述0911
第一点:流数据处理技术的概述,什么是流处理技术?传统数据处理模型数据流处理模型1、数据流处理模型和传统数据处理模型的比较如果利用传统技术进行数据处理,必须将数据全部存储到介质(如关系数据库)中,然后通过提交DML语句访问存储介质来获取查询结果。但是,当数据规模宏大且到达速度很快时,因执行查询操作需要大量的I/O交换,效率低下,往往难以满足实时性要求。相反,数据流处理技术可以不保存整个数据集,仅维护一个远小于其规模的概要数据结构,从而能够常驻内存。2、基于数据流的处理技术通常包含两部分算法:一部分监控流中的数据,更新概要数据结构;另一部分响应用户查询请求,返回近似查询结果。用什么方法?1、数据流聚类算法单遍扫描算法和进化分析算法1.1单遍扫描算法把数据流聚类看作是对数据库单遍扫描的处理过程。传统的数据聚类算法,如k-means和k-medians,被扩展到数据流环境下,并假设数据对象以数据块的方式到达。该类算法通常基于分而治之的策略,从而在小空间上获取常数因子的近似结果。如:1)采用LOCALSEARCH的子过程,在每个数据块到达时产生该块数据的簇中心。2)VFKM算法对k-means进行了扩展,并保证其产生的模型与通过无限次数据获取所产生的模型不具有太大差别;3)Zhou等人提出一种用于数据流核密度估计的单遍扫描算法,可基于核密度估计产生聚类结果。4)Nam等人提出了一种基于统计网格的方法用于单遍扫描的数据聚类。5)此外,还有Beringer等人研究了对并行数据流的单遍扫描聚类算法。1.2由于单遍扫描算法无法满足具有进化特征的数据流的聚类分析需求,研究者开始提出一系列进化分析算法。进化分析算法把数据流的行为看作是一个随时间不断变化过程。1)Dail等人提出了一种对多条数据流进行聚类的通用框架COD。该方法可动态地对多条数据流进行聚类,并可支持多种数据挖掘的请求。2)Yang考虑了一种新的多数据流聚类问题,在该问题中,各个数据流被看作是一个维度不断增长的向量。两条数据流间的相似性采用加权距离进行度量,并且一种增量的聚类算法被用于产生数据流的聚类结果。3)Aggarwal等人提出了一种对数据流进行投影聚类的方法HPStream。其主要贡献在于引入了一个衰退簇结构和对数据流进行投影聚类的思想。4)Zhou等人提出一个用于跟踪滑动窗口内的簇的方法SWClustering。区别于该项工作,本文主要将讨论据伪和纳真误差滑动窗口模型中的聚类问题,并推广到一个更普遍的N-n滑动窗口模型。5)Babcock等人基于前人的工作,从理论角度对滑动窗口的聚类问题进行了研究。区别于该工作从理论上对聚类效果进行分析,本文主要基于滑动窗口对数据流中簇的进化过程进行挖掘。6)Cao等人提出了一种基于密度的聚类算法Denstream!咒}可挖掘在有噪声环境下衰减窗口内数据流中任意形状的簇。7)朱蔚恒等人提出一种基于空间分割的聚类方法用于挖掘具有任意形状的簇。然而,这些挖掘任意形状簇的方法并不适用于滑动窗口。(1)据伪和纳真误差滑动窗口模型中的聚类问题,并推广到一个更普遍的N-n滑动窗口模型。(2)基于滑动窗口对数据流中簇的进化过程进行挖掘。2、在实际应用中,人们往往比较关心最近一段时间内数据流的分布状况,滑动窗口模型可被用来更好地获取当前数据流的特征。在基于界标窗口的Clustream中,微簇的半径随界标窗口的增长不断增大。由于没有在线淘汰“老”元组,因而只有一个微簇生成。若采用基于滑动窗口的聚类,及时地淘汰“老”元组,新到达的元组将形成两个微簇。若将Clustream算法应用到滑动窗口环境下,需要在每个新元组到达时存储一次快照(snaPsllot),这样巨大的处理代价和存储开销,显然难以满足数据流实时在线处理的需要。如图基于滑动窗口的聚类中微簇(Mc)的形成过程3、数据流处理技术原型系统由于是热点,近来不断出现了一些基于数据流处理模型的数据管理系统,这些系统面向不同的应用领域,设计了很好的系统架构,试图提供基于数据流处理模型的完整应用解决方案。与这些系统不同,本文的工作并不是设计和实现一个完整的基于数据流处理技术的管理系统,而是面向网络流量监测领域中的具体问题,采用数据流处理算法为网管人员提供一个有效的管理工具。第2点:流数据处理系统在电信中应用前景的总结1.数据流聚类分析数据流环境下的聚类分析是当前数据库领域的一个研究热点。聚类挖掘就是把数据集合中的数据对象归为若干组,并使得组内对象的相似度尽可能的高而组间对象的相似度尽可能的低。数据聚类分析在图像处理、模式识别、空间数据分析、等领域有许多实际应用{48}。在数据流环境中,数据聚类同样是一种重要的、具有强大信息提取功能的数据压缩技术。如何进行滑动窗口内的数据流聚类分析、提高数据流聚类处理效率等都是数据流聚类分析研究中的几个基本问题。它们在电信网络中的入侵检测、网络流量监控、数据流挖掘系统实现等实际应用中都具有重要意义。2.网络流量Top一N排序电信网络质量的管理首先是流量的管理,由于Internet数据量呈现爆炸式的增长,以往对流量的管理只能是总流量的检测,并不能知道流量中的不同应用的变化情况,因此也不能针对不同的应用采取不同应对措施。尤其现在新的P2P应用的大量增加,网络流量的特性和以前也发生了很大的变化。网络的管理就必须从宏观的管理进一步深入到流量的内容上来。在应用了Netflow技术以后,网络管理员可以得到流量的抽样情况,然后对各种不同的应用进行多种纬度的排序,即所谓TopN排序问题。常见的方法是将这些数据存储下来以后进行离线分析,得出最后的结果。这样往往不能实时地反映网络的流量变化,而且也不能选取任意的时间段进行排序比较,只能使用预先定义的排序方法进行分析。采用数据流的处理技术,本文试图寻找一种能够实时地反映数据变化的算法,在任意给定的时间段上进行排序、查询。从而更好地支持现在的网络管理需求,并且大幅度地压缩存储数据的空间要求。3.SNMP数据流上的异常检测异常流量检测一直是电信网络管理所关心的题目。基于流处理的算法能够检测出网络中突发出现的“毛刺”现象,但IP网络的特性就是相对无序,存在着网络流量的抖动现象。电信网络的设计完全能够忍受这些“毛刺”流量,并不需要预警。因此如何定义异常流量的“模型”往往是至关重要的。从网络管理的角度看,如果在持续的某一段时间上出现特性异于通常的流量分布就是值得关注的对象,这往往是网络遭到攻击的征兆。本文的目标就是研究SNMP的流量数据,寻找合适的算法能够很好地检测出网络中出现的流量异常而且对忍受个别“毛刺”的干扰,正确地反映出网络流量中可能出现的攻击数据流和病毒流。另外一个具有挑战性的问题是,SNMP数据由于基于UDP的协议,其本身并不提供可靠的传输链路。所以报出的数据往往会出现数据缺失、错误数据等一系列的问题。已有一些商业的ETL(Extract,Transformandload)工具,可以对数据仓库的数据进行清洗。但这些工具由于下几个方面的原因,而并不适合实时处理环境:首先在真实的电信网络环境中,SNMP消息呈现出连续和量大的特点而不可能被存储在硬盘等介质中以供离线的分析。第二由于网络监控中的存在着数据质量问题,因此常规的数据清洗技术都不能满足实际的要求。例如InteMon等系统,基于文件系统的数据,而不能完成实时数据的清洗。
本文标题:流数据处理技术的概述0911
链接地址:https://www.777doc.com/doc-2265049 .html