您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > Module00大数据基础知识34
www.huawei.comCopyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.大数据基础知识Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page1目录1.大数据概念与hadoop简介2.大数据行业应用3.大数据架构简介Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page220世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念BigData名词由来Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page3大数据市场趋向稳定Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page4大量数据存储海量计算大量数据管理数据分析大数据定义-不同的声音Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page5维基百科:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”IDC:一般会涉及2种以上数据形式,数据量100T以上,且是高速、实时数据流;或者从小数据开始,但数据每年增长60%Gartner:大数据的四个V:Volume、Variety、Velocity、ValueVolume:数据量巨大Velocity:分析处理速度快Variety:种类和来源多样化•集中储存/集中计算已经无法处理巨大的数据量•日志/图片/视频/文档/地理位置…•海量数据的及时有效分析Value:价值密度低,商业价值高•大量的不相关信息的进行复杂深度分析,深挖价值精准营销深入洞察统一监控分析另外IBM有大数据5V特征定义,增加了一个Veracity(真实性)什么是大数据Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page6全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…在web2.0的时代,人们从信息的被动接受者变成了主动创造者海量数据从哪里来-人Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page7海量数据从哪里来-机器Boeing:飞机每个引擎3分钟产生1TB数据,波音7876小时飞行产生240TB数据CERN:大型强子对撞产生1PB/s的数据SKA:2015年存储需要1EB云化IDC建设催生了数据大集中Facebook:每天产生50TB的日志数据,衍生分析数据超过100TB“机器制造”和“人工制造”共同贡献了海量数据,集中式的数据中心建设加速数据集中Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page8大数据的结构特征平均1个P数据中非结构化为主(例互联网公司)•互联网:Google,百度Facebook,Twitter,新浪….数据以非结构化处理为主•在企业大数据中,仍然是以结构化数据处理为主结构化半结构化非结构化~35%~27%用户行为轨迹(个体)UserProfile内容(ITEM,图像、视频、文本)数据21个历史详单查询社交网络数据(群体)WebPage&Log~23%~5%~10%结构化为主(例电信运营商)~15%~3%~12%网络XDR(探针俘获后,含历史)计费CDR(含历史)主数据(三户+订购+接触等含历史)分析汇总数据(含历史)CUBE和统一视图~7%互联网WebPage&Log(含历史)~13%社交网络数据~18%~25%内容(图像、视频、文本)数据~7%Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page9传统的数据处理系统面临的问题,呼唤新的技术•海量数据的高存储成本•大数据量下的数据处理性能不足•流式数据处理缺失•有限的扩展能力•单一数据源•数据资产对外增值数据扩展性需求和硬件性能之间存在差距新的业务需求,需要新的大数据处理平台Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page10数据处理技术分布式演进趋势:Hadoop成为开放的事实标准SMPHadoop特点:集群、ShareEverything结构化、关系型FlashCache+分布式块存储+IBSMP+MPP混合MPP特点:集群、ShareNothing开放,、全球生态结构化、半结构化、非结构化高性能、实时特点:集群、ShareNothing结构化、关系型通用的硬件特点:单机、Scaleup性能存在瓶颈扩展性差Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page11揭开Hadoop神秘的面纱•Hadoop是Apache基金会的一个项目总称,主要由HDFS、MapReduce和HBase等组成。HDFS是对GoogleGFS的开源实现,MapReduce是对GoogleMapReduce的开源实现,HBase是GoogleBigTable的开源实现。•Hadoop来源于其创始人DougCutting的儿子给一头黄色大象取的名字。•Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page12HDFS原理简介-分布式文件系统HDFS主要特点:存储大文件将大文件分割成很多小块存储流式数据读取,“writeonereadmany”本身是分布式的,具备良好的可扩展性通过放开POSIX要求,极大改善数据读写性能HDFS不适合于:存储大量小文件(1MB)实时数据读取需经常修改数据的场景HDFSYARNHiveMapReduceHBaseZooKeeperBookKeeperAVROPigSqoopNN#1DataNode,文件就放它上了。NameNode,元数据信息都在这。文件被切分成大小相同的块(最末尾的块可能小于块大小),并存储在不同的数据节点上。为确保文件块的容错性,同时提供更快的数据读取,默认每个数据块有3个副本,且分布在不同的数据节点DN上。FileAFileBFileCACBABCDN#1DN#2DN#3BDN#4CDN#5ADN#6FileDDDDCopyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page13HBase原理简介-分布式数据库HRegionServer内部管理了一系列HRegion对象,每个HRegion对应Table中的一个Region。HRegion由多个Store组成。每个Store对应Table中的一个ColumnFamily的存储,即一个Store管理一个Region上的一个列族(CF)。每个Store包含一个MemStore和0到多个StoreFile。Store是HBase的存储核心,由MemStore和StoreFile组成。Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page14MapReduce原理简介-分布式计算架构ApacheMapReduce是googleMapReduce的开源实现。是对并行计算的封装,使用户通过一些简单的逻辑即可完成复杂的并行计算。其核心理念是将一个大的运算任务分解到集群每个节点上,充分运用集群资源,缩短运行时间。Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page15Spark迭代计算框架:重构M-R,优于Hadoop•Spark是UCBerkeleyAMP实验室基于mapreduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高•Spark适用于近线或准实时、数据挖掘与机器学习应用场景Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page17Storm:流式数据处理框架,实时的HadoopStorm广泛应用于实时分析,在线机器学习,持续计算、分布式远程调用等领域。Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page18Storm处理原理scribeMQ输入spout异常行为检测bolt特征匹配bolt统计bolt输出拦截模块光纤旁路拦截数据不存储,先计算事件驱动实时响应,低延迟连续查询EventDataQueriesAlertsActionsNowaiting;Resultsdeliveredin-flightCopyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page19ZooKeeper简介提供分布式锁的服务。例如,多个Master进程竞争主Master角色时,怎么样保证仅有一个Active角色存在?这就需要一个分布式的锁机制来保证。多个Master进程都尝试着去ZooKeeper中写入一个对应的节点,该节点只能被一个Master进程创建成功,创建成功的Master进程就是Active角色。提供了事件侦听机制。例如,主Master进程宕掉之后,其它的备Master如何能够快速的接管?这个过程中,备Master在侦听那个对应的ZooKeeper节点。主Master进程宕掉之后,该节点会被删除,那么,其它的备Master就可以收到相应的消息。个别场景,可充当一个微型数据库角色。例如,在ZooKeeper中存放了RootRegion的地址(RootRegion原来是存在ZooKeeper中的!),此时,可以将它理解成一个微型数据库。“Master-1,Congratulations!Youaretheactiveone!”“Sorry,Master-2.Theactiveseathasbeentakenbyothers.Pleasebepatient!”Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page20目录1.大数据概念与hadoop简介2.大数据行业应用3.大数据架构简介Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page21大数据应用的行业分类经营分析电信信令金融细账金融票据电力调度智能电网经营类结构化+非结构化绩效报表文件社保分析纳税分析决策支持和预测管理类结构化+半结构化公安网监国安技侦舆情监控银监会稽查食品溯源环保监测监管类结构化+半结构化音视频地震勘探气象云图卫星遥感雷达数据物联网专业类非结构
本文标题:Module00大数据基础知识34
链接地址:https://www.777doc.com/doc-24278 .html