您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 华为大数据主打胶片80
应需而变融以致远——大数据解决方案1目录大数据需要哪些支撑技术什么是大数据大数据各行业需求和应用123华为大数据架构和具体实践42大量用户群体海量计算大量数据管理数据分析大数据定义-不同行业的不同声音3专业咨询公司IDC对大数据特征的定义-4VVolume-巨量Variety-多样性Value-价值密度数据量巨大全球在2010年正式进入ZB时代IDC预计到2020年,全球将总共拥有40ZB的数据量结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低一部数小时的视频,可能有用的数据仅仅只有一两秒。如何迅速“提纯”是大数据亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命Velocity-速度4大数据为什么这么热5大数据带来技术变革-技术驱动大数据分析处理•全球技术研究和咨询公司Gartner将“大数据”技术列入2012年对众多公司和组织机构具有战略意义的十大技术与趋势之一•Gartner在其新兴技术成熟度曲线中将“大数据”技术视为转型技术•传统技术升级已满足不了大数据处理的需求,“大数据”技术将在未来3—5年内进入主流。其技术形态也会产生较大的变化存储瓶颈计算瓶颈网络瓶颈数据库瓶颈6大数据带来哪些技术变革-技术驱动计算存储数据库网络单机集群文件存储单机设备间连接设备内连接关系型数据库10GEFCIB分布式数据库非关系型数据库块存储10GESASIB横向扩展块级虚拟化横向扩展分布式文件系统72008年马云通过阿里巴巴平台的询盘数据统计结果提前半年成功预测了经济危机的发生数据驱动的决策:大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合,用数据创造价值大数据带来哪些技术变革-商业驱动8目录大数据需要哪些支撑技术什么是大数据大数据各行业需求和应用132华为大数据架构和具体实践49大数据的技术概念10大数据的技术概念当数据量变大只能通过升级船的大小来解决(升级CPU,内存,磁盘容量)但受限于硬件本身这种方式升级已达到极限11大数据的技术概念?12BiBI分析工具大数据时代采用新的方式来处理(分布式并行处理)其组件扩展灵活,数据承载能力强,管理统一,但管理起来相对复杂(统一架构,统一管理)大数据的技术概念数据采集数据存储数据管理数据分析13廉价货物:普通船(廉价存储不带任何增值特性)对存储无特殊要求(可以是服务器,可以是存储,硬件的损坏是常态。大数据的技术概念数据采集数据存储数据管理数据分析14中高价值货物:专业船,对存储有要求,需要专业含有多种保护机制及增值特性的存储大数据的技术概念数据采集数据存储数据管理数据分析15BI分析工具大数据的技术概念数据直来只去数据运载过程中不做任何处理数据采集数据存储数据管理数据分析16BI分析工具数据运载过程中做粗加工处理大数据的技术概念数据采集数据存储数据管理数据分析17BI分析工具数据运载过程中做细加工处理大数据的技术概念数据采集数据存储数据管理数据分析18河流:分布式文件系统,决定河流的最大利用率。这条河流上同时可以并发跑多少条船,跑什么船即横向扩展能力数据采集数据存储数据管理数据分析大数据的技术概念19船:存储系统,决定数据的运载能力和处理速度。不同的船型,功能上会有较大的差异(数据的保护级别,处理性能,增值特性等)大数据的技术概念数据采集数据存储数据管理数据分析20BI分析工具数据运载过程中的加工处理大数据的技术概念数据采集数据存储数据管理数据分析21大数据的结构特征平均1个P数据中非结构化为主(例互联网公司)•互联网:Google,百度Facebook,Twitter,新浪….数据以非结构化处理为主•在企业大数据中,仍然是以结构化数据处理为主结构化半结构化非结构化~35%~27%用户行为轨迹(个体)UserProfile内容(ITEM,图像、视频、文本)数据21个历史详单查询社交网络数据(群体)WebPage&Log~23%~5%~10%结构化为主(例电信运营商)~15%~3%~12%网络XDR(探针俘获后,含历史)计费CDR(含历史)主数据(三户+订购+接触等含历史)分析汇总数据(含历史)CUBE和统一视图~7%互联网WebPage&Log(含历史)~13%社交网络数据~18%~25%内容(图像、视频、文本)数据~7%22HADOOP大数据解决方案-互联网分析平台MapReduce-分布式并行处理架构Hbase-非关系型数据库HDFS-分布式文件系统23廉价货物:普通船(廉价存储不带任何增值特性)业界通常使用HADOOP架构,对存储无特殊要求(可以是服务器,可以是存储,硬件的损坏是常态,每次存储三份数据,用多份数据存储来保证数据的可靠性(通常应用于互联网数据,以大文件为主)分析平台MapReduceHBaseHDFS数据采集数据存储数据管理数据分析Hadoop大数据解决方案-互联网24“NoSQL是一项运动,这个运动推动了广义定义的非关系型数据储存系统的发展,并破除了长久以来关系型数据库一家独大的局面”--维基百科Hadoop-HBase-非关系型数据库25分析平台MapReduceHBaseHDFS非关系型数据库:把混杂的数据进行(HASH)分类排序Hadoop-HBase-非关系型数据库数据采集数据存储数据管理数据分析26分析平台MapReduceHBaseHDFSMapReduce是Google提出的一种大规模分布式数据处理的编程模型,也代表一种数据处理平台或实现。最具有代表性的开源实现是Apache的HadoopMapReduce,其中HBASE做在线数据整理排序,MapReduce做线下数据删减BI分析工具数据采集数据存储数据管理数据分析27产品类型CAPCassandraColumnfamilyAP(性能可靠性)CouchDBDocumentAP(性能可靠性)RiakDocumentAP(性能可靠性)HypertableColumnfamilyCP(一致性可靠性)MogoDBDocmumentCP(一致性可靠性)Neo4JGraphCP(一致性可靠性)RedisKey/ValueCP(一致性可靠性)HBaseColumnfamilyCP(一致性可靠性)NoSQL代表性的产品28大数据的结构特征平均1个P数据中非结构化为主(例互联网公司)•互联网:Google,百度Facebook,Twitter,新浪….数据以非结构化处理为主•在企业大数据中,仍然是以结构化数据处理为主结构化半结构化非结构化~35%~27%用户行为轨迹(个体)UserProfile内容(ITEM,图像、视频、文本)数据21个历史详单查询社交网络数据(群体)WebPage&Log~23%~5%~10%结构化为主(例电信运营商)~15%~3%~12%网络XDR(探针俘获后,含历史)计费CDR(含历史)主数据(三户+订购+接触等含历史)分析汇总数据(含历史)CUBE和统一视图~7%互联网WebPage&Log(含历史)~13%社交网络数据~18%~25%内容(图像、视频、文本)数据~7%29大数据解决方案-企业分析平台MPP-DB-分布式数据库(关系型)HDFS-分布式文件系统30大数据的技术概念数据采集数据存储数据管理数据分析分析平台MPP-DB-分布式数据库HDFS-专用分布式文件系统中高价值货物:专业船,对存储有要求,需要专业含有多种保护机制及增值特性的存储31理想的满足海量数据管理和实时性处理要求的数据库服务器拥有无限快的处理器、无限容量和无限带宽的存储,并且相对的便宜我们能够拥有这样的机器吗?NO有限快的处理器*”无限”数量=“无限”快的处理能力有限带宽和容量的存储单元*”无限”数量=“无限”容量和”无限”带宽的存储能力并行数据库–企业数据分析传统的关系数据库部署难以处理TB级数据,不能很好的支持高级别的数据分析。32BI分析工具8张钱2王张赵李8192388李李赵15钱86张611孙刘112514我14152614087220分析平台MPP-DBHDFS数据采集数据存储数据管理数据分析MPPDB-并行数据库-企业数据分析33产品厂家SybaseIQSAPTeradataTeradataGreenplumEMCGridSQLGridSQLAsterDataTeradataVerticaHP并行数据库代表性的产品34比较内容模式的支持索引编程模型数据分布执行策略灵活性容错NoSQL&MPR可以代替关系数据库吗?性能PDBMSsMRsystems35NoSQLMapReduce和关系型数据库不是互相取代,而是互相补充,需要互相学习取长补短。取长补短,共赢未来分析平台MapReduceHBaseHDFS分析平台MPP-DBHDFS36企业大数据应用模式-混合架构架构模式:Hadoop+MPPRDB/SMPRDB;处理方式:Hadoop处理非结构化,为辅;RDB处理结构化,为主;非结构化:Hadoop方案,对服务器和存储无特殊要求,廉价为主;结构化:MPPRDB/SMPRDB+Hadoop(只负责存储计算需做重大修改)或用新分布式文件系统来替代,对计算和存储有要求(可靠性,高性能,增值应用等)MPP-DBMPP-DB37分析平台MapReduceHBaseHDFS分析平台MPP-DBHDFS企业大数据应用模式-混合架构38各厂家大数据产品EMCEMCNetAppOracleHPIBM39各厂家大数据产品MSDELLSASSAPTeraData40目录大数据各行业需求和应用大数据需要哪些支撑技术什么是大数据123华为大数据架构和具体实践4412011-2016中国大数据市场规模计世资讯认为:2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业大数据应用案例的产生2012-2016年将迎来大数据市场的飞速发展计世资讯预测:2012年中国大数据市场将迎来增速为138.3的飞跃到2016年整个市场规模逼近百亿2012年各行业大数据市场规模2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额为138.3的飞跃到2016年整个市场规模逼近百亿由于各个行业都存在大数据应用需求,潜在市场空间非常可观0%81%138%107%110%92%0%30%60%90%120%150%020406080100市场规模增长率CCWResearch2012/04互联网15%电信11%流通4%金融11%医疗9%制造9%零售6%教育4%能源8%交通4%政府15%其他4%中国大数据各行业市场规模CCWResearch2012/04426.10%9.10%8.20%5.50%22.30%20.00%28.90%21.90%44.10%31.60%14.20%31.10%20.10%14.40%11.30%32.80%22.90%33.10%30.10%26.40%14.60%26.30%22.30%33.90%55.30%44.00%29.60%37.30%25.40%37.60%19.80%45.90%23.80%40.50%36.90%22.10%39.20%15.30%19.80%12.60%10.40%9.70%7.90%35.70%0.00%10.00%20.00%30.00%40.00%50.00%60.00%互联网电信流通金融医疗零售教育能源制造交通政府未听说仅听说过不了解有一定了解十分关注CCWResearch2012/040%10%20%30%40%39%29%24%18%13%9%资源利用率低企业数据架构存在的问题扩展性差应用部署复杂运营成本高高能耗其它0%10%20%20%13%11%10%企业分析数据处理的问题海量数据处理能力差缺少数据全方位分析方法ERP软件处理能力差实时分析能力差各行业对大数据的关注程度企业大数据需求分析43客户面临的挑战客户需求社交
本文标题:华为大数据主打胶片80
链接地址:https://www.777doc.com/doc-24905 .html