您好,欢迎访问三七文档
大数据---与我们的未来王宝会北京航空航天大学wangbh@buaa.edu.cn22北航软件学院教授级高工。中国民航总局专家、交通部交通信息化专家、财政部中央政府采购网信息化专家,科技部中小企业创新基金评审专家。20年以上系统研发经验,丰富的软件系统设计和项目管理经验,尤其在民航飞机项目DO-178B和DO-254适航认证方面做出杰出的成就,主要研究方向为系统架构、软件性能工程和民用飞机适航认证。参与湖南株洲、江西上饶、江西萍乡、江苏盐城、河北邢台、浙江高速等众多智慧城市顶层设计。主持或负责过几十个大型系统的研发(其中包括国家科技支撑项目、国家发改委专项基金项目、民航专项基金项目等等)。自我介绍我的提纲鸿蒙之初迷雾重重利器初放光芒大数据思维未来鸿蒙之初大数据背景大数据像“洪流”一样海量增长,奔腾于经济、政治、社会的各个领域,并且,随着信息技术的普及和进步,大数据不仅继续在这些领域翻腾起更高的浪潮,还会催生新的产业,进一步推动数据交汇、融合……互联网画像百度神灯搜索2015年4月1日上午,手机百度在爱奇艺、腾讯视频等网站上传了一段新品宣传视频,视频中演示了手机百度疑似即将推出“神灯搜索”新功能,该功能基于一款名为“百度神灯”的智能手机配件配合最新版本的手机百度实现。“神灯搜索”可以将手机百度的搜索结果以全息投影的形式展现在用户面前,同时用户可以与之进行实时互动,实现更加直观、智能的搜索体验。你访问了这个世界这个世界也访问了你物联网催生大数据工业4.0工业4.0航天工程卫星接收数据移动互联网无线传感网络WSN人类行为不断创造大数据•随着信息化向人类社会各个层面渗透和发展,人类社会的各种行为都以数据的形式存储在计算机系统中•人类生活在一个数据驱动的世界•数据如人体的血液,成为各类业务系统运行的支撑和前提人类行为不断创造大数据你在地球上的全部运动轨迹(通过LBS采集)你银行全部支付记录(通过在线支付采集)你的全部交往记录(通过SNS采集);你的全部言行记录(通过邮件、文档、Timeline、视频监控等采集)。人类行为不断创造大数据世界上每分钟都有海量数据产生2020年:数据量将达到35ZBGBTBPBEBZB在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。有市场研究机构预测(2009年):到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1GB=2^30字节1TB=2^40字节1PB=2^50字节1EB=2^60字节1ZB=2^70字节2020年:国内数据量将达到8.5ZB2013年中国产生的数据总量超过0.8ZB(相当于8亿TB),2倍于2012年,相当于2009年全球的数据总量。2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。27数据驱动的世界-数据的有效、高效应用才是关键!科学商务医疗娱乐股票交易数据通信数据业务运营数据…………MRI数据CT扫描数据电子病历…………MP4/MP3数据DVD9社交网络…………DNA数据勘探数据数据密集型科研…………大数据大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。从产业角度,常常把这些数据与采集它们的工具、平台和分析系统一起统称为“大数据”。通俗地讲,“大数据”就是对网上海量的文本、图像、音频和视频数据进行采集、分析、加工和利用。从一般意义上说,“大数据”是指那些超过传统数据库系统处理能力的数据,数据量通常在10TB(1TB=1024GB,为1万亿字节)以上。因为数据库,“大数据”已经成为变革的中心。大数据的判断标准四个V—海量Volume速度(Velocity):高速的数据流转和价值呈现多样泛在(Variety)价值(Value):信息过载世界的价值提炼迷雾重重现有企业IT环境的挑战–大数据存储的未来发展趋势目前10-15年15年后预计市场普及周期现阶段存储的发展仍将以网络存储为主2020年60%以上的创造数据将因无法存储而丢失中国移动大数据的烦恼信令分析与监测系统中国移动大数据的烦恼信令分析与监测系统原数据库服务器配置:HP小型机,128G内存,48颗CPU,2节点RAC,其中一个节点入库,另外一个节点查询存储:HP虚拟化存储,1000个盘数据库架构采用Oracle双节点RAC问题:1入库瓶颈2查询瓶颈数据日趋庞大,无论是入库和查询,都出现性能瓶颈用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高使用的模型越来越复杂,计算量指数级上升利器解决大数据问题的思路海量数据计算快省海量数据存储44PervasiveComputingInternetofThingsServiceComputingCloudComputingSocialComputingSystemofSystemsGridComputingasaComputerBigDataMobileInternetModernServiceSmarterPlanetInternetCultureSocialNetworkVirtualWorld技术方面:如何利用Internet为核心的多网融合,实现高性价比、高效能、高可信的信息化技术应用方面:如何利用以Internet为核心的信息化技术,实现成本控制、资产增值、业务创新InternetInternet正在演化为一台全球泛在计算机(globalubiquitouscomputer)互联网产业发展迅速,概念、热点频出互联网催生了“创新”时代45互联网催生了“创新”时代46asaComputerInternet云计算大数据移动互联网围绕数据中心提供计算、存储、网络、应用服务用户通过智能移动终端更加广泛地接入互联网海量、异构、实时数据存储、组织、分析和处理三者彼此交叠,相辅相成,呈现视角和关注点的不同大数据/云计算/移动互联网——本质上均是互联网计算及其延伸47大数据/云计算/移动互联网——本质上均是互联网计算及其延伸先解决数据存储的问题Google集装箱数据中心位于MountainView,Calif总部的数据中心总功率为10000千瓦,拥有45个集装箱,每个集装箱中有1160台服务器,该数据中心的能效比为1.25(PUE为1表示数据中心没有能源损耗,而根据2006年的统计,一般公司数据中心的能效比为2.0或更高。Google的1.16已经低于美国能源部2011年的1.2的目标)Google的低成本之道不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务全世界多个数据中心,有些附带发电厂运营商向Google倒付费51Google的三篇论文52先解决计算的问题Google使用GFS进行分布式存储53再解决计算的问题Google使用Map-reduce思想计算PR第一二列在一台电脑(每个电脑存储着若干个列)【几个列就把q特征向量送过几个值来用于计算】,q1*第一列+q2*第二列;每个节点做类似的事情---发到一个目标节点,把所有节点加起来。q1--q2---直到收敛。这个思想就是mapreduce.54再解决实时计算的问题Google使用Bigtable思想进行数据库存储55Google不愿意公开更多的细节56Hadoop的出现DougCutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎对于大数量的场景,Lucene面对与Google同样的困难。迫使DougCutting学习和模仿Google解决这些问题的办法一个微缩版:Nutchnutch的初衷:创建一个开源的全网搜索引擎。抵抗Google在搜索领域的垄断。Nutch:2002Hadoop的初衷是为解决Nutch的海量问题。57从lucene到nutch,从nutch到hadoop2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础DougCutting等人用了2年业余时间实现了DFS和Mapreduce机制,使Nutch性能飙升Yahoo招安DougCutting及其项目Hadoop于2005年秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年3月份,Map-Reduce和NutchDistributedFileSystem(NDFS)分别被纳入称为Hadoop的项目中58DougCutting59HDFS/Mapreduce登场HDFSM/R60名字来源于DougCutting儿子的玩具大象61目前Hadoop达到的高度实现云计算的事实标准开源软件包含数十个具有强大生命力的子项目已经能在数千节点上运行,处理数据量和排序时间不断打破世界纪录62Hadoop分布式体系6363天下之势,分久必合,合久必分64Hadoop的思想65Hadoop166Hadoop2Hadoop2、spark(UC伯克利大学研发框架,yahoo率先用)、Storm新的数据分析平台hadoop1的核心组成是两部分,即HDFS和MapReduce。在hadoop2中变为HDFS和Yarn。新的HDFS中的NameNode不再是只有一个了,可以有多个(目前只支持2个)。每一个都有相同的职能。67Hadoop1Hadoop268HortonworksSolution69Storm构建大数据实时计算Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。70Spark构建大数据实时计算Spark是基于mapreduce算法所实现的分布式计算框架,拥有HadoopMapReduce所具有的优点;不同于MapReduce的是Job中间输出和结果可以保存在内存中,而不需要读写HDFS,因此Spark能更好地适用于machinelearning等需要迭代的mapreduce算法。71SparkStreamSparkStreaming是Spark生态中一种具有高吞吐与容错性能的在线数据流的实时流处理框架。72实时计算初放光芒大数据PKOracleOracle服务器配置参数名称:浪潮英信服务器型号:NF8560M2CPU:intelxeonE7-4820核心:4颗CPU,每颗16核,共计64核内存:32GB硬盘:18T软件环境操作系统:Redhat数据库:Oracle11g集群主机配置3个主节点(NameNode、SNameNode、jobtracker):型号:IBMx3650M3CPU:六核2.8*2内存:24G硬盘:8T10个数据节点:型号:IBMx3650M3CPU:六核2.8*2内存:16G硬盘:8T软件环境:操作系统:CentOS6.5大数据管理平台软件1.0大数据平台环境参数Oracle环境参数场景一:直系亲属以户成员信息和人员基本信息两张表进行关联查询,根据身份证号或者姓名查询人员的直系亲属信息场景描述测试2000万条人员数据,分别加载2000万数据到Oracle和大数据管理平台;在Oracle中,对2000万条数据创建索引、加大临时表空间等查询优化操作;在大数据管理平台中,对2000万条数据进行压缩、分区、预处理等操作来减少数据的存储量、提高数据查询速度;根据具体身份证号查询直系亲属;分别查询三次,并做记录,统计查询返回结果所需时间的平均值测试过程Oracle分别为12秒、11秒、15秒,平均查询时间:12.7秒大数据管理平台分别为421毫秒、415毫秒、438毫秒,平均查询时间:0.42秒测试结果场景二:宾馆同行人加载宾馆住宿信息至Oracle和大数据管理平台中,根据身份证号查询退房时间间隔不超过20分钟,并且三次以上
本文标题:大数据路演
链接地址:https://www.777doc.com/doc-28623 .html