您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 大数据技术的发展35
大数据技术发展数据库技术发展历史无库时代层次状数据库网状数据库关系型数据库分布式数据库层次型数据库关系型数据库之父:E.F.Codd关系型数据库1970年,Codd划时代的论文《用于大型共享数据库的关系数据模型》关系与关系代数SQL之父唐·钱伯林(DonChamberlin),是IBMFellow,ACM及IEEE特别会员。他是SQL关系数据库语言的发明人之一,也是XQuery语言的设计基础Quilt语言的发明人之一。Don拥有加利福尼亚大学博士学位。他目前在IBMAlmaden研究中心工作,在过去几年中,他代表IBM参与W3CXMLQuery工作组的工作。左起EdOates、BruceScott、BobMiner、LarryEllisonOracleCEOLarryEllison银行建模案例变化来了之一:数据量爆炸增长•全球每秒钟发送290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…•每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…•推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…•每天亚马逊上将产生6.3百万笔订单…•每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB•Google上每天需要处理24PB的数据…大数据时代到来变化来只二:非结构化类型增加成主流大数据来源TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代已经来临..大数据的兴起“大数据或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”(维基百科)“大数据是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。”(百度百科)“大数据是人们获得新认知、创造新价值的源泉,还是改变市场组织机构,以及政府与公民关系的方法。”(《大数据时代》)“大数据是数据量在10TB以上、需要采用新兴的大数据技术加以收集、处理和应用,以展现更多社会、商业价值的数据。”(个人总结)大数据的诠释非结构化处理案例(BigTable)数据模型一个存储Web网页的例子的表的片断行名:”com.cnn.”contents列族:存放的是网页的内容anchor列族:存放引用该网页的锚链接文本。“anchor:cnnsi.com”列表示被cnnsi.com引用“anchhor:my.look.ca”列表示被my.look.ca引用(”com.cnn.”,”anchor:my.look.ca”,t8)-”CNN.com”数据变革的现实驱动力数据量爆炸性增长需要分布式存储数据类型增加需要半结构化存储数据模型日渐复杂弱化关联的需求PC服务器成本下降PC服务器大行其道数据变革的理论驱动力-CAP理论CAP(Consistency,Availability,Patitiontolerance)又叫做布鲁尔定理(Brewer'stheorem),它指出对于一个分布式计算系统来说,不可能同时满足以下三点理论论述的是在任何分布式系统中,只可能满足一致性,可用性及分区容忍性三者中的两者,不可能全部都满足。所以不用花时间精力在如何满足所有三者上面。•对于分布式数据系统,分区容忍性是基本要求•对于大多数web应用,牺牲一致性而换取高可用性,是目前多数分布式数据库产品的方向。变革的方向NOSQL?NEWSQL?Nosql是notonlysql,并不是没有sql,是一种菲关系型数据库Nosql希望从内核与理念上打破关系模型、设计出一套更适合分布式存储,支持多样化数据的存储体系。MongoDBHbaseRedisNEWSQL希望以尽可能兼容原有体系的基础上,逐渐过渡到分布式存储VoltDBMEMsql变革方法纵向扩展(很难分布式部署、无Master架构)---横向扩展分库分表—分片行式存储----列式存储ACID-BASE无需预定义模式、不需建立确定的列NoSQL数据模型及分类NoSQL运动两个核心理论基础:•Google的BigTableBigTable提出了一种很有趣的数据模型,它将各列数据进行排序存储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。•Amazon的DynamoDynamo使用的是另外一种分布式模型。Dynamo的模型更简单,它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因此它实现的是相对松散的弱一致性:最终一致性。NoSQL数据模型及分类类型部分代表特点列存储HbaseCassandraHypertable顾名思义,是按列存储数据的。最大的特点是方便存储结构化和半结构化数据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的IO优势。文档存储MongoDBCouchDB文档存储一般用类似json的格式存储,存储的内容是文档型的。这样也就有有机会对某些字段建立索引,实现关系数据库的某些功能。key-value存储TokyoCabinet/TyrantBerkeleyDBMemcacheDBRedis可以通过key快速查询到其value。一般来说,存储不管value的格式,照单全收。(Redis包含了其他功能)图存储Neo4JFlockDBInfoGrid图形关系的最佳存储。使用传统关系数据库来解决的话性能低下,而且设计使用不方便。对象存储db4oVersant通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据。xml数据库BerkeleyDBXMLBaseX高效的存储XML数据,并支持XML的内部查询语法,比如XQuery,Xpath。NoSQL应用现状大数据应用领域29综合来看,未来几年大数据在商业智能,公共服务和市场营销三个领域的应用非常值得看好,大多数大数据案例和预算将发生在这三个领域。数据来源:CCWResearch,2012/480.9%73.1%60.3%57.0%0%20%40%60%80%100%证券/股票投资险种开发信用卡欺诈电子支付业务金融行业大数据应用场景72.5%66.3%50.9%24.8%0.0%20.0%40.0%60.0%80.0%100.0%供应链优化产业研发仓储监控企业统一管理制造行业最关注的大数据应用场景76.6%42.3%30.7%15.9%0.0%20.0%40.0%60.0%80.0%100.0%实时营销线路监控新业务挖掘业务推送电信行业大数据应用场景83.4%75.5%51.6%39.4%20.9%0.0%20.0%40.0%60.0%80.0%100.0%社交网络B2C业务精准营销在线音视频业务广告监测互联网行业大数据应用场景大数据应用前景在河北廊坊郊区,农田里安装了内置摄像头的传感器,通过传感器、摄像头等终端应用收集、采集农产品的各项指标,并将数据汇聚到云端进行实时监测、分析和管理,比如每天的气温、湿度、雨量等信息,还向农民发放智能手机和平板电脑,让大家随时记录工作成果和现场注意到的问题。农业管理采用条形码及RFID技术进行记录、监督,从而实现针对生产、收获、库存、流通和食品安全等的管理,再根据不同地区、不同作物类型进行相应的数据信息调整,以便监控管理软件能够很好地帮助农户种植和管理作物。粮食安全、农业结构调整等方面的管理问题,都可通过大数据研究预测和解决。两会期间,通过“网友热搜的两会关键词”,了解老百姓关注的热点、精神和解读,为制定工作目标提供决策依据。创建环境监控物联网系统,利用大数据手段监控、评估、分析诱因(地域气象条件、生产生活方式、植被治理模式,城市建设方式),找到解决方案。政府治理大数据提高政府社会治理水平2009年,Google不借助任何医疗手段,仅通过5000万条用户检索关键词,比美国疾控中心提前数周预测H1N1流感的爆发!中英人寿保险有限公司分析客户多种生活数据(爱好、常浏览网站、常看节目等),找出更有可能患高血压、糖尿病和抑郁症的人。医疗健康通过大数据预测疾病,定位患者商业营销淘宝、亚马逊等电商企业,通过客户商品浏览与购买行为,进行偏好分析,并准确的预测客户的产品购买意向,进行相关推送。精准营销:北美折扣零售商Target在完全不和准妈妈对话的前提下,仅分析顾客的购买习惯,并进行“怀孕趋势”评分,能较准确地预测预产期,以便在孕期寄送相应的优惠券。通过客户行为特征分析,进行产品推荐,实现精准营销。交易风险监控:交易所对于实时交易数据进行及时扑捉,对金融期货等异常交易行为、持仓、资金、行情风险进行监控,及时制止扰乱市场的行为。同时通过对海量交易数据的存储进行交易反演,旨在挖掘风险监控的最优阀值,提升风控可靠性。风险溢价计量:在小微企业业务方面,银行可以在准确计量风险溢价的基础上,构建自动审批模板,适当提高价格、加快授信流程,既满足企业融资需求,又确保风险调整后的总体收益水平。金融大数据产学研项目。2014年,基于CEP的金融期货会员端风险监控(中国金融期货交易所)交易数据结算数据市场数据其他数据事件流连接适配器历史数据访问适配器保证金账户风险监控模型客户异常交易行为监控模型市场行情监控模型其他模型事件订阅适配器风险监控异常报警状态展示流程处理
本文标题:大数据技术的发展35
链接地址:https://www.777doc.com/doc-535125 .html