您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据库 > 从大数据到大智慧:Oracle大数据解决方案66
从大数据到大智慧:Oracle大数据解决之道周建Jonathanzhou解决方案架构师以下内容旨在概述产品的总体发展方向。该内容仅供参考,不可纳入任何合同。该内容不构成提供任何材料、代码或功能的承诺,并且不应该作为制定购买决策的依据。所描述的有关Oracle产品的任何特性或功能的开发、发布和时间安排均由Oracle自行决定。议题大数据时代的机遇和挑战从大数据到大智慧的Oracle解决之道一个大数据分析场景的探讨Q&A3大数据时代的机遇和挑战,在政治领域,大数据的时代已经到来•“我们要用数据去衡量竞选活动中的每一件事情。”--Obama竞选活动经理JimMessina•竞选总部任命RayidGhani为“首席科学家”•Ghani和他的团队将试图挖掘选民在公开市场上可得的行动、行为、支持偏向方面的大量数据,并预计出选民的选举模式,这将使奥巴马竞选团队的花费更加精确和有效率。•新的大数据库能让竞选团队筹集到比他们曾预料到的更多的资金(10.6亿美金/08年7.5亿)•“我们每天晚上都在运行66000次选举。每天早上,我们都会得出数据处理结果,告诉我们赢得这些州的机会在哪,从而我们去进行资源分配。”•华盛顿那些基于直觉与经验决策的竞选人士的优势在急剧下降,取而代之的是数量分析专家与电脑程序员的工作•新的互联网,新的候选人,新的操盘手,一场新式的选举,创造出一个新媒体时代的总统。淘宝网的指标体系除了自己分析运营的淘数据之外,为卖家提供了丰富的指标应用工具,主要是淘宝量子恒道统计,淘宝魔方等二十多种分析工具,通过这些工具为卖家更好的管理自己的店铺和优化店铺经营阿里金融:如何融资(挑战传统金融模式)阿里金融相继开发出阿里信用贷款、淘宝(天猫)信用贷款,淘宝(天猫)订单贷款等微贷产品,均为纯信用贷款,不需要小微企业提交任何担保或抵押。面向小微企业、个人创业者:•发放信贷最主要的因素是成本和风险,阿里金融通过对数据的搜集和整合,解决了这两大难题。•通过对商家往来的交易、信用、客户评价、访问行为等数据的分析,了解可能需要的资金量并可以测算他们可能的还款时间,从而降低放贷风险。•通过数据的运算来评核企业的信用,不仅降低了申请贷款的门槛,也极大简化了申请贷款的流程,使其有了完全在互联网上作业的可能性数据魔方:卖什么以行业商品为分类,提供行业内商品热卖排名等信息,分析行业内商品销售趋势帮助商家:•何种商品上架--借鉴行业商品在淘宝的销售信息,确定在何时上架什么类型的商品,为制定商品价格、优惠活动时长做出参考•指导生产和销售:买家喜欢搜索的品牌、产品和特征,企业可预先洞悉即将热销的商品指导生产和销售•确定客户目标--帮助商家分析买家的性别年龄、地域分布、客单价、购买频次以及购买时段等数据,便于企业精准营销•知己知彼--帮助商家确定自己在淘宝的位置,查看竞争对手的销售概况,从而帮助商家进行店铺销售定位大数据带来高价值–互联网企业72012年7月,阿里巴巴在管理层设置了“首席数据官(CDO)”一职,负责推进“数据分享平台”,落实“将阿里集团变成一家真正意义上的数据公司”战略。什么是大数据?具有4V特性的数据称为大数据•巨大的数据量Volume•集中储存/集中计算已经无法处理巨大的数据量VOLUMEVELOCITYVARIETYSOCIALBLOGSMARTMETERVALUE1011001010010010011010101010111001010101001001013亿用户,每天上亿条微博中型城市每月数十亿智能电表数据2015年全球移动终端产生的数据量6300PB•多结构化数据Variety•文本/图片/视频/文档等•增长速度很快Velocity•海量数据的及时有效分析•用户基数庞大/设备数量众多/实时海量/数据指数级别增长•价值密度低Value•单条数据并无太多价值,但庞大的数据量蕴含巨大财富媒体/娱乐访问者通信呼叫、内容应用程序教育与科研建模消费品舆情、地点、设备医疗保健个人传感器监视生命科学临床试验基因组工业制造质量高科技制造执行系统石油与天然气勘探金融服务欺诈安全性汽车传感器零售消费者行为航空与国防性能旅游与运输每小时20TB保险个性化保险公共部门计量经济学公用事业智能量表各行各业的用例电子商务网站行为面临的挑战:数据量、高速度、多样性大数据大事业(BigDataisaBigDeal)大数据上升为国家意志•2012年3月29日,美国政府宣布启动“大数据研发计划”,将投入超过2亿美元推动大数据提取、存储、分析、共享、可视化等领域的研究,并将其与历史上对超级计算和互联网的投资相提并论。••视频和图像•文档•社交数据•机器生成数据AfterBigDataBeforeBigData决策基于交易型数据决策基于所有的数据大数据:面临的挑战业务价值→高度多样性→大数据量→高速度→低价值密度大数据现状→高敏捷性→高度可伸缩性→实时→深度分析将来挑战大数据平台传统DW难以处理大数据•大数据的4V特点:Volume,Variety,Velocity,Value•传统DW系统不适用于大数据的分析•数据量过于庞大•大数据的多样化格式•绝大部分大数据是垃圾•需要更复杂的数据模型和挖掘•需要革新性的技术手段•海量数据“分而治之”------批量分布式并行计算Hadoop•海量数据“灵活多变”------实时分布式高吞吐高并发数据存取处理NoSQL•海量数据“跨越鸿沟”------大数据超高速装载进数据库•海量数据“挖据价值”------数据、建模、算法从大数据到大智慧Oracle的解决之道Bla决策•深入分析•敏捷开发•高可用•实时响应•高吞吐•就地数据就绪•多种数据源和数据结构•可预测的低延时•高吞吐高交易•灵活的数据结构大数据的处理的主要阶段和需求获取组织分析•数据驱动•应用分析•实时高效•业务提升软硬一体优化集成的Oracle大数据综合解决方案OracleBigDataApplianceOracleExadataInfiniBand捕获组织分析InfiniBandOracleExalytics决策决策分析获取组织OracleNoSQL数据库HDFSRDBMSOracle面向大数据的集成解决方案体系传统数据源VS新数据源非结构化半结构化数据结构化数据两组特性面向批处理实时处理要使用的数据提供服务批量存储快速访问特定记录一次写入,无限读取读取、写入、删除、更新最佳选择Hadoop分布式文件系统(HDFS)OracleNoSQL数据库文件系统数据库并行扫描索引存储无固有结构简单的数据结构大量写入大量随机读写HDFS---HadoopDistributedFileSystem数据块复制因子2•冗余存储的分布式文件系统•可靠并高度可伸缩的数据存取能力•针对大数据量、低密度数据的经济高效文件系统HDFS用例•点击流存储和分析–持续时间超过X分钟的Web会话数–浏览频率最高/最低的页面–按钟点和源位置进行会话时间分组•舆情分析–多少个评论包含单词或词组•关系发现–哪些项目看似在时间或相近性方面相关–X和Y有多少次相近OracleNoSQL数据库节点东部节点西部节点中部NoSQL驱动程序应用程序NoSQL驱动程序应用程序读取删除读取更新分布式键值对数据库简单编程模型可伸缩的吞吐量商业软件和支持易于管理OracleNoSQL数据库主要特性•简单数据模型—键值对(主键+次键模式)•简单操作—读取/插入/更新/删除,RMW支持•事务范围—主键内的记录、单一API调用•无序扫描所有数据(非事务)简单数据模型用户ID地址订阅电子邮件ID电话号码到期日主键:次键:值:字符串字节数组OracleNoSQL数据库主要特性•按操作逐个指定,应用程序设置默认值•可配置的持久性策略同步策略+副本确认策略•可配置的一致性策略ACID事务OracleNoSQL数据库用例•数据捕获–传感器数据捕获(即信息家电、智能电网、地球科学、生物医学科学)–统计信息和网络捕获(QOS网络管理)–Web应用(一路点击式捕获)–针对移动设备的备份服务•数据服务–NoSQL数据共享(地球科学、生物医学)–可伸缩的身份验证–实时通信(MMS、SMS、路由)–社交网络、个性化OracleNoSQL数据库的独特优势•与Oracle体系无缝集成•商业级•可伸缩•简单编程模型•易于管理如何正确理解NoSQL?获取大数据•最佳的数据存放处–HDFS–NoSQL–关系数据库•通过分析发现价值Oracle面向大数据的集成解决方案体系决策分析OracleNoSQL数据库HDFSRDBMS获取组织OracleDataIntegratorOracleLoaderForHadoopHadoop(MapReduce)OracleDirectConnector新的数据源使用新数据挑战新数据转变了解在线活动Web日志会话化了解故障情况产品传感器确定超出范围的事件、趋势确定客户响应的优先级社交媒体舆情分析Hadoop架构管理/监视Hadoop分布式文件系统(HDFS)MapReduce采用冗余存储的分布式文件系统Map/Reduce编程范式高度可伸缩的数据处理能力针对大数据量、低密度数据的经济高效的模型Hadoop到底是什么?---核心是Map/Reduce例:我们要数图书馆中所有书名中含“Oracle”的数量,怎么数效率最高?你数1号书架,我数2号书架。我们人越多,数书就更快。这就是map。最后我们到一起,把所有人的统计数加在一起。这就是Reduce。……一号书架二号书架三号书架N号书架……+MapReduce对海量非结构数据的这样一种分布式并行处理架构,就是Hadoop的实质,与我们熟悉的数据库技术不同简单的MapReduce示例REDUCESHUFFLE/SORTREDUCEREDUCEMAPMAPMAPMAPMAP使用Map/Reduce扫描所有数据SHUFFLE/SORTSHUFFLE/SORTMAPMAPMAPMAPSHUFFLE/SORTREDUCEREDUCESHUFFLE/SORTSHUFFLE/SORTREDUCEREDUCEREDUCE输入2输入1输出2输出1MAPMAPMAPMAPMAPREDUCEREDUCEREDUCEMAPMAPMAPMAPMAPMAPREDUCEREDUCEMAPMAPMAPMAPMAPREDUCEREDUCEREDUCEOracleLoaderforHadoop使用集群MapReduce工作流的最后阶段分区表和未分区表在线和离线加载SHUFFLE/SORTSHUFFLE/SORTREDUCEREDUCEREDUCEMAPMAPMAPMAPMAPMAPREDUCEREDUCEORACLELOADERFORHADOOPOracleDirectConnectorforHDFS从Oracle数据库直接访问对HDFS的SQL访问外部表视图数据查询或导入DCH外部表DCHDCHSQL查询InfiniBandHDFS客户端HDFSOracle数据库从Oracle数据库访问Hadoop数据OracleLoaderforHadoop用例特性通过JDBC在线加载最简单的未分区表用例通过直接路径在线加载分区表的快速在线加载通过datapump文件离线加载外部表的最快加载方法数据库服务器上的加载较少OracleDirectConnectorforHDFS从Oracle数据库对HDFS进行SQL访问数据留在HDFS上从数据库并行访问与OracleLoaderforHadoop联用访问由OLH创建的文件或导入Oracle表开发MapReduce所需的技能JavaHadoop框架并行算法OracleDataIntegrator简化MapRedu
本文标题:从大数据到大智慧:Oracle大数据解决方案66
链接地址:https://www.777doc.com/doc-13646 .html