您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据解决方案v1-段建民52
大数据解决方案段建民:James.duan@oracle.com2013.05.18以下内容仅供参考,不可纳入任何合同。该内容不构成提供任何材料,代码或功能的承诺,并且不应该作为制定购买决策的依据.所描述的有关Oracle产品的任何特性或功能的开发、发布和时间安排均由Oracle自行决定。一、大数据特点二、传统DW处理方式的挑战三、Hadoop技术简述四、Oracle面向大数据的集成解决方案一、大数据特点1.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”—维基百科2.三大特征(3V)1.Volume:数量大(Twitter1.75亿用户每天创建9500万条微博;Facebook每天在30万台服务器上处理25Tb数据;YouTube每天上传168Tb视频)2.Velocity:时效性要求高(搜索引擎要求几分钟前的新闻能够被用户查询到)3.Variety:种类和来源多样化(结构化/半结构化/非结构化;关系数据库/数据仓库/互联网网页等)3.通常用于分析型的应用场景,如搜索引擎网页处理、用户行为分析、商业智能(BI)等Oracle对大数据的理解-4V特征具有4V特性的数据称为大数据VolumeVelocityVarietySOCIALBLOGSMARTMETERValue101100101001001001101010101011100101010100100101•多结构化数据Variety•文本/图片/视频/文档等•增长速度很快Velocity•海量数据的及时有效分析•用户基数庞大/设备数量众多/实时海量/数据指数级别增长•价值密度低Value•单条数据并无太多价值,但庞大的数据量蕴含巨大财富•巨大的数据量Volume•集中储存/集中计算已经无法处理巨大的数据量3亿用户,每天上亿条微博中型城市每月数十亿智能电表数据2015年全球移动终端产生的数据量6300PBWhyOracle?Stream|Acquire|OrganizeOracleExadataOracleExalyticsVolumeVarietySOCIALBLOGSMARTMETERVelocityUnstructuredDataValue101100101001001001101010101011100101010100100101二、传统DW数据处理方式的挑战海量数据的出现、数据结构的改变,对数据管理及分析带来挑战传统数据源VS新数据源非结构化半结构化数据结构化数据数据量、复杂的数据种类剧增带来新的挑战更多的多样化数据结构化和非结构化的内外部数据快速增长更多的意外问题能够根据需要以自助方式挖掘数据、添加新数据和构建分析更多的变化和不确定性预定义的模型、信息板和报告无法满足意外业务需求需要革新的技术手段Hadoop技术Hadoop几乎成为大数据处理的事实标准•海量数据“分而治之”------批量分布式并行计算Hadoop•海量数据“灵活多变”------实时分布式高吞吐高并发数据存取处理NoSQL•海量数据“跨越鸿沟”------大数据超高速装载进数据库Hadoop包括两个部分:1.HDFS(Hadoop分布式文件系统)HadoopDistributedFileSystem2.MapReduce的实现三、Hadoop技术简述分布式文件系统MapReduce编程范式高度可伸缩的数据处理能力Hadoop两大核心设计MapReduceMap:任务分解Reduce:结果的汇总HDFSNameNodeDataNodeClientHadoop架构论述Hadoop包括两个部分:1.HDFS(Hadoop分布式文件系统)HadoopDistributedFileSystem2.MapReduce的实现HDFS简述•将数据分布在集群上•多个副本•通过添加节点实现扩展HDFS用例:•点击流存储和分析–持续时间超过X分钟的Web会话数–浏览频率最高/最低的页面–按钟点和源位置进行会话时间分组•舆情分析–多少个评论包含单词或词组•关系发现–哪些项目看似在时间或相近性方面相关–X和Y有多少次相近MapReduce的简单示例REDUCESHUFFLE/SORTREDUCEREDUCEMAPMAPMAPMAPMAPInputOutput输入-Map–shuffle–Reduce-输出使用Map/Reduce扫描所有数据SHUFFLE/SORTSHUFFLE/SORTMAPMAPMAPMAPSHUFFLE/SORTREDUCEREDUCESHUFFLE/SORTSHUFFLE/SORTREDUCEREDUCEREDUCE输入2输入1输出2输出1MAPMAPMAPMAPMAPREDUCEREDUCEREDUCEMAPMAPMAPMAPMAPMAPREDUCEREDUCEMAPMAPMAPMAPMAPREDUCEREDUCEREDUCER统计编程语言开源语言和环境用于统计计算和统计绘图能够轻松制作出版级高质量图表高度可扩展四、Oracle面向大数据的解决方案体系决策分析OracleNoSQL数据库HDFSRDBMS获取组织OracleDataIntegratorOracle大数据连接器Hadoop(MapReduce)数据库内分析数据仓库分析应用程序软硬一体优化集成的Oracle大数据综合解决方案OracleBigDataApplianceOracleExadataInfiniBand捕获组织分析InfiniBandOracleExalytics决策OracleBigDatasolutionOracleExalyticsInfiniBandOracleReal-TimeDecisionsOracleBigDataApplianceOracleExadataInfiniBandAcquireOrganize&DiscoverAnalyzeDecideEndecaInformationDiscoveryClouderaHadoopOracleNoSQLOpen-SourceRBigDataConnectorsOracleDataIntegratorOracleBusinessIntelligenceOracleAdvancedAnalyticsOracleDatabaseOracleSpatialandGraphOracleLoaderforHadoop使用集群技术MapReduce工作流的最后阶段分区表和未分区表在线和离线加载SHUFFLE/SORTSHUFFLE/SORTREDUCEREDUCEREDUCEMAPMAPMAPMAPMAPMAPREDUCEREDUCEORACLELOADERFORHADOOPOracleDirectConnectorforHDFS从Oracle数据库直接访问对HDFS的SQL访问外部表视图数据查询或导入DCH外部表DCHDCHSQL查询InfiniBandHDFS客户端HDFSOracle数据库OracleNoSQL数据库节点东部节点西部节点中部NoSQL驱动程序应用程序NoSQL驱动程序应用程序读取删除读取更新分布式键值对数据库简单编程模型可伸缩的吞吐量商业软件和支持易于管理Oracle的这个NoSQLDatabase,是在2011年10月4号的甲骨文全球大全上发布的BigDataAppliance的其中一个组件,BigDataAppliance是一个集成了Hadoop、NoSQLDatabase、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。OracleNoSQL数据库主要特性简单数据模型:•简单数据模型—键值对(主键+次键模式)•简单操作—读取/插入/更新/删除,RMW支持•事务范围—主键内的记录、单一API调用•无序扫描所有数据(非事务)ACID事务:•按操作逐个指定,应用程序设置默认值•可配置的持久性策略同步策略+副本确认策略•可配置的一致性策略独特优势:•与Oracle体系无缝集成•商业级•可伸缩•简单编程模型•易于管理OracleNoSQL数据库复制了应用服务器驱动程序链接到每个应用程序中数据节点保持最新存储节点跨多个数据中心自动处理存储节点故障-优雅降级-自动发现无单点故障企业拓扑OracleNoSQL数据库用例•数据捕获–传感器数据捕获(即信息家电、智能电网、地球科学、生物医学科学)–统计信息和网络捕获(QOS网络管理)–Web应用(一路点击式捕获)–针对移动设备的备份服务•数据服务–NoSQL数据共享(地球科学、生物医学)–可伸缩的身份验证–实时通信(MMS、SMS、路由)–社交网络、个性化从Oracle数据库访问Hadoop数据OracleLoaderforHadoop用例特性通过JDBC在线加载最简单的未分区表用例通过直接路径在线加载分区表的快速在线加载通过datapump文件离线加载外部表的最快加载方法数据库服务器上的加载较少OracleDirectConnectorforHDFS从Oracle数据库对HDFS进行SQL访问数据留在HDFS上从数据库并行访问与OracleLoaderforHadoop联用访问由OLH创建的文件或导入Oracle表开发MapReduce所需的技能JavaHadoop框架并行算法OracleDataIntegrator简化MapReduce自动生成MapReduce代码管理进程加载到数据仓库OracleLoaderforHadoopOracleDataIntegratorOracleREnterprise更快可伸缩高度安全在数据库中运行模型可处理大型数据集发挥OracleDatabase11g和Exadata的强大能力代码相同,而速度更快OracleAdvanceAnalyticsROracleRConnectorforHadoopOracle数据库强大分析平台新增OracleAdvancedAnalytics2英里统计数据挖掘文本图形空间语义Oracle大数据增强Exadata数据分析能力ExadataStorageLayerSmartScanEHCCFlashXMLRelationalOLAPSpatialDataLayerRDFMediaOpenSourceAnalyticsHadoopExternalDataWeblogsXML/TextMediaSocialDataNoSQLDBOracleRDataMiningTextAnalyticsandSearchSpatialAnalyticsSQLAnalyticsOracleMapReduceParallelProcessingEngineOracleExadataOracle大数据增强Exadata数据分析能力OracleExadataMassiveScalabilityEverythingParallelDeepAnalyticsReal-TimePrivateCloudSecureOracleBI&AnalyticsBigDataApplianceOracle面向大数据的集成解决方案体系决策分析OracleNoSQL数据库HDFSRDBMS获取组织OracleDataIntegratorOracle大数据连接器Hadoop(MapReduce)数据库内分析数据仓库分析应用程序 商务智能辅助决策-快如闪念的交互式分析交互式分析自由挖掘密集可视化完全移动 快如闪念的交互式最终用户体验•高度交互式分析•自由格式数据挖掘•高密度可视化•视图自动建议•上下文相关的操作•全面支持移动OracleExalytics智能分析服务器首个集成设计的分析系统无限制的可视分析更智能的分析应用程序内存中分析软件Essbase适用于Exalytics的TimesTen自适应内存工具1TBRAM40个处理内核高速联网内存中分析硬件OracleBIFoundationSuiteOracleExalytics内存中分析探索式自适应内存缓存–确定在内存中存放哪
本文标题:大数据解决方案v1-段建民52
链接地址:https://www.777doc.com/doc-28543 .html