您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 从非结构化数据到大数据
从非结构化数据到大数据(BigData)李珈技术总监您所面对的是……非结构化数据75%~85%,2020–35.2ZBRDBMS?丰富的数据来源:Web2.0,电子零售,传感器读数,智能终端……多样的数据结构:非/半结构化,条形码,GPS,图片,医疗记录……Internet,企业内网,传感器网络,GB/TB/PB级……海量的数据总数:微博,B2B,B2C,工业实时监控,全球定位……急速的数据生成:什么是大数据?具有4V特性的数据称为大数据•巨大的数据量Volume•集中储存/集中计算已经无法处理巨大的数据量VOLUMEVELOCITYVARIETYSOCIALBLOGSMARTMETERVALUE1011001010010010011010101010111001010101001001013亿用户,每天上亿条微博中型城市每月数十亿智能电表数据2015年全球移动终端产生的数据量6300PB•多结构化数据Variety•文本/图片/视频/文档等•增长速度很快Velocity•海量数据的及时有效分析•用户基数庞大/设备数量众多/实时海量/数据指数级别增长•价值密度低Value•单条数据并无太多价值,但庞大的数据量蕴含巨大财富2011-大数据年-数据厂商拥抱大数据•Oracle–Cloudera•EMC–MapR•Microsoft–Motonworks•IBM-…Cloudera政府国策-《大数据研究和发展计划》2012,3–未来的新石油CTO白宫科技政策办公室•美国奥巴马政府宣布的“大数据的研究和发展计划”,涉及美国国家科学基金、国家卫生研究院、能源部、国防部、国防部高级研究计划局、地质勘探局等6个联邦政府部门,承诺投资超过两亿美元•卫生研究院--健康与疾病相关的数据集,包括影像、分子、细胞、电生理学、化学、行为、流行病学、临床医学数据集•国际千人基因组计划创建的最大的人类遗传变异研究数据集在亚马逊网站云服务(AWS)上免费公开。大约200TB,相当于1600万个塞满文本资料的文件柜或3万多个标准DVD•能源部到电网,包括宇宙学和天气数据,传感器数据大数据对部分经济领域的影响-数据来源:麦肯锡经济研究院相关经济领域主要影响美国医疗服务业每年价值3000亿美元大约0.7%的年生产率增长全球个人位置数据服务提供商收入1000亿美元或以上最终用户价值达7000亿美元美国零售业可能的净利润增长水平为60%或以上0.5-1.0%的年生产率增长制造业产品开发、组装成本降低达50%运营资本降低达7%欧洲公共部门管理每年价值2500亿欧元大约0.5%的年生产率增长传统DW难以处理大数据•传统DW系统不适用于大数据的分析•数据量过于庞大•绝大部分大数据是垃圾•大数据的多样化格式•需要革新性的技术手段•海量数据“分而治之”------批量分布式并行计算Hadoop•海量数据“灵活多变”------实时分布式高吞吐高并发数据存取处理NoSQL•海量数据“跨越鸿沟”------大数据超高速装载进数据库以某银行审批新的信用卡申请为例得到关于小章的相关信息:-过去的消费行为-过去的还款能力-性别、职业等个人特征银行内部员工通过CRM等系统查询一下内容:-过去的借记卡交易信息-过去的信用卡交易信息在DW中进行OLTP操作进一步获得一下信息:-消费潜力-还款能力-消费习惯进一步,银行员工通过AnalysisSandbox对bigdata做分析社交信息以Bigdata形式展现Bigdata分析报表结论:小章的消费潜力巨大,信用能力强通过CRM分析得到的报表结论:小章是一个信用卡重度使用客户,过去的信用状况良好,常常超支,常常进行网上支付-给予小章信用卡金卡-额度上升到每月10万-提供美金自动购汇服务还可以做的:针对小章进行精准营销,推送相关奢侈品、旅游的,商家联盟信息实时BI分析-结合bigdata和OLTP的信息进行汇总数据的OLAP实时分析进行汇总数据的实时BI分析전략구분小章作为某银行的老客户,需要申请一张新的信用卡行业大数据应用•美国百货商店购物-监管摄像头监控客户的一举一动,几分钟以后,走过的过道、挑选和放下的产品、购买的东西以及捕捉表情瞬间的视频将会被发送至印度班加罗尔的一家数据分析公司MuSigma•沃尔玛数据中心的存储能力超过4PB;Sabre分析航线及销售渠道、客户行为模式等信息•eBay分析平台每天处理的数据量高达100PB•脸谱(Facebook)每月要共享300亿条信息,百度每天要收集几千亿个网页,100PB•电商大数据应用,电信、金融、能源、零售等行业的广泛应用;淘宝-一淘网比较,每天活跃数据50TB10用户移动轨迹和精准用户群集分析应用企业选址,广告推送建议选取目标客户群体大数据分析UserProfileCDR实时精准营销-只给最近的你11给音乐爱好者投放演唱会信息AgeRangeGenderPreference15-20FDesert15-20MVideoGame20-25FCinema20-25MSportware25-30FBeautySalon25-30MCoffeeShop30-35FClothingStore根据用户上网日志,零售消费记录,给用户打上消费喜好标签CEP探测目标用户进入辐射圈就实时投送用户感兴趣的促销广告基于用户360度全面画像的精细化经营智慧商场技术架构NoSQLDB专家系统实时:针对用户的最佳投放查询用户profile位置查询日志,推特位置HDFS用户信息NoSQLDB大数据集缩减BI和分析POS预测购买行为打折信息投放低延迟批处理确定用户专家系统BigDataAppliance信息收集用户Profiles社交信息MapReduceOracleLoaderforHadoop分析模型确定用户NoSQL查询决策投放打折离线Email,mail投放案例:智慧商场数据流图新技术新方法–大数据核心思想:分布式、经济Storage+类OLAP+ETLStorage+分布式实时简单数据存取Hadoop:分布式,大数据集,延时,离线计算NoSQL:分布式,小数据集,灵活,实时,快速读写+120Hadoop是什么?基于廉价PC服务器一个Map/Reduce框架实现一个开源项目一个分布式计算平台一个分布式文件系统Hadoop到底是什么?---核心是Map/Reduce例:我们要数图书馆中所有书名中含“Oracle”的数量,怎么数效率最高?你数1号书架,我数2号书架。我们人越多,数书就更快。这就是map。最后我们到一起,把所有人的统计数加在一起。这就是Reduce。……一号书架二号书架三号书架N号书架……+MapReduce对海量非结构数据的这样一种分布式并行处理架构,就是Hadoop的实质,与我们熟悉的数据库技术不同NoSQL是什么?NotOnlySQL基于廉价PC服务器NoSQL数据格式灵活多变,模型简单,关系偏弱产品众多100+,没有标准分布式海量数据存取和处理解决方案强调高吞吐、高并发、高可用、高分区容错性挑战:利用协同效应大数据,大架构分析决策获取组织Oracle大数据解决方案获取分析组织Oracle(DW)Oracle(OLTP)模式灵活非结构化数据多样性结构化模式化信息密度HadoopHDFSOracleNoSQLDBSpatialGraphOracleAdvancedAnalytics(ODM&ORE)OBIEEOracleMRRNoSQL灵活、特定开发为中心SQL安全、可靠管理为中心2011年OracleOpenWorld宣布推出Oracle大数据机服务器(BigDataAppliance)•软硬一体优化集成的大数据分析服务器•集成最优的开源大数据处理解决方案•全面的大数据处理分析软硬平台OracleNoSQL数据库HDFS企业管理软件OracleDataIntegratorOracleBigDataConnectorsHadoop(MapReduce)Oracle面向大数据的集成解决方案体系获取组织决策分析应用程序分析数据库中的分析数据仓库应用服务器日志和网络行为收集服务器NoSQLDB网页,图像视频存取Hadoop集群批量分析与处理OracleRAC汇总和发布结果信息供商业分析DBLoaderFacebook的大数据处理的层级架构--成为数据驱动型的企业需要混合的处理模式甲骨文大数据战略—聚焦企业级分析OracleBigDataApplianceOracleExadataInfiniBand捕获组织分析InfiniBandOracleExalytics决策驯化大数据为业务服务•软件部分•OracleLinux•OracleJDK•ClouderaHadoopDistribution•ClouderaManager•Open-sourceRdistribution•OracleNoSQLDatabaseCommunityEdition***•OracleBigDataConnector***•ODIAdapterforHadoop•OracleLoaderforHadoop•OracleDirectConnectorforHDFS•OracleRConenctorforHadoop•硬件部分•18SunX4270M2服务器•每台2CPUs*6核•每台48GB内存(可扩展)•12*3TB磁盘空间•网络部分•40GbInfiniBand•10Gb以太网RawStorage:648TCoreCount:216核MemCount:864G–2592GBigDataAppliance一体机----Hadoop+NoSQL+硬件为什么选择Oracle大数据体系?•全面的大数据解决方案+众多的客户实践–BDA+Exadata+Exalytics+云应用•软硬一体预集成–软硬一体,工程化调优–全集成系统,完整机柜,插电即用–Infiniband•全套商业支持–开源软件商业支持Hadoop–操作系统商业支持Linux–硬件商业支持Sunx86•品牌优势–Oracle+Cloudera
本文标题:从非结构化数据到大数据
链接地址:https://www.777doc.com/doc-5373155 .html