您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据应用与分析技术
1大数据应用与分析技术2数据知识决策关联模式趋势相关分类市场定位资金分配产品选择广告营销时机选择位置选择行业细化数字化多媒体多维度大规模细粒度大数据时代到来!342008201020112012概念最初提出:《Nature》推出了BigData专刊2008美国国家科学基金:发布大数据指南2012麦肯锡助推:2011年5月,麦肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,推动了工业界和学术界对大数据的关注2011.5列入维基百科:2010年4月21日,首次列入“维基百科”条目2010.4海量、多样、分布的、异构的数据。IBM:在产品发布会上主推大数据概念2011.11Science推出专刊《DealingwithData》,说明大数据对于科学研究的重要性2011.2概括为四个V:大规模(Volume)多样化(Variety)快速增长(Velocity)潜藏价值(Value)“大数据是指具有以下三个特征的数据:大数据量(volume)、快速增长(velocity)及多数据来源及类型的数据(variety)“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”6形式多样(Variety)信息价值(Value)产生高速(Velocity)规模巨大(Volume)“大数据”是指数据海量、计算复杂的数据集合,其在一定时间内难以依靠已有数据处理技术来进行有效的采集、管理和分析。大数据通常满足“4V”特点。——方滨兴数量海量计算复杂大数据就像“航母”•利用起来是“威力巨大”;放着不动也“消耗巨大”非结构化数据的超大规模,比结构化数据增长快10倍到50倍。实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效异构性(文本、图像、视频、机器数据),模式不明显,语法语义不连贯大量的不相关信息,对未来趋势与模式的深度复杂分析(机器学习、人工智能)7互联网数据2011年全球数据产生量达到1.8ZB,以每本书10MB计算,这个数字相当于七百万个中国国家图书馆的容量。医疗保健数据IBM建立的医疗保健和生命科学网格系统,2003年已有数据30PB,2006年增长至192PB,2012年超过500PB。海洋气象数据美国国家海洋大气总署NOAA年数据量高达30PB,从卫星,船只,飞机,浮标,以及它处传感器获取超过35亿份观测数据。基因工程美国国立基因组研究所宣布,“千人基因计划”所产生的数据总量已达到200TB,成为世界上最大的人类基因变异数据集。形式多样(Variety)信息价值(Value)产生高速(Velocity)规模巨大(Volume)数据的度量尺度1KB=103B1MB=106B1GB=109B1TB=1012B1PB=1015B1EB=1018B1ZB=1021B1YB=1024B从TB级别,跃升到PB级别,甚至ZB级别8GBTBPBEBZB地球上至今总共的数据量:2006年,全球新产生了约180EB的数据2011年,这个数字达到了1.8ZB至2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)020000400006000080000100000120000140000201220132014201520162017TotalIPTrafficPBperMonth至2017年,全球IP流量达每年1.4ZB,年复合增长率达23%连入IP网络的设备是世界人口的三倍新摩尔定律:数据量每18个月翻一番9电信运营数据中国联通上网记录每秒83万条,每月1万亿条(300TB)天文数据美国大口径望远镜每两周对太空观测一遍,每天产生16TB数据,5年总数据量将达到15PB。企业运行数据2000年全球新产生的数据量为1000PB到2000PB,到2010年仅仅全球企业一年新存储的数据量就超过了7000PB。形式多样(Variety)信息价值(Value)产生高速(Velocity)规模巨大(Volume)数据持续产生高速,并要求实时处理数据的度量尺度1KB=103B1MB=106B1GB=109B1TB=1012B1PB=1015B1EB=1018B1ZB=1021B1YB=1024B10Internet上1分钟发生了:•639TBIP流量•2亿封邮件•70万Facebook更新•30小时Youtube新增视频•70万Google搜索11形式多样(Variety)信息价值(Value)产生高速(Velocity)规模巨大(Volume)各种数据类型现在的数据类型不仅是文本形式,90%是文字、图片、音频、视频、地理位置信息等非结构化数据,个性化数据占绝对多数。文字图片音频视频地理信息数据类型繁多,如文本、视频、音频、图片等及其变化组合1225+TBsoflogdataeveryday?TBsofdataeveryday2+billionpeopleontheWebbyend201130billionRFIDtagstoday(1.3Bin2005)4.6billioncameraphonesworldwide100sofmillionsofGPSenableddevicessoldannually76millionsmartmetersin2009…200Mby2014数据来源和数据通道12+TBsoftweetdataeveryday13形式多样(Variety)信息价值(Value)产生高速(Velocity)规模巨大(Volume)信息价值以视频为例,7X24小时的全城监控视频中,可能有用的数据仅仅只有一两秒。可用信息在数据总量中的比例低,但其潜在价值巨大从视频中发现犯罪嫌疑人周克华可用信息在数据总量中的比例低,但其潜在价值巨大14VolumePB+数据处理实时数据流数据非再现数据TBPBEB结构化非结构化半结构化价值Velocity实时处理Value海量数据挖掘Variety多数据类型交叉分析15大数据分析技术是对大数据的产生、存储、挖掘和展现的全生命周期进行综合分析处理的过程.16通过大数据分析,可以发现隐藏于其中的有价值的信息和知识.17FBI和警察局依赖于庞大的数据基础,包括媒体对马拉松赛报道的大量图片、视频,以及来自互联网用户上传的大量现场图像和视频,快速定位嫌疑人2013年4月15日下午2时50分,科普里广场有两枚炸弹分别于终点线附近观众区及一家体育用品店先后被引爆。此次爆炸造成3人死亡,183人受伤,17人情况危急。引起了国际社会的广大关注美国波士顿于4月15日举行第117届波士顿马拉松大赛,现场产有大量观众、记者等通过手机、相机等设备拍照,产生了大量的视频、图片数据18Google基于搜索数据和历史信息,预测流行性感冒的爆发与强烈等级。•2009成功预测美国甲型H1N1爆发;•2013年1月准确判定美国的流感活动等级为“强烈”(与美国疾病防控中心的报告一致)2013年1月192003年美国华盛顿大学人工智能负责人开发了Farecast系统并成立公司,通过2000亿条数据记录帮助预测美国国内航班的票价。目前系统预测准确度达到75%以上,平均每张机票节省50美元20•2012年1月23日英国两名游客飞往美国,出发前在社交网站推特上发布:“提前八卦一下,这周过后,我要前往美国摧毁它。”•美国国土安全部通过情报分析技术发现其言论,将其列为潜在威胁,怀疑他策划到美国实施犯罪。•这两人带着手提箱到达洛杉矶国际机场,持枪警卫立即将他们逮捕并没收了他们的护照。21微软专家DavidRothschild通过大数据分析,对第85届奥斯卡各奖项的归属进行成功预测。•DavidRothschild预测的最佳导演奖得主是斯蒂芬·斯皮尔伯格(影片《林肯》),而最终拿下该奖项的华裔导演李安。•除最佳导演外,其它各项奖预测全部命中。22几千年前:基于观察和经验,描述自然现象几百年前:基于理论和模型,解释自然现象几十年前:基于计算技术,模拟复杂现象当今:基于大数据分析,统一理论、实验和模拟--图灵奖获得者JimGray23发布数据用户产生数据Web1.0250,000网站Web2.0发布数据用户产生数据CyberspaceAnyPersonAnyWhereAnyTime•全球每天通过Internet网络传输的电子邮件多达2100亿封。•Facebook每月新增10亿照片和1000万个视频。•腾讯公司注册用户超过7亿,同时在线人数超过1亿。•某微博网站4亿多节点,4亿多节点,12亿次用户访问,2TB每天用户访问日志。05001,0001,5002,000201120102009200820071,6001,200700500161Exabytes•根据IDC的报告,2012年全球的数据总量为2.7ZB,预计到2020年,全球的数据总量将达到35ZB。5年的信息量增加10倍!24251识别商业问题2业务问题建模3数据资本分析4数据源分析5数据集成6数据分析数据清洗7问题求解8行动与反馈2627获取数据数据库非结构数据应用接口互联网物联网数据集成ETL,ELT,复制,数据联邦数据质量保障清洗,标准化,增补,语义一致性统一管理、统一维护主数据管理、主数据仓库数据分发报表分析,仪表盘,多维数据分析,智能决策支持,预警预测OLAPSOURCESYSTEMSDATAMARTSINFORMATIONINTEGRATIONWAREHOUSEPEOPLEMASTERDATA28数据质量控制数据重新组织EII解决方案数据质量控制数据重新组织EII解决方案数据质量控制数据重新组织EII解决方案企业信息集成(EII)数据展现数据管理数据获取数据迁移数据清洗数据仓库元数据管理数据集市管理安全性、分析管理最终用户数据质量控制数据重新组织ETL解决方案数据抽取、迁移、加载周数据加载日常数据增加日周期ETL周日周期数据源ETL数据存储管理业务模型数据展现利润成本分析资产分析营销分析投资组合分析平衡记分卡/KPI解决的业务问题利润成本分析资产分析营销分析投资组合分析平衡计分卡数据分析采购系统生产系统销售系统财务系统采购系统生产系统销售系统财务系统数据仓库企业数据模型RDMDDBDW即席查询Intranet/Internet产品报告数据挖掘OLAP分析随即查询报表例外分析数据挖掘决策人员管理人员分析人员业务人员实时增量虚拟数据仓库实时增量虚拟数据仓库实时增量实时增量虚拟数据仓库访问工具ODS元数据管理(业务元数据、技术元数据等)29企业主数据ETL(抽取、转换、加载)即席查询、预定义报表、自定义报表、OLAP、数据挖掘、专题分析模型元数据管理Web服务器客户端客户端客户端客户端客户端大客户分析数据集市财务分析数据集市客户分析数据集市...模型库业务数据库业务数据库业务数据库业务数据库业务数据库业务发展分析客户分析大客户分析用户发展分析收益情况分析服务质量分析营销管理分析财务分析渠道分析反欺诈专题分析客户流失专题分析...30Businessdatawarehouse业务系统(Operationalsystems)数据集市(Datamarts)操作数据存储(Operationaldatastore)元数据(MetaData)31源数据、目标数据数据描述(名称、意义、用途)数据结构(数据项、意义、类型、长度、约束)数据源描述(业务数据库、外部数据、文件系统、Web挖掘)数据操作数据验证及计算规则数据抽取和转换规则分析模型维度模型、挖掘模型安全模型数据访问控制、敏感数据保护32主数据管理(MDMMasterDataManagement)描述了一组规程、技术和解决方案,这些规程、技术和解决方案用于为所有利益相关方(如用户、应用程序、数据仓库、流程以及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性。降低成本数据维护成本,存储成本,采集成本,分发成本333435363
本文标题:大数据应用与分析技术
链接地址:https://www.777doc.com/doc-4204893 .html