您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据-大数据技术177
S大数据技术张博士2015年5月8/1/2019目录S大数据技术概论S云数据库技术S数据挖掘技术S商业智能8/1/2019BigData名词由来20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念8/1/2019大数据的产生S21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。S互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。8/1/2019数量级概念S1KB=2(10)B=1024B;S1MB=2(10)KB=1024KB=2(20)B;S1GB=2(10)MB=1024MB=2(30)B。S1TB=2(10)GB=1024GB=2(40)BS1PB=2(10)TB=1024TB=2(50)BS1EB=2(10)PB=1024PB=2(60)B8/1/2019数量级概念SKilobyte(KB)=1024B相当于一则短篇故事的內容。SMegabyte(MB)=l024KB相当于一則短篇小說的文字內容。SGigabyte(GB)=1024MB相当于贝多芬第五交响乐的演奏视频內容。STerabyte(TB)=1024GB相当于一家大型医院中所有的X光照片信息。SPetabyte(PB)=l024TB相当于50%的全美学术图书馆信息內容。SExabyte(EB)=1024PB;5EB相当于至今全世界人类所讲过的话语。8/1/2019信息通讯进入新时代8/1/2019摩尔定律8/1/2019后摩尔时代8/1/2019计算机演进8/1/2019信息计算体系演进8/1/2019软件技术网络化演进8/1/2019传输技术的发展8/1/2019从移动数据到移动流媒体8/1/2019移动通信峰值速率的提升8/1/2019互联网发展:从电信到泛在服务8/1/2019联网主机数量8/1/2019电视网络化智能化与三网合一8/1/2019视频流量成为主流8/1/2019全球骨干网流量8/1/2019中国互联网干线带宽8/1/2019中国互联网用户8/1/2019移动终端功能的演进8/1/2019移动互联网加快普及8/1/2019智能终端引领后PC时代8/1/2019移动数据流量超过话音8/1/2019全球移动数据流量8/1/2019移动互联网流量8/1/2019互联网上1分钟8/1/2019互联网上的1天8/1/2019照片8/1/2019大数据时代到来8/1/2019大数据定义8/1/2019大数据例子8/1/2019科学研究催生大数据8/1/2019物联网催生大数据8/1/2019安全监控的数据量8/1/2019环境监测催生大数据8/1/2019医疗病历隐藏大数据8/1/2019国际关注大数据8/1/2019大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效8/1/2019大数据的4V8/1/2019大数据的划分8/1/2019大数据技术挑战8/1/2019大数据技术挑战8/1/2019大数据平台技术8/1/2019分布式存储与架构8/1/2019大数据的并行处理8/1/2019大数据并行处理分析8/1/2019大数据可视化分析8/1/2019虚拟化与可视化8/1/2019大数据可视化8/1/2019目录S大数据技术概论S云数据库技术S数据挖掘技术S商业智能8/1/2019Google云数据库8/1/2019Google云数据库8/1/2019Google云数据库8/1/2019Google云数据库SGFS架构8/1/2019Google云数据库8/1/2019Google云数据库8/1/2019Google云数据库8/1/2019Google云数据库8/1/2019Google云数据库8/1/2019Google云数据库8/1/2019GoogleVsHadoop8/1/2019SHaddop是什么8/1/2019Hadoop发展编年8/1/20198/1/2019Hadoop子项目8/1/2019Hadoop特性8/1/20198/1/2019Hadoop物理部署8/1/2019Hadoop集群8/1/2019Hadoop用户8/1/2019HDFS8/1/2019HDFS8/1/2019HDFS能做什么S适合S不适合8/1/2019HDFS组件8/1/2019HDFS主要组件功能8/1/2019HDFS架构8/1/2019HDFS文件8/1/2019HDFSNameNode8/1/20198/1/2019HDFSDataNode8/1/2019HDFS可靠性保障8/1/2019HDFS可靠性保障8/1/2019HDFS可靠性保障8/1/2019提升性能的措施8/1/2019HDFS:节点失效是常态8/1/2019DataNode磁盘挂了8/1/2019DataNode机器挂了8/1/2019NameNode挂了8/1/20198/1/2019Client挂了8/1/2019MR+HBase8/1/2019WhyMapReduce?8/1/2019大规模数据分析8/1/2019大规模数据处理8/1/2019MR特性8/1/2019M+R8/1/20198/1/2019MR编程8/1/20198/1/20198/1/20198/1/20198/1/2019单一Reduce处理8/1/2019多个Reduce处理8/1/2019MR流程8/1/20198/1/2019目录S大数据技术概论S云数据库技术S数据挖掘技术S商业智能8/1/2019数据挖掘技术的由来大量信息在给人们带来方便的同时也带来了一大堆问题:第一:是信息过量,难以消化;第二:是信息真假难以辨识;第三:是信息安全难以保证;第四:是信息形式不一致,难以统一处理。网络之后的下一个技术热点8/1/2019数据挖掘技术的由来“要学会抛弃信息”“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”数据开采和知识发现(DMKD)技术应运而生网络之后的下一个技术热点8/1/2019数据挖掘技术的由来随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。数据爆炸但知识贫乏8/1/2019数据挖掘技术的由来•海量数据搜集•强大的多处理器计算机•数据挖掘算法支持数据挖掘技术的基础8/1/2019数据挖掘技术的由来从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机,磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBC,Oracle,Sybase,Informix,IBM,MicrosoftOracle,Sybase,Informix,IBM,Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP),多维数据库,数据仓库Pilot,Comshare,Arbor,Cognos,Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法,多处理器计算机,海量数据库Pilot,Lockheed,IBM,SGI,其他初创公司提供预测性的信息8/1/2019数据挖掘技术的由来数据挖掘逐渐演变的过程算法学习专家系统机器学习8/1/2019数据挖掘的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。技术上的定义及含义8/1/2019数据挖掘的定义•数据源必须是真实的、大量的、含噪声的;•发现的是用户感兴趣的知识;•发现的知识要可接受、可理解、可运用;•并不要求发现放之四海皆准的知识,仅支持特定的发现问题技术上的定义及含义8/1/2019数据挖掘的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。商业角度的定义8/1/2019数据挖掘的定义数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.数据挖掘与传统分析方法的区别8/1/2019数据挖掘的定义数据仓库是为决策支持而不是为事务处理所设计的数据库,它是将不同来源的事务处理数据库中对决策有用的数据提取出来而建立。数据仓库的发展是数据挖掘的动力之一。但数据挖掘既可以在数据仓库中进行,也可以在传统的事务型数据库中进行。数据挖掘和数据仓库8/1/2019数据挖掘的定义数据挖掘和数据仓库数据源数据仓库各分公司数据集分析数据集数据挖掘数据集8/1/2019数据挖掘的定义•在线分析处理(OLAP,On-Lineanalyticalprocessing)是一种增强的查询技术,是决策支持领域的一部分。但又不同于传统的查询技术。•传统的查询和报表工具是告诉你数据库中都有什么(whathappened),OLAP则更进一步告诉你下一步会怎么样(Whatnext)、和如果我采取这样的措施又会怎么样(Whatif)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。数据挖掘和在线分析处理8/1/2019数据挖掘的定义比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。数据挖掘和在线分析处理8/1/2019数据挖掘的定义数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。数据挖掘和在线分析处理比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。8/1/2019数据挖掘的定义数据挖掘,机器学习和统计分析数据挖掘统计分析预测8/1/2019数据挖
本文标题:大数据-大数据技术177
链接地址:https://www.777doc.com/doc-26282 .html