您好,欢迎访问三七文档
大数据技术介绍大数据概述01大数据领域的关键技术02大数据行业状况与典型应用03大数据产业的未来发展趋势04目录CONTENT1大数据概述PARTONE•大数据发展的背景•大数据的定义•大数据的特点•大数据面临的问题Customer在⽹络上消费272070美元(双⼗⼀呵呵⼀笑)Website571个新⽹站建立Google接受超过2000000次查询AppStoreAPP被下载47000次Flickr用户新增3125张照片User217名移动⽹络新用户诞⽣Wordpress用户发表347篇⽂章Email使用者寄送204166667封邮件Instagram用户分享3600张照片Facebook使用者上传700000条内容YouTube使用者上传48小时影片Twitter使用者发出超过100000条内容1分钟1.1大数据发展的背景(1)数据爆炸•伴随着互联⽹、物联⽹、电⼦商务、社交媒体、现代物流、⽹络⾦融等⾏业的发展,全球数据总量正呈⼏何级数增长,过去⼏年时间产⽣的数据总量超过了⼈类历史上的数据总和,预计2020年全球数据总量将达到35.2ZB,⼈类将进⼊“泽它”(ZB)时代(1ZB=⼗万亿亿字节)淘宝每天产生的数据超过50TB百度拥有的数据总量超过100PBFacebook每天产生的数据超过100TB纽约证券交易所每天产生1TB的交易数据Twitter每天产生7TB的数据欧洲物理实验室大型例子对撞机每年产生15PB的数据1.1大数据发展的背景(2)感知化、物联化、智能化•感知化:指数据源的变化。传感器、RFID标签、芯片、摄像头遍布世界的各个角落,物理世界中原本不能被感知的事物现在可以被感知,它们通过各种技术被接⼊了互联⽹世界。•物联化:指的是数据传送⽅式的变化。继⼈与⼈、⼈与机器的互联后,机器与机器之间的互联成为当下的发展趋势。未来数据可能来自于自⾏车、电器、道路、自来⽔管,甚⾄是食物的包装盒。•智能化:指的是数据使用⽅式的变化。“没有解释就没有价值”。感知和互联并不是最终的目的,数据只有经处理、分析和计算,从中提取出有价值的东西,才能实现真正的价值。1.1大数据发展的背景(3)大数据在各领域应用中逐渐崭露头角大数据增强社会服务能力洛杉矶智能交通(ATSAC,用感应器收集车速、流量等信息,实时处理)大数据支持政务活动奥巴马竞选中的民意预测(存储和分析选民资料、筹集资金、投放广告)大数据驱动业务发展Netflix精心打造纸牌屋(Cinematch,AWS)大数据提高商业决策水平USXpress的物流运输(用大数据分析车辆状况,对车辆人员进行合理调度)传统的面向应用的开发模式逐渐被数据驱动(DDD)的模式。大数据引发了商业、科研、政务、社会服务等领域的深刻变革1.1大数据发展的背景(4)大数据成为各界争相鼓吹的概念发布白皮书《大数据促发展:挑战与机遇》联合国发布报告《大数据,大影响》达沃斯论坛发布BigData专刊,请研究人员和企业家预测大数据所带来的革新Nature投资两亿美元启动“大数据研究和发展计划”奥巴马政府发布《大数据:创新、竞争力和生产力的下一个前沿》,对大数据的影响关键技术和应用领域进行了详细分析麦肯锡2008.092011.052012.012012.032012.071.2大数据的定义•麦肯锡:⼤数据是指⼤小超出常规的数据库⼯具获取、存储、管理和分析能⼒的数据集。(并不是说⼀定要超过特定TB的数据集才能算⼤数据)•维基百科:⼤数据指的是所涉及的资料量规模巨⼤到⽆法透过目前主流软件⼯具,在合理时间达到获取、管理、处理,并整理成帮助企业经营决策更积极目的的资讯。•Gartner公司:⼤数据是需要新护理模式才能具有更强的决策⼒、洞察发现⼒和流程优化的海量、⾼增长率和多样化的信息资产。•美国国家标准技术研究院(NIST):数据量⼤、获取速度快或形态多样的数据,难以用传统关系型数据分析⽅法进⾏有效分析,或者需要⼤规模的⽔平扩展才能⾼效处理。•国际数据公司(IDC):从⼤数据的4个特征来定义,即海量的数据规模(Volume)、数据处理的快速性(Velocity)、多样的数据类型(Variety)、数据价值密度低(Value),即所谓的4V特性。IBM认为⼤数据还应该具有其真实性(Veracity)。1.3大数据的特点Volume(巨量性)数据体量巨大,数据规模已从GB到TB到PB,甚至开始以EB和ZB计数。Variety(多样性)大数据类型复杂。大量异构数据,多源数据,半结构化数据、非结构化数据大量涌现(即时性)Velocity数据产生、处理和分析速度在持续加快,数据流量大,处理能力从批处理转向流处理(高价值、低价值密度)Value数据体量不断增大,单位数据的价值密度不断降低,而数据的整体价值在提高1.4大数据面临的问题大数据问题分类大数据问题描述速度方面的问题导入导出问题统计分析问题检索查询问题实时响应问题种类及架构问题多源问题异构问题原系统的底层架构问题体量及灵活性问题线性扩展问题动态调度问题成本问题大机与小型服务器的成本对比原有系统改造的成本把控价值挖掘问题数据分析与挖掘问题数据挖掘后的实际增效问题存储及安全问题结构与非结构数据安全隐私安全互联互通与数据共享问题数据标准与接口共享协议访问权限2大数据领域的关键技术PARTTWO•传统数据处理到大数据处理•数据采集、处理与存储•数据理解•数据分析与挖掘技术•总结•大数据处理框架•Hadoop•Spark2.1传统数据处理到大数据处理传统数据分析(数据挖掘、利用)的流程2.1传统数据处理到大数据处理2.1传统数据处理到大数据处理大数据是旧瓶子装了新酒;旧瓶子是原有的数据分析的框架;那么新酒是什么?2.1传统数据处理到大数据处理从4V的角度看“新酒”数据采集、处理与存储——数据采集2.1传统数据处理到大数据处理数据采集、处理与存储——数据采集——问题•数据类型:网络日志、视频、图片、GPS、物联网等类型复杂•数据速度:采集速度快•数据规模:体量庞大,传统数据库、ETL难以处理。2.1传统数据处理到大数据处理数据采集、处理与存储——数据采集——工具工具(工业领域):•Flume(Cloudera公司)•Scribe(Facebook)•Kafka(领英)•TimeTunnel(淘宝)2.1传统数据处理到大数据处理数据采集、处理与存储——数据采集——Flume三类节点:•Master(管理节点)•Collector、Agent(日志收集节点,Agent用于采集数据,Collector汇总多个Agent的数据然后加载到存储系统)一个概念:•DataFlow,即数据传输管道,描述了日志数据从产生到昀终目的地的数据传送过程。首先指定一个数据源(Source)和数据汇聚点(Sink)。数据在此间传输。来源:flume.apache.org2.1传统数据处理到大数据处理数据采集、处理与存储——数据采集——Flume•可靠性——节点故障时,数据被传送到其他节点•可扩展性——每层节点均可以扩展•可管理性——Master进行管理•功能扩展性——根据自己的需求天添加三类节点2.1传统数据处理到大数据处理数据采集、处理与存储——数据处理变化不大,Python、R、Ruby、C、Perl等。2.1传统数据处理到大数据处理数据采集、处理与存储——数据存储数据类型:网络日志、视频、图片、GPS、物联网等类型复杂;数据规模:体量庞大,传统数据库、数据仓库那一存储;数据模式:变化多样,传统关系型数据库难以满足。关系型数据库(ACID)、DW→分布式关系型数据库(海量结构化数据)+分布式文件系统(海量非结构化数据)+NoSQL(海量非结构化数据)2.1传统数据处理到大数据处理数据采集、处理与存储——数据存储——分布式文件系统CAP原理:•C:Consistency•A:Availability•P:Partitiontolerance•HDFS(HadoopDistributedFileSystem)•Lustre(开源的,基于对象存储技术的集群并行文件系统,特点:大规模、安全可靠,高可用性)•GFS(谷歌文件系统,大规模分布式数据,可扩展的分布式文件系统)图片来源:传统数据处理到大数据处理数据采集、处理与存储——数据存储——NoSQL类型部分代表特点列存储HbaseCassandraHypertable顾名思义,是按列存储数据的。昀大的特点是方便存储结构化和半结构化数据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的IO优势。文档存储MongoDBCouchDB文档存储一般用类似json的格式存储,存储的内容是文档型的。这样也就有有机会对某些字段建立索引,实现关系数据库的某些功能。key-value存储TokyoCabinet/TyrantBerkeleyDBMemcacheDBRedis可以通过key快速查询到其value。一般来说,存储不管value的格式,照单全收。(Redis包含了其他功能)图存储Neo4JFlockDB图形关系的昀佳存储。使用传统关系数据库来解决的话性能低下,而且设计使用不方便。对象存储db4oVersant通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据。xml数据库BerkeleyDBXMLBaseX高效的存储XML数据,并支持XML的内部查询语法,比如XQuery,Xpath。2.1传统数据处理到大数据处理2.1传统数据处理到大数据处理数据理解•降维:解决维数灾难(上亿字段),传统的降维方法、流形学习。•可视化:基本没什么变化。2.1传统数据处理到大数据处理数据理解2.1传统数据处理到大数据处理数据分析与挖掘技术•数据挖掘(数值型、分类型数据,一般是矩阵、向量这种结构化的数据)→文本挖掘,NLP,图像,语音(非结构化的数据,转化为结构化的矩阵)。•神经网络算法的崛起,深度神经网络在文本、图像领域的良好表现;图像挖掘一般用(CNN),文本挖掘(RNN)。2.1传统数据处理到大数据处理数据分析与挖掘技术传统数据分析→大数据分析数据收集DB、ETL、传感器、GPS等数据类型、数据量、数据速度;Flume、Scribe、Kafka、TimeTunnel、Chukwa等数据准备(预处理)、数据存储ETL、Python、R等;DB、DW等;数据类型、数据量、数据速度;脚本:C,R,Python,Ruby等;分布式文件系统,分布式数据库,NoSQL数据理解数据降维(PCA、因子分析,奇异值分解、MDS等),可视化(D3,Tableau,Python,R等)数据类型、数据量、流形学习受到钟爱;可视化工具变化不大训练、测试、使用算法算法(分类、聚类、回归、NN、关联等),脚本(Python,C系,R,Java),工具(SAS,SPSS,Matlab等)数据类型、数据量、深度神经网络效果较好2.1传统数据处理到大数据处理总结2.2大数据处理框架HadoopSpark2.2大数据处理框架•Hadoop是一个由Apache基金会所开发的分布式系统基础架构。DougCutting借鉴了GFS系统和GoogleMap-reduce思想来实现的。•Hadoop是一个大数据生态系统,提供了一个能够对大量数据进行数据存储、数据管理、数据分析的可靠、高效、可伸缩的分布式基础架构。Hadoop2.2大数据处理框架Hadoop图片来源:大数据处理框架HDFS——节点•NameNode:是管理节点,存放文件元数据,包括:文件与数据块的映射表,数据块与数据节点的映射表。(独立节点)•DataNode:是工作节点,存放数据块。(多个独立节点)•SecondaryNameNode:确保在NameNode发生故障时,保证高可用性。(NameNode备份节点,分小规模和大规模)•
本文标题:大数据技术介绍
链接地址:https://www.777doc.com/doc-5475054 .html