您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据基础和行业应用(讲义版)53
大数据基础和行业应用大数据BigData大数据的定义理解什么是大数据大数据时代的背景1大数据的定义理解大数据的“4V”特征2大数据的构成3大数据时代的背景半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。数据量增加TBPBZBEB根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临…大数据时代的背景YBNBBB20世纪90年代,数据仓库之父的BillInmon就经常提及BigData。2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念。大数据时代的背景体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长•占总数据量的80~90%•比结构化数据增长快10倍到50倍•是传统数据仓库的10倍到50倍大数据的异构和多样性•很多不同形式(文本、图像、视频、机器数据)•无模式或者模式不明显•不连贯的语法或句义•大量的不相关信息•对未来趋势与模式的可预测分析•深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析•数据输入、处理与丢弃•立竿见影而非事后见效大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。大数据的构成大数据的技术与应用大数据怎么用大数据技术要解决的问题1大数据的技术与应用大数据的相关技术2大数据的应用实例3Volume海量的数据规模Variety多样的数据类型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的数据流转发现数据价值大数据技术要解决的问题大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据技术要解决的问题技术领域的挑战传统的数据库部署不能处理数TB级别的数据,也不能很好的支持高级别的数据分析,急速膨胀的数据体量即将超越传统数据库的管理能力。因此,需要构建全球级的分布式数据库,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。经典数据库技术并没有考虑数据的多类别(variety),SQL在设计的一开始是没有考虑非结构化数据的。一般而言,像数据仓库、BI等,对处理时间的要求并不高。因此这类应用如果运行1、2天获得结果依然可行的。但大数据应用要求实时处理,这是其区别于传统数据仓库技术、BI技术的关键差别之一。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术•ETL•数据众包(CrowdSouring)数据众包数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外包给非特定的大众网络。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术•ETL•数据众包(CrowdSouring)•结构化、非结构化和半结构化数据•分布式文件系统•关系数据库•非关系数据库(NoSQL)•数据仓库•云计算和云存储•实时流处理分布式文件系统分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统Google文件系统(GoogleFileSystem,GFS)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。分布式文件系统Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。分布式文件系统一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。非关系型数据库NoSQL关系型数据库的局限性•难以满足高并发读写的需求•难以满足对海量数据高效率存储和访问的需求•难以满足对数据库高可扩展性和高可用性的需求非关系型数据库NoSQLNoSQL数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段。非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。非关系型数据库NoSQL云计算和云存储云计算(cloudcomputing),是分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。云计算是一种资源交付和使用模式,指通过网络获得应用所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器。没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀。云计算和云存储云计算和云存储云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术•ETL•数据众包(CrowdSouring)•结构化、非结构化和半结构化数据•分布式文件系统•关系数据库•非关系数据库(NoSQL)•数据仓库•云计算和云存储•实时流处理•A/BTesting•关联规则分析•分类•聚类•遗传算法•神经网络•预测模型•模式识别•时间序列分析•回归分析•系统仿真•机器学习•优化•空间分析•社会网络分析•自然语言分析•MapReduce•R语言A/BTestingA/B测试是可用性测试的一个方法,其核心为:同时实验两个元素或版本(A和B),确定哪个更好。注册按钮由绿色改成红色提高转化率34%人性化的表格提高11%的转化率。MapReduceMapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。它使编程人员在不了解分布式并行编程的情况下,能将自己的程序运行在分布式系统上。Map=映射Reduce=规约或化简MapReduceR语言R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言擅长在Hadoop分布式文件系统中存储的非结构化数据上的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术•ETL•数据众包(CrowdSouring)•结构化、非结构化和半结构化数据•分布式文件系统•关系数据库•非关系数据库(NoSQL)•数据仓库•云计算和云存储•实时流处理•A/BTesting•关联规则分析•分类•聚类•遗传算法•神经网络•预测模型•模式识别•时间序列分析•回归分析•系统仿真•机器学习•优化•空间分析•社会网络分析•自然语言分析•MapReduce•R语言•标签云(TagCloud)•聚类图(Clustergram)•空间信息流(Spatialinformationflow)•热图(Heatmap)标签云标签云(TagCloud)是一套相关的标签以及与此相应的权重。权值影响标签的字体大小、颜色或其他视觉效果。典型的标签云有30至150个标签,用以表示一个网站中的内容及其热门程度。标签通常是超链接,指向分类页面。标签云奥巴马布什克林顿林肯聚类图聚类图(Clustergram)是指用图形方式展示聚类分析结果的技术,可以有助于判断簇数量不同时的聚类效果。空间信息流空间信息流(Spatialinformationflow)是展示信息空间状态的一种可视化技术。热图热图(Heatmap)是一项数据展示技术,将变量值用不同的颜色或高亮形式描绘出来。可以非常直观的呈现一些原本不易理解或表达的数据,比如密度、频率、温度等。热图大数据的应用实例电商数据中心(一)HadoopHiveHBASE(NoSQL)指标体系TMSWMSERP交易…DataXStorm报表体系报告体系运营体系监控体系UDFile移动端关系数据库与Hadoop混搭技术混搭、理念融合电商基本系统名称CMSFMSOMSPMSWMSTMSAMSSCMCRM•根据图的结构信息,判定节点的重要性。•PageRank是google用来根据结构信息判定网页重要性的算法。入选2006年十大数据挖掘经典算法•如果一个页面被多次引用,那么这个页面很可能是重要的。•如果一个页面被重要的页面引用,那么这个页面很可能是重要的。•一个页面的重要性被均分并传递到它所引用的页面。大图数据的概念运营商CDR分析案例•接通率AnswerServiceRate(ASR&AdjustedASR)•完成的呼叫路由尝试(与供应商的表现)•完成呼叫与呼叫尝试(客户满意度)•盈亏
本文标题:大数据基础和行业应用(讲义版)53
链接地址:https://www.777doc.com/doc-26686 .html