您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 电子商务 > 【世界电子商务网的经营计划书】(DOC47页)
第7讲大数据核心技术大数据技术简介大数据相关技术大数据处理系统Hadoop介绍实践:Hadoop、Masout大数据的产生大数据的产生a.科学研究b.物联网的应用c.海量网络信息的产生何谓范式?何谓科学范式?何谓科学研究的第4范式?Volume海量的数据规模Variety多样的数据类型ValueVelocity快速的数据流转发现数据价值大数据技术要解决的问题大数据技术面临的挑战对现有数据库管理技术的挑战实时性技术的挑战网络架构、数据中心、运维的挑战大数据分析技术特点大数据算法设计原则大数据处理流程大数据处理流程第7讲大数据核心技术大数据技术简介大数据相关技术大数据处理系统Hadoop介绍大数据的相关技术•ETL•数据众包(CrowdSouring)•结构化、非结构化和半结构化数据•分布式文件系统•关系数据库•非关系数据库(NoSQL)•数据仓库•云计算和云存储•实时流处理•A/BTesting•关联规则分析•分类•聚类•遗传算法•神经网络•预测模型•模式识别•时间序列分析•回归分析•系统仿真•机器学习•优化•空间分析•社会网络分析•自然语言分析•MapReduce•R语言•标签云(TagCloud)•聚类图(Clustergram)•空间信息流(Spatialinformationflow)•热图(Heatmap)大数据关键技术云计算分布式文件系统NoSQL数据库批处理方式流处理方式可视化技术云计算概念云计算(CloudComputing):利用分布式计算和虚拟资源管理等技术,通过网络将分散的ICT资源(包括计算与存储、应用运行平台、软件等)集中起来形成共享的资源池,并以动态按需和可度量的方式向用户提供服务。用户可以使用各种形式的终端(如PC、平板电脑、智能手机甚至智能电视等)通过网络获取ICT资源服务。两个最大特点:可无限延伸扩展;基于互联网的服务k云计算特征-13-数据在云端:不怕丢失,不必备份,可以任意点的恢复;软件在云端:不必下载自动升级;无所不在的计算:在任何时间,任意地点,任何设备登录后就可以进行计算服务;无限强大的计算:具有无限空间,无限速度。硬件为中心软件为中心服务为中心PCC/S云计算云提供的服务层次IaaS:InfrastructureasaServicePaaS:PlatformasaServiceSaaS:SoftwareasaService白云下面数据跑蓝蓝的天上白云飘大数据是资产,云为数据资产提供存储、访问和计算服务大数据与云计算云计算与大数据分布式文件系统分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。何谓文件系统?何谓集成式文件系统?何谓分布式文件系统?分布式文件系统GFSGFS将整个系统分为三类角色:Client(客户端)、Master(主服务器)、ChunkServer(数据块服务器)。GFS体系结构NoSQL数据库¾关系型数据库的局限性•难以满足高并发读写的需求•难以满足对海量数据高效率存储和访问的需求•难以满足对数据库高可扩展性和高可用性的需求NoSQL数据库¾NoSQL数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段。非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。NoSQL与关系数据库的比较弱NoSQL的四大分类键值(Key-Value)存储数据库列存储数据库文档型数据库图形(Graph)数据库典型NoSQL数据库典型NoSQL数据库Bigtable数据库Bigtable设计目的是可靠地处理PB级别的数据,并且能够部署到上千台机器上。Bigtable已经在超过60个Google的产品和项目上得到了应用,包括GoogleAnalytics、GoogleEarth等。DynamoDB数据库DynamoDB是Amazon提供的共享式数据库云服务,可用性和扩展性都很好,性能也不错:读写访问中99.9%的响应时间都在300ms内。DynamoDB通过服务器把所有的数据存储在固态硬盘(SSD)上的三个不同的区域。如果有更高的传输需求,DynamoDB也可以在后台添加更多的服务器。DynamoDB数据库DynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性。ImageID=1Title=flowerTags=flower,jasmine,whiteRatings=3,4,2一个属性是一个“名称-值”对(name-valuepair),“名称”必须是一个字符串,“值”可以是一个字符串、数字、字符串集合或数字集合。下面是关于属性的一些实例:DynamoDB数据库DynamoDB把数据组织成表的形式,表中包含项目(item),每个项目包含1个或多个属性(Attibute)。项目由属性构成。必须指定一个属性作为主键,这个主键在DynamoDB表中唯一地标识一个项目。除了主键是必须的,其他项目属性是可选的。一个项目的属性没有顺序关系。某个项目中的属性和同一个表中的其他项目的属性也没有关系。项目被存储在表中,表中的所有项目都具有相同的主键机制(primarykeyscheme)。每个项目都具备一个唯一的主键值。DynamoDB数据库DynamoDB把数据组织成表形式,它包含了项目(item),每个项目包含1个或多个属性(Attibute)。DynamoDB数据库DynamoDB并没有DB的概念,目前单用户最多能创建256个Table,同时DynamoDB提供了11个API接口操作表和项目。HBaseandCassandraHBase:HadoopDatabase,是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力,是Hadoop项目的子项目。Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与AmazonDynamo的完全分布式的架构于一身。Facebook于2008年将Cassandra开源,此后被Digg、Twitter等知名Web2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。MongoDB数据库MongoDB是一个基于分布式文件存储的数据库。由C++语言编写,是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,可以存储比较复杂的数据类型。它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。分布式处理和并行处理分布式处理(distributedprocessing)和并行处理(Parallelprocessing)是为了提高处理速度采用的两种不同的体系架构。并行处理是利用多个功能部件或多个处理机同时工作来提高系统性能或可靠性的计算机系统,这种系统至少包含指令级或指令级以上的并行。分布式处理则是将不同地点的,或具有不同功能的,或拥有不同数据的多台计算机通过通信网络连接起来,在控制系统的统一管理控制下,协调地完成大规模信息处理任务的计算机系统。A/BTestingA/B测试是可用性测试的一个方法,其核心为:同时实验两个元素或版本(A和B),确定哪个更好。注册按钮由绿色改成红色提高转化率34%人性化的表格提高11%的转化率。计算公式:网站转化率=进行了相应的动作的访问量/总访问量指标意义:衡量网站内容对访问者的吸引程度以及网站的宣传效果R语言R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言擅长在Hadoop分布式文件系统中存储的非结构化数据上的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。标签云标签云(TagCloud)是一套相关的标签以及与此相应的权重。权值影响标签字体大小、颜色或其他视觉效果。典型的标签云有30至150个标签,用以表示一个网站中的内容及其热门程度。标签通常是超链接,指向分类页面。TagClouds的属性一般有四种:字号-一般与数目有关;排列-字典顺序、随机;颜色-固定渐进色、是否加背景等;字体-一般为固定标签云奥巴马布什克林顿林肯标签云聚类图聚类图(Clustergram)是指用图形方式展示聚类分析结果的技术,可以有助于判断簇数量不同时的聚类效果。空间信息流空间信息流(Spatialinformationflow)是展示信息空间状态的一种可视化技术。热图热图(Heatmap)是一项数据展示技术,将变量值用不同的颜色或高亮形式描绘出来。可以非常直观的呈现一些原本不易理解或表达的数据,比如密度、频率、温度等。第7讲大数据核心技术大数据面临挑战大数据相关技术大数据处理系统Hadoop介绍批量数据处理系统流式数据处理系统交互式数据处理图数据处理系统第7讲大数据核心技术大数据技术简介大数据相关技术大数据处理系统Hadoop介绍Hadoop介绍Hadoop简介HDFS介绍及基本操作MapReduce编程思想MapReduce原理MapReduce脚本编写HadoopJob提交Hadoop简介HDFSMap/ReduceOtherFS•Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS,用来存储大量数据。•Hadoop实现了MapReduce编程模型,用于大规模数据集的并行运算。•Hadoop的MapReduce还可以兼容S3等其他分布式文件系统谁在用Hadoop为什么要用Hadoop?•扩容能力(Scalable):能可靠地存储和处理千兆字节(PB)数据•成本低(Economical):可通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。•高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地处理它们,使处理快速。•可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。Hadoop技术架构hadoop数据处理架构Hadoop和Google架构比较技术架构的比较并行计算模型:MapReduce-MapReduce分布式文件系统:HDFS-GFS数据结构化管理组件:Hbase-BigTable分布式锁服务Zookeeper-ChubbyHBaseMapReduceHDFSBigTableMapReduceGFSHadoop云计算应用ChubbyGoogle云计算应用ZookeeperPigHiveMahout何谓HDFS?HDFS为了做到可靠性(reliability)创建了多份数据块(datablocks)的复制(replicas),并将它们放置在服务器群的计算节点中(computenodes),MapReduce就可以在它们所在的节点上处理这些数据了。HDFS架构HDFS基本操作bin/hadoopdfs–ls/user/显示hdfs指定路径下的文件和文件夹bin/hadoopdfs–putmy_file/data/将本地文件上传到hdfsbin/hadoopdfs–get/tmp/data/my_file将
本文标题:【世界电子商务网的经营计划书】(DOC47页)
链接地址:https://www.777doc.com/doc-30200 .html