您好,欢迎访问三七文档
DT数据发展简史赢在BUSINESSREPORT刘宏仓2017.01.1301数据概述在人类发展历程中,数据表现方式分为两类:模拟数据(声音,文件,图像,视频)数字数据(文字,符号)自从计算机发明以来,数据在计算机中都是以二进制0和1的形式进行保存。鉴于对数据的分类管理需要,随之而来各种各种的数据管理软件应运而生。03数据库系统SQLNoSQL键值存储列存储文档存储图像存储FS04第一阶段:关系型数据库05第一阶段:关系型数据库数据库工程师负责企业数据库模型设计(ER,powerdesigner),表,索引,视图,函数触发器,存储过程,事件,权限简单维护管理数据库开发工程师复杂的统计分析,存储过程开发DBASQL优化,索引优化,参数优化数据库系统高级维护,灾备英文名称为DataWarehouse,简写为DW。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库特性面向主题数据是按照一定的主题域进行组织,一个主题通常与多个操作型信息系统相关集成的必须保证数据仓库内的信息是关于整个企业的一致的全局信息相对稳定某个数据进入数据仓库之后,一般情况下将被长期保留,修改和删除操作很少反映历史变化数据仓库中的数据通常包含历史信息,反映过去某一时点到目前的各个阶段的信息06第二阶段:关系型数据仓库07第二阶段:关系型数据仓库08第二阶段:关系型数据仓库ETLBI09第二阶段:关系型数据仓库数据仓库工程师负责企业数据仓库的规划,建设(EDW),模型设计,数据分层EDW,DW,ODS,DM,DIMETL工程师负责数据抽取,转化,清洗,加工,合并,拆分等,把数据从SRC迁移到DW中BI工程师通过工具或者算法,对企业提供BI应用和报表10第三阶段:非关系型数据库在互联网,移动互联网发展浪潮中,传统关系型数据库已经无法实现和满足某些业务场景的情况下,NoSQL数据库如雨后春笋顺势而发,它是为弥补关系型数据库的不足应运而生。NoSQL数据库并没有一个统一的架构和产品规范,不同NoSQL数据库之间的差异非常大,各个NoSQL数据库各有所长,成功的NoSQL数据库必然特别适用于某些场合或者某些应用。11第三阶段:非关系型数据库这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。如:TokyoCabinet/Tyrant,Redis,Voldemort,OracleBDB,Memcached。键值存储数据库12第三阶段:非关系型数据库这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:BigTable,Cassandra,HBase,Riak。列存储数据库133第三阶段:非关系型数据库文档型数据库的灵感是来自于LotusNotes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB,MongoDb。文档存储数据库14第三阶段:非关系型数据库图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如:Neo4J,InfoGrid,InfiniteGraph。图像存储数据库15第三阶段:非关系型数据库文件存储系统目前包括HDFS,FastDFS,TFS,GFS16第三阶段:非关系型数据库消息队列系统目前包括Kafka,ActiveMQ,RabbitMQ数据库工程师关系数据库,redis,mongodb,消息队列,文件系统都需要懂17第四阶段:数据库集群化高可用每个数据库采用master-slave模式,保障数据的灾备。Master-slave切换采用zookeeper框架,采用client端监控模式向sever发送存活状态变更。然后Server通知代理层来切换节点的访问方式。分片化通过主键或其他约定机制,把数据合理映射在多个数据库中。采用一致性Hash方式进行数据分片和映射。快速扩容通过一致性hash方式进行分片后,需要对新旧节点间数据进行热迁移,保证不宕机扩容。混合应用不同的业务场景,会采用不同的数据存储系统,如mysql,redis,mongodbFastDFS,HDFS,kafka18第四阶段:数据库集群化节点高可用保障方案19第四阶段:数据库集群化分片化20第四阶段:数据库集群化混合应用MySqlredismongoDBZooKeeper一致性hash21第四阶段:数据库集群化系统架构师精通各种数据库系统,根据业务需求规划数据扩容,高可用,分片方案,保证满足高并发,高可用平滑扩容。分布式数据库开发工程师java代码,proxy,zookeeper,分片算法,数据库设计。22第五阶段:大数据巨量数据集合大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。23第五阶段:大数据Hadoop框架24第五阶段:大数据流式计算框架25第五阶段:大数据搜索引擎框架ELK,LuceneFlumeClusterKafkaClusterMySQLredismongoDBFastDFSETL26第五阶段:大数据27第五阶段:大数据Hadoop开发工程师hadoop框架,HDFS,MR计算框架,Pig,HiveSpark,Storm工程师scala,java,数据库大数据工程师hdfs,hbase,spark,sqoop,storm,kafka,flume,zookeeper搜索引擎工程师Lucene/Solr/Elasticsearch开源搜索引擎程序结构,java28第六阶段:数据商业化2017赢在THANKYOU刘宏仓2017.01.13
本文标题:数据发展简史
链接地址:https://www.777doc.com/doc-4237806 .html