您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据体系结构及关键技术
火龙果·整理uml.org.cn大数据科学与工程系列大数据体系结构火龙果·整理uml.org.cn主要内容一、大数据时代的新命题二、大数据的体系结构三、大数据的关键技术四、物联网与云计算架构五、知名企业大数据架构六、大数据系统设计案例总结、交流、作业火龙果·整理uml.org.cn一、大数据时代的新命题火龙果·整理uml.org.cn谷歌大数据中心:全球主要DC有8个火龙果·整理uml.org.cn大数据表象概念:百度数据规模火龙果·整理uml.org.cn大数据表象概念:对系统要求火龙果·整理uml.org.cn大数据时代的新命题:数据在爆炸式增长-互联网海量大数据-物联网各类型数据发数据处理能力要求提高-大规模数据存取方式-大数据并行技术能力数据间关联性分析加强-社交网络关系-多业务关联性-用户行为分析网络数据的实时同步-一切营销都线下+线上-多业务跨地域数据同步“数据结构化”本身是最具挑战性的一个环节.海量数据与快速处理是一对悖论.火龙果·整理uml.org.cn信息社会需求:信息化-智能化-现代化农业社会工业社会信息社会人力工具--镰刀--锄头动力工具--机车--机床智能工具--推理机--智能网信息时代的大数据需求火龙果·整理uml.org.cn信息时代数据大爆炸,推动智能技术发展火龙果·整理uml.org.cn信息时代,软件编程模型发展“面向信息处理”的智能化编程模型,编程简化为数据配置与管理火龙果·整理uml.org.cn大数据+技术架构数据智能火龙果·整理uml.org.cn二、大数据的系统架构火龙果·整理uml.org.cn传统数据库技术架构:Oracle数据库体系架构火龙果·整理uml.org.cn大数据架构:分层架构从数据在生命周期看,大数据从数据源经过分析挖掘到最终获得价值需要经过5个环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。火龙果·整理uml.org.cn大数据的系统架构:整体系统架构新一代编程语言火龙果·整理uml.org.cn大数据架构:整体逻辑功能架构火龙果·整理uml.org.cn大数据架构理解:搜索引擎火龙果·整理uml.org.cn大数据架构理解:网页内容抓取火龙果·整理uml.org.cn大数据系统架构HadoopHadoop分布式系统组成火龙果·整理uml.org.cn大数据系统架构Hadoop在图中,Hadoop主要的功能组件有:HadoopCommon:包含HDFS、MapReduce和其他项目公共内容;HDFS:Hadoop分布式文件系统;MapReduce:一个用于并行处理大数据集的软件框架。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce函数接受Map函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表;HBase:类似GoogleBigTable的分布式NoSQL列数据库;Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行;Zookeeper:分布式锁,提供类似GoogleChubby的功能;Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制;Pig:大数据数据流分析平台,为用户提供多种接口;Sqoop:在HADOOP与传统的数据库间进行数据的传递。火龙果·整理uml.org.cn大数据系统架构Hadoop:功能定位火龙果·整理uml.org.cn1.大数据系统架构Hadoop:层次对应火龙果·整理uml.org.cn大数据:分布式计算架构火龙果·整理uml.org.cn大数据架构:MapReduce工作原理1火龙果·整理uml.org.cn大数据架构:MapReduce工作原理2火龙果·整理uml.org.cn三、大数据的关键技术火龙果·整理uml.org.cn大数据关键技术到底有哪些?核心问题是:(计算、存储、分析)算法大数据:恐怖的大数据(生活示例)智能性:数据分析、自然语言理解逻辑推理(演示)艺术性:分形算法、视频动画(演示)火龙果·整理uml.org.cn大数据关键技术1:大数据存储技术数据的海量化和快增长特征、以及数据格式的多样化是大数据对存储技术提出的首要挑战。要求底层硬件架构和文件系统在性价比上要大大高于传统技术,并能够弹性扩展存储容量。谷歌文件系统(GFS)和Hadoop的分布式文件系统HDFS(HadoopDistributedFileSystem)奠定了大数据存储技术的基础。GFS/HDFS将计算和存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的I/O吞吐量的制约,同时这类分布式存储系统的文件系统也采用了分布式架构,能达到较高的并发访问能力。网络附着存储系统(NAS)和存储区域网络(SAN)等体系,存储和计算的物理设备分离,它们之间要通过网络接口连接,这导致在进行数据密集型计算(DataIntensiveComputing)时I/O容易成为瓶颈。单机文件系统不提供数据冗余、可扩展性、容错及并发能力差火龙果·整理uml.org.cn大数据关键技术2:并行计算能力大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。针对不同计算场景发展出特定分布式计算框架。Yahoo提出的S4系统、Twitter的Storm,谷歌2010年公布的Dremel系统,MapReduce内存化以提高实时性的Spark框架.火龙果·整理uml.org.cn数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期大数据关键技术3:数据分析技术火龙果·整理uml.org.cn基于计算流体力学的三维呈现:如用能场所3D场景及CFD温度及能效云场呈现如下图。大数据关键技术4:数据显示技术火龙果·整理uml.org.cn大数据分析世界杯:英格兰vs意大利1:2。数据热图火龙果·整理uml.org.cn大数据关键技术5:数据挖掘算法代特征数据挖掘算法集成分布计算模型数据模型第一代数据挖掘作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质/局部区域的计算机群集有些系统支持对象、文本、和连续的媒体数据第三代和预言模型系统集成多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型火龙果·整理uml.org.cnDebt10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees•倾向性分析•客户保留•客户生命周期管理•目标市场•价格弹性分析•客户细分•市场细分•倾向性分析•客户保留•目标市场•欺诈检测关联分析Association•市场组合分析•套装产品分析•目录设计•交叉销售大数据关键技术5:数据挖掘算法火龙果·整理uml.org.cn数据挖掘的主要方法分类(Classification)聚类(Clustering)相关规则(AssociationRule)回归(Regression)其他知识发现系统需要一个前处理过程•数据抽取•数据清洗•数据选择•数据转换知识发现系统是一个自动/半自动过程知识发现系统要有很好的性能知识发现KDD系统特征火龙果·整理uml.org.cn数据挖掘主要方法:ETLETLProcessFrameworkETL工具有:OWB(OracleWarehouseBuilder)、ODI(OracleDataIntegrator)、InformaticPowerCenter、AICloudETL、DataStage、DataSpider,等。Application&OperationsServicesTransportServicesLoadTransformExtractTargetadaptorsSourceadaptorsETLDataimport/RuleimportETLDataExportRuntimeMatadataServicesDesignmanagementMetadataImport/exportMetadatamanagement火龙果·整理uml.org.cn四、物联网与云计算架构火龙果·整理uml.org.cn互联网上的物联网:概念Communication:AnyrouteAnyNetInternetofThingsServering:AnytypeAnyBusinessContent:AnythingAnybodyLinking:AnyPlaceAnyPointCollecting:AnyobjectAnyequipmentComputing:AnytimeAnywhere火龙果·整理uml.org.cn互联网上的物联网:发展2009年8月7日,温家宝视察中科院嘉兴无线传感网工程中心无锡研发分中心,提出“在传感网发展中,要早一点谋划未来,早一点攻破核心技术”,明确要求尽快建立中国的传感信息中心,或叫“感知中国”中心。2010年2月25日,中国首个传感网大学科技园在无锡成立,北京邮电大学无锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构。移动、电信、联通三大运营商纷纷在无锡成立物联网研究中心,以无锡为首的国内大中城市争相建设智能城市,争取成为感知中国示范城市。2010年3月2日,上海物联网中心在上海嘉定揭牌,宣称将以此打造国内最具竞争力、具有国际影响的物联网技术研发基地,总投资达8亿元。把合作伙伴锁定为中国科学院上海微系统与信息技术研究所。2010年3月9日,中国物联网标准联合工作组筹备会议在京召开。3月中旬,浙江省成立了物联网产业规划编制小组,浙江省经济和信息化委员会副主任郑一方担任组长。杭州市已经联合浙江省工业经济研究所启动物联网产业调研和发展规划编制工作,提出“感知杭州”的发展愿景。火龙果·整理uml.org.cn物联网的体系架构火龙果·整理uml.org.cn物联网的体系架构火龙果·整理uml.org.cn物联网的体系架构火龙果·整理uml.org.cn物联网示范:智能家居大数据管理系统火龙果·整理uml.org.cn物联网示范:动态跟踪管理,牧场大数据火龙果·整理uml.org.cn物联网示范:医疗健康大数据管理体系架构大中型医院政企客户领导省领航平台基层医疗机构短信接口平台功能健康管理服务紧急呼叫一键通运动能量检测终端功能血压/血糖管理离退休干部GPS定位健康档案自管理心电图诊断呈现心电图测量移动OA彩信接口用药提醒互动交流预约就医WAP接口体重管理血糖管理心脏疾病管理血压管理健康管理功能客户关怀功能BSS/OSS日常心电监测血压监测运动情况监测医疗服务功能血糖监测移动全球眼火龙果·整理uml.org.cn云计算演进:桌面云理解(ND—NC—CCN)火龙果·整理uml.org.cnGovernanceSecurity,Resiliency,Performance&ConsumabilityCloudServiceCreatorCloudServic
本文标题:大数据体系结构及关键技术
链接地址:https://www.777doc.com/doc-25738 .html