您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据Aster介绍64
Aster大数据探索平台介绍2014-07-31目录1什么是数据分析探索平台3Aster的数据分析探索能力4总结Aster的技术架构和特性23Footer大数据分析挑战之一:统一的探索平台问题集成的探索平台(IDP)数据仓库/商业智能高级分析解决方案各种复杂的高级分析环境导致数据碎片,更高的成本,需要更复杂的技能,更长时间才能实现业务价值。集成的分析探索提供了更输入的洞察,统一的访问接口,易用性,低成本,更好的洞察。SQL框架访问层预置分析函数5Footer优点成熟,有数据理论支持,规范,广为接受支持的工具多,技术人才多简单,面向业务不足昂贵的成本并行化和扩展性的限制复杂分析的实现难度和成本非结构化数据的分析的不足SQL优点可扩展性,有大规模部署的成功案例可以自己编写分布式应用支持非结构化数据廉价的软件和硬件开源,前景看好不足不成熟,可用性、可维护性差面向开发人员,实现复杂很多程序不容易在MapReduce下实现支持工具少现有的数据分析能力少MapReduce大数据分析挑战之二:SQLvs.MapReduce6Footer鱼和熊掌是否可以兼得?SQLSQL更加适合于:一个表中多个属性的标准化转换在表上使用GROUPBY的标准聚合–sum(),max(),stddev()多表Join数据集过滤–查询,将一张表过滤到一个子数据集表述格式化–Forexample,“getmetopKcountsonly”SQL-MapReduce更加适合于:个性化数据转换–e.g.unstructureddata,logextraction,conditionalmanipulation个性化聚合行之间关联分析,如时间序列多层次查询–Nestedqueries,sub-queries,recursivequeries需重组数据结构到新的结构的分析–Graphanalysis,decisiontrees,etc.SQL-MapReduce数理统计数据挖掘商务智能应用编程语言市场营销用户分析探索平台(TeradataAster)Hadoop平台(TeradataHotonworks)数据发现路径、图、时间系列分析模式检测访问管理迁移统一数据架构(UDA)业务概念视图快速假设检验和试错市场人员其他系统前端操作人员客户/伙伴开发人员数据科学家业务分析师集成&管控分析工具和应用结构化数据多结构数据新的分析算法(时间序列/路径/图/文字)传统的SQL分析分析和行动发现和挖掘抓取,转换,加工Teradata统一数据架构(UDA)ERPSCMCRM图片音频/视频日志文本Weband社交媒体数据源快速数据加载和获取数据过滤和预处理深度历史:在线归档整合数据仓库平台(已有)战略智能预测分析操作型智能Teradata作为大数据领导者,提出统一数据架构(UDA)•混合存储模式(数据仓库平台、分析探索平台、Hadoop平台、流数据平台)在多个行业(互联网、电信、金融)已广为采用•TeradataUDA通过“业务概念视图”对外提供统一透明的访问和管理,以真正的实现大数据结构化、非结构化数据的分析、知识发现、价值实现•各个平台有清晰定位,可以在UDA架构中互相集成所有数据整合各种分析引擎整合各类分析人员快速探索>各平台数据整合•Oracle,DB2,GP•Teradata•Hadoop…>各结构数据整合•结构化•半结构化-URL•非结构化-文本>SQL_MapReduce•SQL与MR,SAS,R,Java等配合进行数据处理>SQL•ANSISQL•DDL&DML…>管理人员•可视化结果•AsterLens>分析人员•分析工具•BITools>开发人员•开发工具•Eclipse>交互式分析•SQL_MR/GR敏捷迭代、组合、开发•100+预装函数>MPP•行/列存储•混合负载管理•高性能真正支持各结构数据,真正整合大数据结构化(如表)半结构数据(如URL,XML,Log)非结构数据(如文本、图片、音频)创造性的整合SQL+MapReduceMapReduce(扩展性)真正的分析探索平台(100+个分析函数)MPP数据库(灵活性)路径分析和模式匹配文本分析和情感分析统计分析和机器学习开放的分析平台基于开源的PostgreSQL内核支持和优化R语言,让R运行在AsterMPPDB上支持外部算法运行在AsterMPPDB上Teradata分析探索平台(Aster)目录1什么是数据分析探索平台3Aster的数据分析探索能力4总结Aster的技术架构和特性210FooterTeradataAster探索平台产品架构11FooterTeradataAsternCluster节点结构12FooterNodes:支持X86服务器,每个node有本地的磁盘Disks:300GB,450GBor600GBOperatingSystem:Redhat/SUSERaidType:Raid0,Raid0+1orRaid5Interconnect:Ethernet,Infiniband等1GBor10GBEthernetQueenNode1QueenNode2WorkerNode1WorkerNode2CPU1CPU2CPU1CPU2CPU1CPU2CPU1CPU21GBor10GBEthernetMemoryMemoryMemoryMemoryDisk1Disk2Disk3……Disk1Disk2Disk3……Disk1Disk2Disk3……Disk1Disk2Disk3……xxxNodeLoaderNode1CPU1CPU2CPU1CPU2MemoryMemoryDisk1Disk2Disk3……Disk1Disk2Disk3……TeradataAsternCluster部署结构13Footer一体机:BigAnalyticsAppliance3H14Footer两阶段优化器使得本地计算最大化,最少的数据迁移•提升SQL和分析应用的性能nClusterInterconnectExpress避免网络瓶颈•当需要数据移动时,迁移速度最快行、列混合式存储架构有利于预测类和即席查询类分析•为报表或交互式的分析查询提供行和列的存储选择132数据加载架构完全并行,每小时数TB的数据加载•nCluster客户每小时加载7-10TB并行和本地化备份使得扩展性和性能得以保障•在线备份,全量或者增量备份库内的MapReduce支撑高性能的高级分析•用SQL数小时内完成的查询和报表,SQL-MapReduce只需几秒钟456TeradataAster性能优化15FooterTeradataAster数据分布计算(MPP)16FooterVirtualworkers:副本和可用性•数据副本避免数据丢失和数据不可用:•每个v-worker都有副本,理想情况下是一个独立的Worker节点.•查询任务只在主本上执行.17FooterVirtualworkers:Failover•Failover:•Failoverisautomatic,withminimalperformanceimpact.18FooterAsterSQL-H™为业务用户搭建分析Hadoop数据的桥梁AsterSQL-H为分析师和数据科学家提供了更好的分析存储在Hadoop中数据的方法•允许标准的ANSISQL访问Hadoop数据•利用已有的BI工具,使数据用户自服务•仅涉及所需数据,避免全表操作,更高性能,无数据重复存储•支持100+预装的SQL-MapReduce应用HadoopLayer:HDFSPigHiveHadoopMRAster:SQL-HHCatalogDataDataFiltering19FooterSQL-HInAction关联Teradata,Hadoop,Aster表;并通过MapReduce处理SELECTqrd_focus_area,count(*)FROMnPath(ON(SELECT*FROM(SELECT*FROMload_from_teradata(ONmr_driverTDPID(‘dbc’)USERNAME(‘name1’)PASSWORD(‘password1’)QUERY(‘SELECT*FROMowner.prod_own_fact’)))AStdJOINowner.prod_dimproddimONtd.prod_id=proddim.product_idJOIN(SELECT*FROMload_from_hadoop(ONmr_driverSERVER('10.10.3.139')USERNAME(‘name2')DBNAME(‘repair')TABLENAME('transaction')))ASsqlhONsqlh.prod_ident_nbr=proddim.id)PARTITIONBYparty_id,prod_idORDERBYrepair_dtMODE(OVERLAPPING)PATTERN(‘REPAIR{3}')SYMBOLS(event=‘REPAIR’ASREPAIR)RESULT(ACCUMULATE(qrd_focus_areaOFANY(REPAIR))ASqrd_focus_area_path))nGROUPBY1ORDERBY2desc;通过SQL进行计算操作通过TDConnector从Teradata获取OWNERSHIP数据通过普通语意表达,可指定任意分析模式通过HadoopConnector从Hadoop获取WARRANTY数据引入Aster本地表数据进行关联207/31/2014TeradataConfidentialQUICKSTART–SPECIALVISUALIZATIONSUSINGASTERLENS示例:通过TDASTERLENS可视化模块来进行特别效果展示Thiscreatesthe“flow”graph(nextslide)fromthenpathoutputthatwasstoredintheAstertablekp_npathoutandpreservesitintheAsterLensGUIviewer.通过将nPath的输出结果存在Aster的kp_npathout表中,并通过AsterLENS可视化模块进行展示,请参考下页的“flow”桑基图。dbSendUpdate(con,“INSERTINTOaster_lens.kp_stuffSELECT*FROMNpathViz(ON(SELECTsequence,freqFROMpublic.kp_npathoutORDERBYfreqDESCLIMIT500)PARTITIONBY1FREQUENCY_COL('freq')PATH_COL('sequence')GRAPH_TYPE('sankey')SANKEY_SORTING('true')/*--sortnodesalphabetically*/TITLE('EventsLeadingtoTransfer'));”)AsterpathvisualizationfunctionAster路径可视化函数217/31/2014TeradataConfidential在TDASTER可视化互动式查看器中查看分析结果通过鼠标移动可以动态过滤和查看分析结果22TeradataConfidentialTeradataConfidential7/31/2014集中化的管理控制台分析过程的可视性和可控制性•Dashboards概述集群的状态和活动•Query&processstatistics提供详细处理信息•Nodedrilldown提供节点的健康度和状态23TeradataConfidentialTeradataConfidential7/31/2014nCluster物理配置的直观管理视图•nCluster内所有节点的状态视图•识别节点用途,以及节点之间的关系•优化nCl
本文标题:大数据Aster介绍64
链接地址:https://www.777doc.com/doc-25157 .html