您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 【讲义】田锴:亚马逊AWS云计算研讨会之云中的大数据解决方案
©2015,AmazonWebServices,Inc.oritsAffiliates.Allrightsreserved.田锴云端数据仓库,让您聚焦数据业务AWSRedshift介绍分析存储Import/ExportDirectConnect采集AmazonKinesisAmazonGlacierS3DynamoDBAmazonAuroraAWS大数据产品组合DataPipelineCloudSearchEMREC2AmazonRedshiftMachineLearning关系型数据仓库大规模并行计算MPP,PB级完全托管硬盘(HDD)和固态硬盘(SSD)存储$1,000/TB/年;$0.25/小时起AmazonRedshift更快更简单更便宜•AmazonRedshift是一种快速开通、托管的PB级数据仓库•企业级关系型数据库系统•支持多种的客户端连接•列式存储的OLAP数据库引擎•基于PostgreSQL实现•使用本地裸磁盘达到最高的性能AmazonRedshift对数据仓库的传统认识…大公司使用集中IT建设需持续的投入多年的部署数百万美元的交易形成了“黑暗”数据(darkdata)这是一个狭隘的观点小公司也有大数据(手机,社交,游戏,广告,物联网)周期长,成本高,管理复杂抑制了创新020040060080010001200EnterpriseDataDatainWarehouseAWSRedshift数据仓库便宜10x倍容易开通提升DBA生产力速度快10x倍不需要编程,全托管方便使用BI工具、Hadoop、机器学习和流数据在线分析程序按使用量付费,根据需要弹性增长可用性&容灾企业大数据SaaSAWSRedshift的部分客户Redshift可以和已有分析工具配合使用JDBC/ODBCAmazonRedshift数据导入选项并行上传至S3AWSDirectConnectAWSImport/ExportAmazonKinesis数据及系统集成数据集成系统集成商AmazonRedshift架构头节点简单的SQL端点存储元数据优化查询计划协同查询执行计算节点本地、列式存储并行/分布式的执行查询、加载、备份、修复、调整大小从S3/DynamoDB/SSH导入数据仅仅$0.25/时起价,可增长到2PB(被压缩的)DC1:SSD;160GB~326TBDS2:HDD;2TB~2PBIngestion/BackupBackupRestoreJDBC/ODBC10GigE(HPC)优点#1:AmazonRedshift更快显著减少I/O列式存储数据压缩区域地图(Zonemaps)直接连接存储设备1M大数据块analyzecompressionlisting;Table|Column|Encoding---------+----------------+----------listing|listid|deltalisting|sellerid|delta32klisting|eventid|delta32klisting|dateid|bytedictlisting|numtickets|bytedictlisting|priceperticket|delta32klisting|totalprice|mostly32listing|listtime|raw10|13|14|26|……|100|245|324375|393|417……512|549|623637|712|809……|834|921|95910324375623637959SELECTCOUNT(*)FROMLOGSWHEREDATE=‘09-JUNE-2013’MIN:01-JUNE-2013MAX:20-JUNE-2013MIN:08-JUNE-2013MAX:30-JUNE-2013MIN:12-JUNE-2013MAX:20-JUNE-2013MIN:02-JUNE-2013MAX:25-JUNE-2013未排序表MIN:01-JUNE-2013MAX:06-JUNE-2013MIN:07-JUNE-2013MAX:12-JUNE-2013MIN:13-JUNE-2013MAX:18-JUNE-2013MIN:19-JUNE-2013MAX:24-JUNE-2013按日期排序优点#1:AmazonRedshift快排序键和区域地图优点#1:AmazonRedshift快并行、分布式:查询(Query)负载(Load)输出(Export)备份(Backup)恢复(Restore)调整大小(Resize)IDName1JohnSmith2JaneJones3PeterBlack4PatPartridge5SarahCyan6BrianSnail1JohnSmith4PatPartridge2JaneJones5SarahCyan3PeterBlack6BrianSnail优点#1:AmazonRedshift快分布类型及SortKeys优点#1:AmazonRedshift快H/W优化对于I/O密集型工作负载,4GB/秒/节点增强网络,可选择的存储类型均超过1MPackets/秒/节点,可选择存储类型和实例大小通过常规的自劢补丁提升优化Example:我们新的存储密集型实例(HDD)内存提高2倍,计算提高2倍,磁盘吞吐量提高1.5倍成本:同上一代!优点#2:AmazonRedshift廉价DS2(HDD)每小时的价格DW1.XL单节点压缩后每TB年度价格按需$0.850$3,7251年预留$0.500$2,1903年预留$0.228$999DC1(SSD)每小时的价格DW2.L单节点压缩后每TB年度价格按需$0.250$13,6901年预留$0.161$8,7953年预留$0.100$5,500定价简单节点数据x价格/时头节点免费没有预先的成本按需付费优点#3:AmazonRedshift全托管连续/增量备份集群内多份拷贝持续/增量备份到S3备份跨区域AmazonS3AmazonS3区域1区域2优点#3:AmazonRedshift全托管AmazonS3AmazonS3Region1Region2容错磁盘故障Diskfailures节点故障Nodefailures网络故障Networkfailures地区性以及可用区性的故障优点#4:安全性是内置的•S3存储加密•在传输中通过SSL来保护数据•ECDHE完美远期加密•AmazonVPC进行网络隔离•数据存储加密•磁盘上的所有块及AmazonS3中加密•Blockkey,Clusterkey,MasterKey(AES-256)•本地HSM&AWSCloudHSM支持•审计日志记录和AWSCloudTrail集成•SOC1/2/3,PCI-DSS,FedRAMP,BAA10GigE(HPC)IngestionBackupRestoreCustomerVPCInternalVPCJDBC/ODBC优点#5:我们快速创新自从发布以来,Redshift新增的服务特性超过100个每两周发布一个AutomaticpatchingServiceLaunch(2/14)PDX(4/2)TempCredentials(4/11)DUB(4/25)SOC1/2/3(5/8)UnloadEncryptedFilesNRT(6/5)JDBCFetchSize(6/27)Unloadlogs(7/5)SHA1Builtin(7/15)4byteUTF-8(7/18)Sharingsnapshots(7/18)StatementTimeout(7/22)Timezone,Epoch,Autoformat(7/25)WLMTimeout/Wildcards(8/1)CRC32Builtin,CSV,RestoreProgress(8/9)ResourceLevelIAM(8/9)PCI(8/22)UTF-8Substitution(8/29)JSON,Regex,Cursors(9/10)Split_part,Audittables(10/3)SIN/SYD(10/8)HSMSupport(11/11)KinesisEMR/HDFS/SSHcopy,DistributedTables,AuditLogging/CloudTrail,Concurrency,ResizePerf.,ApproximateCountDistinct,SNSAlerts,CrossRegionBackup(11/13)DistributedTables,SingleNodeCursorSupport,MaximumConnectionsto500(12/13)EIPSupportforVPCClusters(12/28)Newquerymonitoringsystemtablesanddiststyleall(1/13)RedshiftonDW2(SSD)Nodes(1/23)CompressionforCOPYfromSSH,Fetchsizesupportforsinglenodeclusters,newsystemtableswithcommitstats,row_number(),strotol()andquerytermination(2/13)Resizeprogressindicator&ClusterVersion(3/21)Regex_Substr,COPYfromJSON(3/25)50slots,COPYfromEMR,ECDHEciphers(4/22)3newregexfeatures,Unloadtosinglefile,FedRAMP(5/6)RenameCluster(6/2)Copyfrommultipleregions,percentile_cont,percentile_disc(6/30)FreeTrial(7/1)pg_last_unload_count(9/15)AES-128S3encryption(9/29)UTF-16support(9/29)优点#6:AmazonRedshift是强大的•近似函数(Approximatefunctions)•用户自定义函数(Userdefinedfunctions)•机器学习(MachineLearning)•数据科学(DataScience)AmazonML优点#7:AmazonRedshift拥有完整的生态系统数据集成系统集成商业智能优点#8:面向服务的体系结构DynamoDBEMRS3EC2/SSHRDS/AuroraAmazonRedshiftAmazonKinesisMachineLearningDataPipelineCloudSearchMobileAnalytics使用案例Amazon.com–网站日志分析Amazon.com进行日志分析1PB+工作负载,2TB/天,年增长67%最大的表:400TB客户行为分析方案传统的数据仓库–查询在1week/小时.Hadoop–查询在1month/小时.14分钟内完成15个月数据查询量(1PB)10分钟内加载5B行21B行与10B行–3天(Hive)到2小时负载管道:90小时(Oracle)到8小时64个集群800个节点13PB预配置存储2个DBA数据仓库可以即便宜又强大Sushiro–物联网的实时流分析Sushiro–物联网的实时流分析AmazonKinesis对实时数据进行摄入,AmazonRedshif进行分析380家商店里,寿司的实时数据流近乎实时的库存信息以及消费信息存储需求的预测,更少食物的浪费,效率的提高Amazon大数据并不一定是批量•可以流数据•近乎实时的处理•快速的响应需求您可以进行混合和匹配•传统数据中心和云混合(Onpremisesandcloud)•定制开发和管理服务•可管理的、安全的基础设施数据仓库支持实时数据总结AmazonRedshift:花费时间精力在您的数据上,而不是数据仓库上。
本文标题:【讲义】田锴:亚马逊AWS云计算研讨会之云中的大数据解决方案
链接地址:https://www.777doc.com/doc-6174864 .html