您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > AWS大数据解决方案-AWS在线技术峰会-分会场3-主题二77
下载文档并点击左侧按钮联系AWS云计算专家AWS大数据分析与机器学习曹玮祺博士解决方案架构师团队高级主管AWS中国weiqicao@amazon.com下载文档并点击左侧按钮联系AWS云计算专家云端大数据哲学:云和大数据是一个硬币的两面下载文档并点击左侧按钮联系AWS云计算专家1个实例算1,000小时=1,000个实例算1小时云端大数据哲学:云和大数据是一个硬币的两面下载文档并点击左侧按钮联系AWS云计算专家下载文档并点击左侧按钮联系AWS云计算专家企业数据中心弹性数据中心下载文档并点击左侧按钮联系AWS云计算专家企业数据中心AWS云端用于分析的应用数据和日志放到AmazonS3下载文档并点击左侧按钮联系AWS云计算专家企业数据中心AWS云端AmazonElasticMapReducenamenode用于控制分析下载文档并点击左侧按钮联系AWS云计算专家企业数据中心AWS云端ElasticMapReduce启动Hadoop集群N下载文档并点击左侧按钮联系AWS云计算专家企业数据中心ElasticDataCenterN增加成百上千的节点下载文档并点击左侧按钮联系AWS云计算专家企业数据中心ElasticDataCenterN作业完成后释放资源下载文档并点击左侧按钮联系AWS云计算专家企业数据中心弹性数据中心将分析结果放回你的系统下载文档并点击左侧按钮联系AWS云计算专家价值(Value)高速(Velocity)多样(Variety)下载文档并点击左侧按钮联系AWS云计算专家大数据多样大数据Variety下载文档并点击左侧按钮联系AWS云计算专家S3KinesisDynamoDBRDS(Aurora)AWSLambdaKCLAppsEMRRedshiftMachineLearning采集处理分析存储数据采集和存储数据处理事件处理数据分析数据结果下载文档并点击左侧按钮联系AWS云计算专家结构化–简单查询NoSQLAmazonDynamoDBCacheAmazonElastiCache结构化–复杂查询SQLAmazonRDSSearchAmazonCloudSearch非结构化CloudStorageAmazonS3数据结构复杂程度查询结构复杂程度下载文档并点击左侧按钮联系AWS云计算专家下载文档并点击左侧按钮联系AWS云计算专家热数据温数据冷数据容量MB–GBGB–TBPB项的大小B–KBKB–MBKB–TB延迟毫秒毫秒,秒分钟,小时持久性低–高高非常高请求率非常高高低花费/GB$$-$$-¢¢¢下载文档并点击左侧按钮联系AWS云计算专家AmazonRDS请求率高低花费/GB高低延迟低高数据量低高AmazonGlacierAmazonCloudSearch结构低高AmazonDynamoDBAmazonElastiCache下载文档并点击左侧按钮联系AWS云计算专家AmazonElastiCacheAmazonDynamoDBAmazonRDSAmazonCloudSearchAmazonS3AmazonGlacier平均延迟毫秒毫秒毫秒,秒毫秒,秒毫秒,秒,分钟(~大小)小时数据量GBGB–TBs(无限制)GB–TB(最大3TB)GB–TBGB–PB(无限制)GB–PB(无限制)项的大小B-KBKB(最大400KB)KB(~行大小)KB(最大1MB)KB-GB(最大5TB)GB(最大40TB)请求率非常高非常高高高低–非常高(无限制)非常低(无限制)存储花费$/GB/month$$¢¢¢¢$¢¢持久性低–中非常高高高非常高非常高热数据温数据冷数据下载文档并点击左侧按钮联系AWS云计算专家下载文档并点击左侧按钮联系AWS云计算专家AmazonKinesis•分离生产者和消费者•临时缓冲区•保持客户端顺序•流式MapReduce44332211432143214321432144332211生产者1Shard1Shard2消费者1CountofRed=4CountofViolet=4消费者2CountofBlue=4CountofGreen=4生产者2生产者3生产者NKey=RedKey=Green下载文档并点击左侧按钮联系AWS云计算专家大数据实时大数据云端大数据最佳服务Velocity下载文档并点击左侧按钮联系AWS云计算专家原始模式AWSLambdaKCLApps采集处理分析存储数据采集和存储数据处理事件处理数据分析AmazonEMR下载文档并点击左侧按钮联系AWS云计算专家事件处理类型•实时–在数据流中对事件实时应答–相对简单的数据计算(聚类,过滤,滑动窗口)•Micro-batching(近实时)–数据流中的小批量事件的近实时操作–标准处理和查询引擎分析下载文档并点击左侧按钮联系AWS云计算专家事件处理框架•端到端低延迟•高可扩展性,弹性•持久性和容错•专注写分析逻辑下载文档并点击左侧按钮联系AWS云计算专家事件处理框架KinesisClientLibraryAWSLambdaAmazonEMR下载文档并点击左侧按钮联系AWS云计算专家使用KCL的实时监控AmazonKinesisKinesis-enabledApplicationProduceronAmazonEC2AmazonDynamoDBDashboardonAmazonEC22秒点击流数据滑动窗口分析下载文档并点击左侧按钮联系AWS云计算专家AmazonKinesis连接器•AmazonS3–批处理文件写入S3–基于序列的文件命名•AmazonRedshift–支持微批量加载至Redshift–用户自定义消息转换•AmazonDynamoDB–批量追加至表–用户自定义消息转换•Elasticsearch–上传至Elasticsearch集群–用户自定义消息转换S3DynamoDBRedshiftKinesis下载文档并点击左侧按钮联系AWS云计算专家Data驱动:AmazonS3AmazonS3桶事件AWSLambda原始映像缩略图映像123下载文档并点击左侧按钮联系AWS云计算专家数据驱动:AmazonDynamoDBAWSLambdaAmazonDynamoDB表和流发送AmazonSNS通知更新另一个表下载文档并点击左侧按钮联系AWS云计算专家AWSLambda从Kinesis读下载文档并点击左侧按钮联系AWS云计算专家AmazonEMR整合直接读取数据进入Hive,Pig,Streaming和Cascading•面向批处理系统的实时源•多应用支持下载文档并点击左侧按钮联系AWS云计算专家CREATETABLEcall_data_records(start_timebigint,end_timebigint,phone_numberSTRING,carrierSTRING,recorded_durationbigint,calculated_durationbigint,latdouble,longdouble)ROWFORMATDELIMITEDFIELDSTERMINATEDBY,STOREDBY'com.amazon.emr.kinesis.hive.KinesisStorageHandler'TBLPROPERTIES(kinesis.stream.name=”MyTestStream);AmazonEMR整合:Hive下载文档并点击左侧按钮联系AWS云计算专家•高级抽象的离散流:Dstreams•表示为RDDs序列DStreamRDD@T1RDD@T2消息接收者Spark流–基本概念:基于事件的处理KinesisStormSpoutProducerAmazonKinesisApacheStormElastiCache(Redis)Node.jsClient(D3)(基于用户、基于项目)斜坡算法SVD++矩阵分解(MatrixFactorizationw/ALS)聚类算法(Canopy、K-Means)模糊流式光谱分析决策树(DecisionTrees)线性回归(LinearRegression)逻辑回归(LogisticRegression)贝叶斯模型(NaïveBayes)随机森林算法(RandomForest)隐马尔可夫模型(HiddenMarkovModels)多层感知器(MultilayerPerceptron)AWS平台上的机器学习存储可视化&分析ROctaveMatlabExcelDASSPSSGraphlabMahoutSparkMLlibH200xDataHbaseHDFSRadoopPrediction.IORDBMSSAN/NASBigMLKNIMEWEKAPythonKits单节点大数据机器学习的弹性伸缩•用正确的工具做正确的事情下载文档并点击左侧按钮联系AWS云计算专家AmazonML介绍为开发人员打造的,简单易用的机器学习服务通过直观而强大的服务控制台来发现和建构学习模型通过全功能的API和SDK来完成模型生命周期的自动化管理-Java,Python,.NET,JavaScript,Ruby,Javascript通过AWSMobileSDK快速建构iOS,Android智能应用基于Amazon内部系统的,健壮的,强大的机器学习技术基于Amazon内部众多经过实战考验的系统不仅仅是算法:智能数据转换、输入数据的质量警告以及模型的质量警告、内置的业界最佳实践和AWS的数据生态系统完美集成:S3、AmazonRedshift、RDSMySQL、IAM完全托管的模型和预测服务端到端的服务,不需要对底层服务器进行管理预测模型一键部署可以通过程序获得模型的元数据,使数据获取流程自动化成为可能可以通过AmazonCloudWatch监控预测使用模式按使用量付费,非常便宜数据分析,模型训练和校验:$0.42/实例小时批量预测:$0.10/1000条实时预测:$0.10/1000条每小时的容量预留费用下载文档并点击左侧按钮联系AWS云计算专家日志存储提取转换加载ETL建模打分用户网关服务层用户推荐引擎NRT情感处理社交媒体源其它源(信号灯)Netflix基于AWS的在线机器学习平台下载文档并点击左侧按钮联系AWS云计算专家用户媒资平台手机Web日志(AmazonCloudWatch)Web日志ETL(AmazonElasticMapReduce)机器学习推荐引擎(EMR)ModelUpdates查询播放购买比率AWSElasticBeanstalk推荐AmazonCloudSearch流媒体事件社会媒体活动GNIPDatasiftOther社会信号处理AmazonS3AmazonS3AmazonCloudFrontNetflix基于AWS的在线机器学习平台下载文档并点击左侧按钮联系AWS云计算专家大数据参考架构应用设备日志框架摄入存储处理可视化热数据温数据热数据冷数据热数据快快快慢快下载文档并点击左侧按钮联系AWS云计算专家下载文档并点击左侧按钮联系AWS云计算专家Hadoop全系列与Spark全系列完美支持下载文档并点击左侧按钮联系AWS云计算专家使
本文标题:AWS大数据解决方案-AWS在线技术峰会-分会场3-主题二77
链接地址:https://www.777doc.com/doc-24112 .html