您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据实战_仿天猫用户行为分析(PDF46页)
仿天猫用户行为分析武玉飞0102030405大数据概述整体架构介绍数据处理流程介绍软件体系架构介绍平台分阶段讲解目录Contents06操作与实践1大数据概述Part日志数据处理的必要性?消费行为日志数据数据处理优化运营提高服务我们要做什么数据应用数据计算数据存储数据采集数据源数据生命周期日志数据关系数据图片视频KafkaSqoopFlumeScribeETL工具结构化数据半结构化数据非结构化数据HDFSMapReduce可视化EchartsD3HBaseCassandraGreenPlum……………………OracleSparkFlinkStormMahout离线计算?流式计算业务应用BI分析Tableau日志数据KafkaFlumeHDFS可视化EchartsD3Spark2整体架构介绍Part平台技术架构StreamStreamingExecBatchDispatcherRDDFlume-日志采集组件Kafka-数据队列与缓冲组件TopicA(水管)TopicB(水管)TopicC(水管)KafkastreamHadoop-数据存储与计算组件HDFS:存储MapReduce:离线计算Spark-数据内存计算组件离线计算SparkCoreSparkSQLSparkMlibSparkR在线计算SparkStreaming大功率高科技软件平台开发技术Java的开发框架,制作软件的服务端。关系型数据库,用于保存软件平台的数据。小型kafka,软件开发中主要做异步通信。图表开发框架,用它可以做出好看的图表界面。平台技术架构StreamStreamingExecBatchDispatcherRDD平台技术架构StreamStreamingExecBatchDispatcherRDD3数据处理流程介绍PartLOGPROCESSHDFSMySQLREALTIMEMQ可视化FLUMENGKAFKASTREAMFLUMENGSpringSPARKCORE+SQLWEBSOCKET数据处理流程架构4软件体系结构介绍Part软件平台架构StreamStreamingExecBatchDispatcherRDDSpringDataJPASpringIntegrationBatchServiceKafkaServiceRealtimeServiceSpringMVC抽水送水服务加工调度查询数据库realtime平台技术架构(回顾)StreamStreamingExecBatchDispatcherRDD5平台分阶段讲解Part日志是啥?有啥?访问时间访问的网页购买了哪个商品把哪个商品加入了购物车用户的IP地址是多少(地理位置)用户的ID是啥。。。。数据需求分析1.数据实时展示。2.用户定位信息。3.SparkStreaming4.WebSocket数据需求分析1.数据批处理准实时展示。2.用户数据留存3.Spark批处理4.批调度5.结果通知LOGPROCESSHDFSMySQLREALTIMEMQ可视化FLUMENGKAFKASTREAMFLUMENGSpringSPARKCORE+SQLWEBSOCKET数据处理流程架构Flume-logtokafkaKafkalog核心配置文件:source:sink:LOGPROCESSHDFSMySQLREALTIMEMQ可视化FLUMENGKAFKASTREAMFLUMENGSpringSPARKCORE+SQLWEBSOCKET数据处理流程架构2017-06-2001:07:57,236INFO---[main]com.atguigu.loggenerate.LogGenerate(line:72):328862,637637,662,3828,1446,07,28,0,6,0,山东省,117.17,38.62Kafka–kafkaStreamTopicA(水管)TopicLog(水管)TopicProcess(水管)Kafkastream核心代码:LOGPROCESSHDFSMySQLREALTIMEMQ可视化FLUMENGKAFKASTREAMFLUMENGSpringSPARKCORE+SQLWEBSOCKET数据处理流程架构2017-06-2001:07:57,236INFO---[main]com.atguigu.loggenerate.LogGenerate(line:72):328862,637637,662,3828,1446,07,28,0,6,0,山东省,117.17,38.62328862,637637,662,3828,1446,07,28,0,6,0,山东省,117.17,38.62Spark–SparkStreamingTopicA(水管)TopicProcess(水管)TopicRealtime(水管)SparkStreaming核心代码:LOGPROCESSHDFSMySQLREALTIMEMQ可视化FLUMENGKAFKASTREAMFLUMENGSpringSPARKCORE+SQLWEBSOCKET数据处理流程架构328862,637637,662,3828,1446,07,28,0,6,0,山东省,117.17,38.62[117.17,38.62]Spring–kafka-activemqTopicRealtime(水管)核心代码:LOGPROCESSHDFSMySQLREALTIMEMQ可视化FLUMENGKAFKASTREAMFLUMENGSpringSPARKCORE+SQLWEBSOCKET数据处理流程架构2017-06-2001:07:57,236INFO---[main]com.atguigu.loggenerate.LogGenerate(line:72):328862,637637,662,3828,1446,07,28,0,6,0,山东省,117.17,38.62328862,637637,662,3828,1446,07,28,0,6,0,山东省,117.17,38.62Flume-kafkatohdfsHDFSkafka核心配置文件:source:sink:LOGPROCESSHDFSMySQLREALTIMEMQ可视化FLUMENGKAFKASTREAMFLUMENGSpringSPARKCORE+SQLWEBSOCKET数据处理流程架构Spark–SparkSQLHDFSSQL核心代码:LOGPROCESSHDFSMySQLREALTIMEMQ可视化FLUMENGKAFKASTREAMFLUMENGSpringSPARKCORE+SQLWEBSOCKET数据处理流程架构Spring–Rest(SpringMVC)核心代码:LOGPROCESSHDFSMySQLREALTIMEMQ可视化FLUMENGKAFKASTREAMFLUMENGSpringSPARKCORE+SQLWEBSOCKET数据处理流程架构6操作与实践Part基础环境部署与启动Master01Slave01Slave02SparkmasterSparkworkerSparkworkerHadoopMasterHadoopSlaveHadoopSlaveApacheKafkaApacheKafkaApacheKafkaZookeeperZookeeperZookeeperFlumeAgentLog数据源笔记本应用程序消息队列数据库LOGPROCESSHDFSREALTIME应用程序FLUMENGKAFKASTREAMFLUMENGSPARKCORE+SQLLOGPROCESSHDFSREALTIME应用程序FLUMENGKAFKASTREAMFLUMENG启动数据处理服务1bin/flume-ngagent-c./conf/-f./conf/log-kafka.properties-nagent234512java-cpkafkastream.jarcom.atguigu.kafkastream.Applicationmaster01:9092,slave01:9092,slave02:9092master01:2181,slave01:2181,slave02:2181logprocess4bin/flume-ngagent-c./conf/-f./conf/kafka-hdfs.properties-nagent5IDEA:report项目执行:mvntomcat:runbin/spark-submit--classcom.atguigu.sparkstreaming.Application--masterlocal[3]~/hadoop/logStreaming/logStreaming.jarmaster01:9092,slave01:9092,slave02:9092processrealtime3平台运行展示注意事项1、项目的【视频】和【源代码】稍后都会放到网站上。2、今天的项目只是教学课程的冰山一角,教学中我们会有行业主流的大数据工具、算法的教学以及针对多个行业完整的大数据应用系统模型建设项目,从编程、体系架构、算法、业务分析方法等多个维度培养学生的综合IT素质。3、尚硅谷保证代码的原创性。
本文标题:大数据实战_仿天猫用户行为分析(PDF46页)
链接地址:https://www.777doc.com/doc-26905 .html