您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > Hadoop应用开发实战21---YARN支持的计算框架(11)
Hadoop大数据解决方案进阶应用Hadoop讲师:迪伦(北风网版权所有)YARN支持的计算框架(11)SparkStandalone模式部署Spark的YARN模式部署MapReduce编程模型课程目标测试Spark集群运行SparkPi$cd/home/hadoop/spark/bin$./run-exampleorg.apache.spark.examples.SparkPispark://192.168.136.101:7077测试Spark集群测试spark-shellspark-shell是一个sparkapplication,运行时需要向资源管理器申请资源$MASTER=spark://192.168.136.101:7077spark-shell停止集群$$SPARK_HOME/spark/sbin/stop-all.sh关于SparkStandaloneMode的运行资源调度SparkStandaloneCluster目前只支持FIFO方式调度,不过,允许多个并发用户监控和日志通过WebUI来监控集群日志:$SPARK_HOME/spark/logs和Hadoop并用Spark可以作为独立的服务,在已有的Hadoop集群设备上并行,并通过hdfs://URL存取Hadoop数据Spark的YARN模式部署要运行在YARN上,需要用SBT(ScalaBuildTool)编译官方提供的二进制安装文件,生成YARNclient端使用的jar包在$SPARK_HOME目录下执行编译$SPARK_HADOOP_VERSION=2.2.0SPARK_YARN=true./sbt/sbtassembly在YARN环境下运行启动Hadoop2.2.0集群确保环境变量HADOOP_CONF_DIR或YARN_CONF_DIR已经设置在YARN集群中运行Spark应用程序的命令:Spark的YARN模式部署要运行在YARN上:MapReduce编程模型MapReduce将整个运行过程分为两个阶段:Map阶段和Reduce阶段Map阶段由一定数量的MapTask组成输入数据格式解析:InputFormat输入数据处理:Mapper数据分组:PartitionerReduce阶段由一定数量的ReduceTask组成数据远程拷贝数据按照key排序数据处理:Reducer数据输出格式:OutputFormatMapReduce编程模型欢迎访问我们的官方网站
本文标题:Hadoop应用开发实战21---YARN支持的计算框架(11)
链接地址:https://www.777doc.com/doc-1520747 .html