您好,欢迎访问三七文档
DATAGURU专业数据分析网站黄志洪2013.01.08Hadoop数据分析平台第11周DATAGURU专业数据分析网站黄志洪2013.01.08法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站配置hosts文件建立hadoop运行账号配置ssh免密码连入下载并解压hadoop安装包配置namenode,修改site文件配置hadoop-env.sh配置masters和slaves文件向各节点复制hadoop格式化namenode启动hadoop用jps检验各后台进程是否成功启动3DATAGURU专业数据分析网站黄志洪2013.01.08Hadoop大集群实施设备选型是否使用虚拟机?使用DNS代替hosts文件使用NFS实现密钥共享利用脚本复制hadoop——awk技巧4DATAGURU专业数据分析网站黄志洪2013.01.08DNSLinux下使用bind5DATAGURU专业数据分析网站黄志洪2013.01.08NFS网络文件系统《Hadoop权威指南》第266页6DATAGURU专业数据分析网站黄志洪2013.01.08用awk生成脚本的技巧强大的武器:awk怎样使用awk生成脚本的技巧7DATAGURU专业数据分析网站黄志洪2013.01.08云计算是什么?相关软硬件厂商(争先恐后状):我的产品就是云计算不相关软硬件厂商(争风吃醋状):云计算不就是一根网线加上计算机嘛政府官员:云计算就是超级计算机广大围观者:云计算就是集群?OrHadoop?OrOpenstack?OrVmware?Or…?网格和云计算有什么差别?8DATAGURU专业数据分析网站黄志洪2013.01.08云计算是服务模式和拥有模式的革命云计算是服务模式:它不是新技术,更准确来说不应称之为技术,它是在一些关键技术日趋成熟后催生的一种新的服务模式云计算通过集中拥有,使到用户能得到其本身无法得到的服务,或是以更低成本获得相同的服务,降低拥有成本是云计算的核心价值之一云计算项目,必先考虑服务模式和盈利模式的问题,其次才是投资和技术9DATAGURU专业数据分析网站黄志洪2013.01.08云计算的特征自我服务按使用量计费弹性架构可定制化10DATAGURU专业数据分析网站黄志洪2013.01.08云计算怎样降低成本?提高软硬件使用率集中管理降低能耗节约维护人员费用11DATAGURU专业数据分析网站黄志洪2013.01.08能耗是日益严重的问题2010年,美国计算机耗电量占总耗电量15%,预计到今年将翻一番服务器在空转状态时的耗能,依然达到满载耗能的50%现有关键计算硬件并非绿色设计,单位能源产生的计算能力成为重要指标。据某研究机构测试CPU降频5%,计算时间增加到原先1.04倍,但耗电降低50%12DATAGURU专业数据分析网站黄志洪2013.01.08云计算模式也会增加成本安全风险可用性风险绑架风险13DATAGURU专业数据分析网站黄志洪2013.01.08盈利模式是云计算的核心问题云计算领域的现状是项目找资金,资金找项目,折中点是有创意的盈利模式互联网公司是云计算的先行者技术相对于服务模式和盈利模式并不是门槛14DATAGURU专业数据分析网站黄志洪2013.01.08云计算的形态私有云公有云混合云15DATAGURU专业数据分析网站黄志洪2013.01.08目前流行的开源云计算解决方案HadoopOpenstack16DATAGURU专业数据分析网站黄志洪2013.01.08Hadoop在云计算中的用途分布式文件系统提供的低单位成本的巨大的存储能力,高冗余度的可靠性Map-Reduce提供快速并行计算能力,这种能力可以随着节点数的增加线性递增17DATAGURU专业数据分析网站黄志洪2013.01.08场景一:日志分析18DATAGURU专业数据分析网站黄志洪2013.01.08探针设计19DATAGURU专业数据分析网站黄志洪2013.01.08排除爬虫和程序点击,对抗作弊用鼠标测动对抗爬虫常用流量作弊手段跟踪用户20DATAGURU专业数据分析网站黄志洪2013.01.08需要的统计图表21DATAGURU专业数据分析网站黄志洪2013.01.08遇到的问题日志的保存需要大量的空间日志的备份成本统计时滞明显,不能满足业务要求22DATAGURU专业数据分析网站黄志洪2013.01.08Hadoop方案部署多个节点的Hadoop集群探针激活java程序,在内存保存一定数量的日志信息后,利用API集中写入到HDFSHDFS既能保存日志,同时也提供了备份功能用定时脚本清除过期的日志用定时脚本激活pig进行统计,统计结果回写到输出文件应用通过API读取输出文件里的数据,再展示给用户23DATAGURU专业数据分析网站黄志洪2013.01.08Hadoop+Hbase方案部署Hadoop+Hbase集群探针激活java程序,程序把每条日志利用API集中写入到HBase(也考虑过批量入库)Hbase保存数据,它基于HDFS提供了冗余备份利用时间戳和生存期自动清除过期日志定时执行一java程序从hbase读出数据统计,结果写入mysql应用直接从mysql中读出结果展示本方案的优点是可以统计更为复杂的数据24DATAGURU专业数据分析网站黄志洪2013.01.08复杂的统计图表25DATAGURU专业数据分析网站黄志洪2013.01.08复杂的统计图表26DATAGURU专业数据分析网站黄志洪2013.01.08场景二:某运营商数据分析实例运营商网分程序:–网分预处理程序–网分位置统计程序位置更新表27DATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分预处理程序输入:网分数据输出:网分基础表28DATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分预处理程序29输入与输出格式必须上下文一致把输入的行转换为String输出Key和ValueDATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分预处理程序30在网页显示必须与类名一致与程序输出格式一致DATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分位置统计程序输入:网分预处理程序结果输出:网分位置表31DATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分位置统计程序32上下文对应先于所有的Map程序DATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分位置统计程序33使用迭代获取所有ValueDATAGURU专业数据分析网站黄志洪2013.01.08炼数成金逆向收费式网络课程Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低成本传播高价值知识,构架中国第一的网上知识流转阵地。关于逆向收费式网络的详情,请看我们的培训网站
本文标题:11大数据集成方案:Oracle+Hadoop,R+Hadoopx+Hadoop,数据集成实战案例3
链接地址:https://www.777doc.com/doc-7672 .html