您好,欢迎访问三七文档
第1页,共16页第2页,共16页任课教师签名:命题教师签名:系主任签名:主管院长签名:…………○…………○…………内…………○…………装…………○…………订…………○…………线…………○…………___学院专业级班姓名学号岭南师范学院2015年-2016学年度第二学期期末考试试题A卷(考试时间:120分钟)考试科目:大数据核心技术题号一二三四五总分总评分人复查人分值3016202410得分一、单项选择题(每小题2分,共30分)请把答案写在下表中,写在试题后无效。1.下面哪个程序负责HDFS数据存储。(C)A.NameNodeB.JobtrackerC.DatanodeD.secondaryNameNode2.HDFS中的block默认保存几个备份。(A)A.3份B.2份C.1份D.不确定3.HDFS1.0默认BlockSize大小是多少。(B)A.32MBB.64MBC.128MBD.256MB4.下面哪个进程负责MapReduce任务调度。(B)A.NameNodeB.JobtrackerC.TaskTrackerD.secondaryNameNode5.Hadoop1.0默认的调度器策略是哪个。(A)A.先进先出调度器B.计算能力调度器C.公平调度器D.优先级调度器6.Client端上传文件的时候下列哪项正确?(B)A.数据经过NameNode传递给DataNodeB.Client端将文件切分为Block,依次上传C.Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作D.以上都不正确7.在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功?(D)A.Namenode,Datanode,TaskTrackerB.Namenode,Datanode,secondaryNameNodeC.Namenode,Datanode,HMasterD.Namenode,JobTracker,secondaryNameNode8.若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。(D)A.MaxB.MinC.CountD.Average得分评卷人题号12345678答案题号9101112131415答案第3页,共16页第4页,共16页…………○…………○…………内…………○…………装…………○…………订…………○…………线…………○…………9.MapReduce编程模型,键值对key,value的key必须实现哪个接口?(A)A.WritableComparableB.ComparableC.WritableD.LongWritable10.以下哪一项属于非结构化数据。(C)A.企业ERP数据B.财务系统数据C.视频监控数据D.日志数据11.HBase数据库的BlockCache缓存的数据块中,哪一项不一定能提高效率。(D)A.–ROOT-表B..META.表C.HFileindexD.普通的数据块12.HBase是分布式列式存储系统,记录按什么集中存放。(A)A.列族B.列C.行D.不确定13.HBase的Region组成中,必须要有以下哪一项。(B)A.StoreFileB.MemStoreC.HFileD.MetaStore14.客户端首次查询HBase数据库时,首先需要从哪个表开始查找。(B)A..META.B.–ROOT-C.用户表D.信息表15、设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。(A)A.分桶B.分区C.索引D.分表二、判断题(每题2分,共16分)请在下表中填写√或者×,写在试题后无效。1.Hadoop支持数据的随机读写。(hbase支持,hadoop不支持)(错)2.NameNode负责管理元数据信息metadata,client端每次读写请求,它都会从磁盘中读取或会写入metadata信息并反馈给client端。(内存中读取)(错)3.MapReduce的inputsplit一定是一个block。(默认是)(错)4.MapReduce适于PB级别以上的海量数据在线处理。(离线)(错)5.链式MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个。(对)6.MapReduce计算过程中,相同的key默认会被发送到同一个reducetask处理。(对)7.HBase对于空(NULL)的列,不需要占用存储空间。(没有则空不存储)(对)8.HBase可以有列,可以没有列族(columnfamily)。(有列族)(错)三、简答题(每小题5分,共20分)1.简述大数据技术的特点。答:Volume(大体量):即可从数百TB到数十数百PB、甚至EB规模。Variety(多样性):即大数据包括各种格式和形态的数据。Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。Veracity(准确性):即处理的结果要保证一定的准确性。Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业得分评卷人题号12345678答案得分评卷人第5页,共16页第6页,共16页…………○…………○…………内…………○…………装…………○…………订…………○…………线…………○…………___学院专业级班姓名学号价值。2.启动Hadoop系统,当使用bin/start-all.sh命令启动时,请给出集群各进程启动顺序。答:启动顺序:namenode–datanode-secondarynamenode-resourcemanager-nodemanager3.简述HBase的主要技术特点。答:(1)列式存储(2)表数据是稀疏的多维映射表(3)读写的严格一致性(4)提供很高的数据读写速度(5)良好的线性可扩展性(6)提供海量数据(7)数据会自动分片(8)对于数据故障,hbase是有自动的失效检测和恢复能力。(9)提供了方便的与HDFS和MAPREDUCE集成的能力。4.Hive数据仓库中,创建了以下外部表,请给出对应的HQL查询语句CREATEEXTERNALTABLEsogou_ext(tsSTRING,uidSTRING,keywordSTRING,rankINT,orderINT,urlSTRING,yearINT,monthINT,dayINT,hourINT)COMMENT'Thisisthesogousearchdataofextenddata'ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/sogou_ext/20160508';(1)给出独立uid总数的HQL语句答:selectcount(distinctUID)fromsogou_ext;(2)对于keyword,给出其频度最高的20个词的HQL语句答:selectkeywordfromsogou_extgroupbykeywordorderbyorderdesclimit20;四、设计题(每小题8分,共24分)1.100万个字符串,其中有些是相同的(重复),需要把重复的全部去掉,保留没有重复的字符串。请结合MapReduce编程模型给出设计思路或核心代码。P228PublicstaticclassProjectionMapextends得分评卷人第7页,共16页第8页,共16页…………○…………○…………内…………○…………装…………○…………订…………○…………线…………○…………MapperLongWritable,Text,Text,NullWritable{Privateintclo;Projectvoidsetup(Contextcontext)throwsIOException,InterruptedException{Col=context.getConfiguration().getInt(“col”,0);}Publicvoidmap(LongWritableoffset,Textline,Contextcontext){RelationArecord=newRelationA(line.toString());Context.write(newText(record.getCol(col)),NullWritable.get());}}REDUCE端实现代码:PublicstaticclassProjectionRediceextendsReducerText,NullWritable,Text,NullWritablePublicvoidreduce(Textkey,IterableNullWritablevalue,Contextcontext)throwsIOException,InterruptedException{Context.write(key,NullWritable.get());}2.倒排索引设计。有一个文档库,包含有大量的文档,现需要使用MapReduce编程技术对文档内容建立一个倒排索引库。要求Reduce最后输出键值对为单词,文件名#偏移量,并且前后输出的相同的key所对应的文件名是字典序的。如word1doc1#200word1doc2#10word2doc2#10假设在map阶段已经获取了当前split分片的文件名是Stringfilename。请按要求给出设计思路或核心代码。Map(){Stringfilename=fileSplit.getPath().getName();Stringtemp=newString();Stringline=value.toString().toLowerCase();StringTokenizeriter=newStringTokenizer(line);For(;itr.hasMoreTokens();){Temp=iter.nextToken();If(!stopwordscontains(temp)){Textword=newText();Word.set(temp+”#”+fileName);Context.write(word,newIntWritable(1));}}}Reducer{PrivateIntWritableresult=newIntWritable();Publicvoidreduce(Text,key,IterableIntWritablevalues,Contextcontext)throwsIOException,InterruptedException{Intsum=0;For(InWritableval:values){Sum+=val.get();第9页,共16页第10页,共16页…………○…………○…………内…………○…………装…………○…………订…………○…………线…………○…………___学院专业级班姓名学号}Result.set(sum);Context.write(key,result);}}3.请在下面程序的下划线中补充完整程序(共8处)。publicclassWordCount{publicstaticclassTokenizerMapperextendsMapperObject,Text,Text,IntWritable{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,Contextcontext){StringTokenizeritr=newStringTokenizer(value.toString()
本文标题:大数据核心技术A卷
链接地址:https://www.777doc.com/doc-7032609 .html