您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 云计算与大数据开发技术期中测试
第1页,共2页云计算与大数据开发技术期中测试1、大数据的4V特征是什么?1)海量的数据volume2)快速的数据产生与处理velocity3)多样的数据类型variety4)低价值密度value2、什么是结构化数据、非结构化数据以及半结构化数据?结构化数据:主要是指存储在关系型数据库中的数据;非结构化数据:不方便用关系型数据二维逻辑表来表现的数据。其中包括图片、音频、视频、模型、连接信息、文档、位置信息、网络日志等。存储在非关系型数据库中(NoSql);半结构化数据:数据的结构和内容混在一起,没有明显的区分。也存储在非关系型数据库中(NoSQL),非结构化的数据占多数。3、什么是云计算?云计算是一种通过互联网以服务的形式提供动态可伸缩的虚拟化资源的计算模式。4、Hadoop是什么?Hadoop是由Apache基金会所开发的分布式计算平台,它可以在计算机集群中对大型数据集进行分布式处理。Hadoop旨在从单个服务器扩展到数千台机器,每台机器都能供本地计算和存储。5、HDFS的设计理念有哪些?1)硬件失效(容忍硬件失效或者不依赖硬件)2)流式数据访问3)超大文件4)简化的数据一致性模型5)多硬件平台支持6)移动计算能力比移动数据更方便6、HDFS的适用场景和不适用场景分别有哪些?适用场景:1)大文件存储2)流式数据访问不适用场景:1)低时间延迟的数据访问2)大量的小文件3)多用户写入,任意修改文件7、(概述题)请详细描述一下MapReduce的计算过程。在启动MapReduce之前,确保待处理的文件放在HDFS中。先将数据集进行分片,分配到若干个计算节点执行Map函数,接着对Map函数输出的中间结果需要经过一个“Shuffle”过程(对中间结果进行分区、排序、组合、合并的操作),然后再将结果传递给Reduce任务,最后Reduce任务进行汇总计算。8、Yarn是什么?Yarn的作用是什么?是Hadoop2.0的资源管理器。它可以为上层应用提供统一的资源管理和调度,第2页,共2页它的引入为集群在利用率、资源统一管理和数据共享等方面带来了诸多好处。9、Hive的应用场景有哪些?1)数据挖掘:用户行为分析、兴趣分析、区域展示;2)非实时分析:网络日志分析、文本分析;3)数据汇总:用户点击量统计、流量统计;4)数据仓库:数据抽取、数据加载、数据转换;(ETL)10、Spark的适用场景有哪些?对比使用MapReduce的Hadoop,Spark有哪些优势?适用场景:1)数据处理,ETL(数据的抽取extract、转换transform、加载load)2)机器学习:是一门视图让计算机具备像人一样的学习能力,进而从海量数据中寻找出有用的知识的学科。3)交互式分析4)特别适用于迭代计算,数据重复利用场景。Spark的优势:1)性能上提升高于100倍;2)Spark中间数据放在内存中,对于迭代计算效率更高,进行批处理时更高效;3)更低的延迟4)Spark提供了更多的数据集操作类型,编程模型比Hadoop更灵活,开发效率更高5)更高的容错能力11、RDD、宽依赖、窄依赖分别是什么?RDD:弹性分布数据集,指的是一个只读的、可分区的分布式数据集。宽依赖:父RDD的每一个分区最多被一个子RDD分区所用。窄依赖:父RDD的每一个分区被多个子RDD的分区所用。12、什么是流数据?什么是静态数据?流数据是一组顺序、大量、快速、由数据源连续到达存储系统的数据序列,可被视为一个随时间延续而无限增长的动态数据集合。静态数据是记录后不变的数据,是一个固定的数据集。用户在查询时,静态数据已经被生成且不再发生改变。
本文标题:云计算与大数据开发技术期中测试
链接地址:https://www.777doc.com/doc-1807226 .html