您好,欢迎访问三七文档
西安科技大学计算机科学与技术学院实习报告课程:大数据和并行计算班级:网络工程姓名:学号:前言大数据技术(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。特点具体有:大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。1.大数据概念及分析毫无疑问,世界上所有关注开发技术的人都意识到“大数据”对企业商务所蕴含的潜在价值,其目的都在于解决在企业发展过程中各种业务数据增长所带来的痛苦。现实是,许多问题阻碍了大数据技术的发展和实际应用。因为一种成功的技术,需要一些衡量的标准。现在我们可以通过几个基本要素来衡量一下大数据技术,这就是——流处理、并行性、摘要索引和可视化。大数据技术涵盖哪些内容?1.1流处理伴随着业务发展的步调,以及业务流程的复杂化,我们的注意力越来越集中在“数据流”而非“数据集”上面。决策者感兴趣的是紧扣其组织机构的命脉,并获取实时的结果。他们需要的是能够处理随时发生的数据流的架构,当前的数据库技术并不适合数据流处理。1.2并行化大数据的定义有许多种,以下这种相对有用。“小数据”的情形类似于桌面环境,磁盘存储能力在1GB到10GB之间,“中数据”的数据量在100GB到1TB之间,“大数据”分布式的存储在多台机器上,包含1TB到多个PB的数据。如果你在分布式数据环境中工作,并且想在很短的时间内处理数据,这就需要分布式处理。1.3摘要索引摘要索引是一个对数据创建预计算摘要,以加速查询运行的过程。摘要索引的问题是,你必须为要执行的查询做好计划,因此它有所限制。数据增长飞速,对摘要索引的要求远不会停止,不论是长期考虑还是短期,供应商必须对摘要索引的制定有一个确定的策略。1.4数据可视化可视化工具有两大类。探索性可视化描述工具可以帮助决策者和分析师挖掘不同数据之间的联系,这是一种可视化的洞察力。叙事可视化工具被设计成以独特的方式探索数据。数据会按照地域逐月展示,并根据预定义的公式排序。2.并行处理2.1并行处理技术-概念并行性是指在同一时刻或同一时间间隔内完成两种或两种以上性质相同或不相同的工作,只要在时间上互相重叠,都存在并行性。计算机系统中的并行性可从不同的层次上实现,从低到高大致可分为:2.1.1指令内部的并行:是指指令执行中的各个微操作尽可能实现并行操作。2.1.2指令间的并行:是指两条或多条指令的执行是并行进行的。2.1.3任务处理的并行:是指将程序分解成可以并行处理的多个处理任务,而使两个或多个任务并行处理。2.1.4作业处理的并行:是指并行处理两个或多个作业。如多道程序设计、分时系统等。另外,从数据处理上,也有从低到高的并行层次。2.1.5字串位并:同时对一个二进制字的所有位进行操作。2.1.6字并位串:同时对多个字的同一位进行操作。2.1.7全并行:同时对许多字的所有位进行操作。2.2三种形式2.2.1时间并行时间并行指时间重叠,在并行性概念中引入时间因素,让多个处理过程在时间上相互错开,轮流重叠地使用同一套硬件设备的各个部分,以加快硬件周转而赢得速度。?时间并行性概念的实现方式就是采用流水处理部件。这是一种非常经济而实用的并行技术,能保证计算机系统具有较高的性能价格比。目前的高性能微型机几乎无一例外地使用了流水技术。2.2.2空间并行空间并行指资源重复,在并行性概念中引入空间因素,以“数量取胜”为原则来大幅度提高计算机的处理速度。大规模和超大规模集成电路的迅速发展为空间并行技术带来了巨大生机,因而成为实现并行处理的一个主要途径。空间并行技术主要体现在多处理器系统和多计算机系统。但是在单处理器系统中也得到了广泛应用。2.2.3时间并行+空间并行指时间重叠和资源重复的综合应用,既采用时间并行性又采用空间并行性。显然,第三种并行技术带来的高速效益是最好的。2.3并行计算机21世纪的计算机系统在不同层次上采取了并行措施,只有当并行性提高到一定层次时,具有了较高的并行处理能力,才能称为“并行处理系统”。一般有以下三种并行措施。2.3.1时间重叠时间重叠是在并行性概念中引入时间因素,即多个处理过程在时间上相互错开,轮流重叠地使用同一套硬件设备的各个部件,以加快硬件周转而赢得速度。这各并行措施表现在指令解释的重叠及流水线部件与流水线处理机。2.3.2资源重复资源重复是在并行性概念中引入空间因素。这种措施提高计算机处理速度最直接,但由于受硬件价格昂贵的限制而不能广泛使用。目前,随着硬件价格的降低,已在多种计算机系统中使用,如多处理机系统、陈列式处理机等。2.3.3资源共享资源共享也是在并行性概念中引入时间因素,它是通过软件的方法实现的。即多个用户按一定的时间顺序轮流使用同一套硬件设备;既可以是按一定的时间顺序共享CPU,也可以是CPU与外围设备在工作时间上的重叠。这种并行措施表现在多道程序和分时系统中,而分布式处理系统和计算机网络则是更高层次的资源共享。并行计算机具有代表性的应用领域有:天气预报建摸、VLSI电路的计算机辅助设计、大型数据库管理、人工智能、犯罪控制和国防战略研究等,而且它的应用范围还在不断地扩大。并行处理技术主要是以算法为核心,并行语言为描述,软硬件作为实现工具的相互联系而又相互制约的一种结构技术。本文就并行处理技术的算法策略、描述性定义及软硬件方面的实现做一个简单的介绍。2.4并行算法的基本策略在并行处理技术中所使用的算法主要遵循三种策略:2.4.1分而治之法:也就是把多个任务分解到多个处理器或多个计算机中,然后再按照一定的拓扑结构来进行求解。2.4.2重新排序法:分别采用静态或动态的指令词度方式。2.4.3显式/隐式并行性结合:显式指的是并行语言通过编译形成并行程序,隐式指的是串行语言通过编译形成并行程序,显式/隐式并行性结合的关键就在于并行编译,而并行编译涉及到语句、程序段、进程以及各级程序的并行性。2.5并行软件并行软件可分成并行系统软件和并行应用软件两大类,并行系统软件主要指并行编译系统和并行操作系统,并行应用软件主要指各种软件工具和应用软件包。在软件中所牵涉到的程序的并行性主要是指程序的相关性和网络互连两方面。程序的相关性主要分为数据相关、控制相关和资源相关三类。2.5.1数据相关:说明的是语句之间的有序关系,主要有流相关、反相关、输出相关、I/O相关和求知相关等,这种关系在程序运行前就可以通过分析程序确定下来。数据相关是一种偏序关系,程序中并不是每一对语句的成员都是相关联的。可以通过分析程序的数据相关,把程序中一些不存在相关性的指令并行地执行,以提高程序运行的速度。2.5.2控制相关:是语句执行次序在运行前不能确定的情况。它一般是由转移指令引起的,只有在程序执行到一定的语句时才能判断出语句的相关性。控制相关常使正在开发的并行性中止,为了开发更多的并行性,必须用编译技术克服控制相关。2.5.3网络互连将计算机子系统互连在一起或构造多处理机或多计算机时可使用静态或动态拓扑结构的网络。静态网络由点一点直接相连而成,这种连接方式在程序执行过程中不会改变,常用来实现集中式系统的子系统之间或分布式系统的多个计算结点之间的固定连接。动态网络是用开关通道实现的,它可动态地改变结构,使之与用户程序中的通信要求匹配。动态网络包括总线、交叉开关和多级网络,常用于共享存储型多处理机中。在网络上的消息传递主要通过寻径来实现。常见的寻径方式有存储转发寻径和虫蚀寻径等。2.6发展概况遵循不同的技术途径,采用不同的并行措施,在不同的层次上实现并行性的过程,反映了计算机体系结构向高性能发展的自然趋势。在单处理机系统中,主要的技术措施是在功能部件上,即改进各功能部件,按照时间重叠、资源重复和资源共享形成不同类型的并行处理系统。在单处理机的并行发展中,时间重叠是最重要的。把一件工作分成若干相互联系的部分,把每一部分指定给专门的部件完成,然后按时间重叠措施把各部分执行过程在时间上重叠起来,使所有部件依次完成一组同样的工作。多机系统是指一个系统中有多个处理机,它属于多指令流多数据流计算机系统。按多机之间连接的紧密程度,可分为紧耦合多机系统和松耦合多机系统两种。在多机系统中,按照功能专用化、多机互连和网络化三个方向发展并行处理技术。功能专用化经松散耦合系统及外围处理机向高级语言处理机和数据库机发展。多机互连是通过互联网络紧密耦合在一起的、能使自身结构改变的可重构多处理机和高可靠性的容错多处理机。计算机网络是为了适应计算机应用社会化、普及化面发展起来的。它的进一步发展,将满足多任务并行处理的要求,多机系统向分布式处理系统发展是并行处理的一种发展趋势。3.并行处理在大数据时代的挑战对大数据来讲最主要的是在模型中做计算的约束是非常大的。我们看BSP模型,为什么在过去用到高性能计算上,今天在大数据不能用。之后再做并行计算,之后再做篡数,过去做的所有的高性能计算都是围绕这个模型来的。今天为什么要做并行计算,并行计算给我们带来了什么样的障碍?2011年10PB的数据用了6小时27分钟。我们比较要有非常高的并行度。我们在高并行度下面遇到的第一个困难是,没有特殊的通信硬件来给我们支持。这不像高性能计算。另外,当你放下了数据以后是不能传输的,基本上是不能动的。我们必须要有高可用性的大数据。
本文标题:大数据与并行计算
链接地址:https://www.777doc.com/doc-7868299 .html