您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 先进性技术专题讲座报告_大数据云计算及分布式
1大数据、云计算及分布式浅析——先进性技术专题报告2目录1大数据...................................................................................................................................31.1数据挖掘(DataMining)..............................................................................................41.2机器学习(MachineLearning)....................................................................................52云计算...............................................................................................................................62.1虚拟技术........................................................................................................................73分布式...............................................................................................................................83.1分布式数据库............................................................................................................83摘要:大数据(bigdatascience)和云计算(cloudcomputing)是当今信息时代下,最具发展前景的热门领域,无疑是信息工业革命中的又一次令人兴奋的技术浪潮,该领域的迅猛发展将会在相关的项目领域带来概念以及技术上的颠覆性改变,同时也会对人类的生活方式和对信息的认知模式带来巨大的冲击。分布式(distributedsystem)的发展为大数据与云计算在技术上奠定了实现的基础,大数据的处理分析需要庞大的计算能力,云计算为此提供强有力的支持,而云计算的本质就是分布式系统,将无数在空间上分离的计算机资源汇聚到一起,形成一个巨大的资源池,用户根据自己的需要从中获取所需的云平台资源,这一过程运用到了虚拟化技术(virtualization),将无数物理上隔离的并且计算能力有限的计算机虚拟化成了一个计算能力相当可观的资源池,对于用户而言这些物理计算机是透明的,他们只需要关心自己实际获取到的资源。事实上这也正是阿里巴巴在去IOE化过程中应用的技术,采用开源软件在水平方向上进行拆分和分布式部署,具有很强的实际参考意义。1大数据大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。在一份2001年的研究与相关的演讲中,麦塔集团(METAGroup,现为高德纳)分析员道格·莱尼(DougLaney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(dataset)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。截至2012年,技术上可在合理时间内分析处理的数据集大小单位为艾字节(exabytes)。在许多领域,由于数据集过度庞大,科学家经常在分析处理上遭遇限制和阻碍;这些领域包括气象学、基因组学、神经网络体学、复杂的物理模拟,以及生物和环境研究。这样的限制也对网络搜索、金融与经济信息学造成影响。数据集大小增长的部分原因来自于信息持续从各种来源被广泛收集,这些来源包括搭载感测设备的移动设备、高空感测科技(遥感)、软件记录、相机、麦克风、无线射频辨识(RFID)和无线感测网络。自1980年代起,现代科技4可存储数据的容量每40个月即增加一倍;截至2012年,全世界每天产生2.5艾字节(2.5×1018字节)的数据。大数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”。大数据的定义取决于持有数据组的机构之能力,以及其平常用来处理分析数据的软件之能力。“对某些组织来说,第一次面对数百GB的数据集可能让他们需要重新思考数据管理的选项。对于其他组织来说,数据集可能需要达到数十或数百兆字节才会对他们造成困扰。”随着大数据被越来越多的提及,有些人惊呼大数据时代已经到来了,2012年《纽约时报》的一篇专栏中写到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。但是并不是所有人都对bigdata感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的buzzword,看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。1.1数据挖掘(DataMining)数据挖掘(Datamining),又译为资料探勘、数据挖掘、数据采矿。它是数据库知识发现(英文:Knowledge-DiscoveryinDatabases,缩写:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Associationrulelearning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘有以下这些不同的定义:“从数据中提取出隐含的过去未知的有价值的潜在信息”“一门从大量数据或者数据库中提取有用信息的科学。”尽管通常数据挖掘应用于数据分析,但是像人工智能一样,它也是一个具有丰富含义的词汇,可用于不同的领域。它与KDD的关系是:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。事实上,在现今的文献中,这两个术语经常不加区分的使用。数据挖掘的方法包括监督式学习、非监督式学习、关系分组(AffinityGrouping,作关系性的分析)与购物篮分析(MarketBasketAnalysis)或者称为关联规则分析、聚类(Clustering)与描述(Description)。监督式学习包括:分类、估计、预测。数据挖掘是因为海量有用数据快速增长的产物。使用计算机进行历史数据分析,1960年代数字方式采集数据已经实现。1980年代,关系数据库随着能够适应动态按需分析数据的结构化查询语言发展起来。数据仓库开始用来存储大量的数据。因为面临处理数据库中大量数据的挑战,于是数据挖掘应运而生,对于这些问题,它的主要方法是数据统计分析和人工智能搜索技术。51.2机器学习(MachineLearning)机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。机器学习有下面几种定义:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。“机器学习是对能通过经验自动改进的计算机算法的研究”。“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”一种经常引用的英文定义是:AcomputerprogramissaidtolearnfromexperienceEwithrespecttosomeclassoftasksTandperformancemeasureP,ifitsperformanceattasksinT,asmeasuredbyP,improveswithexperienceE.机器学习可以分成下面几种类别:监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。半监督学习介于监督学习与无监督学习之间。增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。具体的机器学习算法有:构造条件概率:回归分析和统计分类人工神经网络决策树高斯过程回归线性判别分析最近邻居法感知器径向基函数核6支持向量机通过再生模型构造概率密度函数:最大期望算法graphicalmodel:包括贝叶斯网和Markov随机场GenerativeTopographicMapping近似推断技术:马尔可夫链蒙特卡罗方法变分法最优化:大多数以上方法,直接或者间接使用最优化算法。2云计算云计算(英语:CloudComputing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。云计算是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变。用户不再需要了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制。云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。在“软件即服务(SaaS)”的服务模式当中,用户能够访问服务软件及数据。服务提供者则维护基础设施及平台以维持服务正常运作。SaaS常被称为“随选软件”,并且通常是基于使用时数来收费,有时也会有采用订阅制的服务。推广者认为,SaaS使得企业能够借由外包硬件、软件维护及支持服务给服务提供者来降低IT营运费用。另外,由于应用程序是集中供应的,更新可以实时的发布,
本文标题:先进性技术专题讲座报告_大数据云计算及分布式
链接地址:https://www.777doc.com/doc-2698440 .html