您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 02 云计算与数据挖掘
云计算与数据挖掘Agenda云计算概念为什么要云计算虚拟化技术分布式技术云计算与数据挖掘什么是云计算云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务云计算的起源分布式计算、并行计算和网格服务于科学领域,云计算服务于企业和个人,是这些科学计算的商业实现虚拟化引发资源利用率讨论,软件行业需要按需付费使用普通的PC机构建超级计算机,冲破CPU摩尔定律云计算的向服务化发展云计算的七种应用SaaS软件即服务公用/效用计算云计算领域的Web服务PaaS平台即服务管理服务供应商(MSP)服务商用平台云计算集成云计算的架构和分类分布式技术虚拟化技术Agenda云计算概念为什么要云计算虚拟化技术分布式技术云计算与数据挖掘IT应用所面临的问题性能压力-数据超出想象的爆炸性增长高可用要求-信息系统建立在相对不可靠的硬件设备基础上需求增加-需求频繁变化、应用复杂多样维护难度-管理压力增加、维护成本成为新的关注点需要一种全新的IT架构以支撑IT应用的高速发展云计算的目标最具现实意义的定义:在不增加硬件基础设施投资,无须训练新员工或不购买新软件的前提下,来增加资源容量或提升计算性能的一种方法一个清晰的共识:云计算向服务化的方向在发展,无论是软件、数据、存储、安全,将来都可以通过服务的方式得以实现平台战胜产品:云计算提供一个服务平台。云计算平台加快需求实现的速度,细化服务粒度,提高系统伸缩性和可靠性电信应用领域:从IT支撑系统到移动互联,移动互联将引爆云计算为什么要云计算?web2.0的启示1.长尾:细分市场构成了互联网的大部分可能的应用程序,利用客户的自服务和算法上的数据管理来延伸到整个互联网,到达长尾而不仅仅是头部。2.数据是下一个IntelInside:应用程序越来越多地由数据驱动。因此:为获得竞争优势,应设法拥有一个独特的难于再造的数据资源。3.用户增添价值:web2.0优势的关键在于用户多大程度上会在你提供的数据中添加他们自己的数据。4.集体智慧:web2.0的优势来自于集体智慧,应确认采用的门槛要低。5.永远的测试版:程序已经不是软件作品了,它们是正在展开的服务。因此,不要将各种新特性都打包到集大成的发布版本中,而应作为普通用户体验的一部分来经常添加这些特性。吸引你的用户来充当实时的测试者,并且记录这些服务以便了解人们是如何使用这些新特性的。6.合作,而非控制:Web2.0的程序是建立在合作性的数据服务网络之上的。因此:提供网络服务界面和内容聚合,并重用其它人的数据服务。7.软件超越单一设备:PC不再是互联网应用程序的唯一访问设备。因此:从一开始就设计你的应用程序,使其集成跨越手持设备,PC机,和互联网服务器的多种服务。Agenda云计算概念为什么要云计算虚拟化技术分布式技术云计算与数据挖掘•在服务器中实现物理分区–小型机专用,技术成熟–高可靠性,故障隔离–高可扩充性–支持多种OS–代表产品如HP的nPar虚拟化App1App2OS1OS2HW1HW2App1App2OS1OS2Hypervisor/VMHWApp1App2OSHW硬件级虚拟化操作系统级虚拟化(虚拟机)应用级虚拟化•在服务器或物理分区内实现多个逻辑分区–支持多种OS–OS与硬件隔离–能支持虚拟机的在线迁移–灵活的资源控制–代表产品如IBM的lPar/Xen/VMware隔离性灵活性•在统一操作系统中为应用划分资源–解决应用的兼容性问题–应用环境隔离–低系统损耗–精细资源控制–代表产品如SUN的Containers虚拟化技术虚拟机动态迁移•实时迁移虚拟机到其他服务器•有效利用主机资源虚拟机克隆虚拟化常用技术虚拟机快照•保存虚拟机某一时刻的状态•备份硬盘、内存、CPU、BIOS信息•应用于测试、备份以及安全领域关键技术:服务器整合、冗余备份、灾难恢复、动态负载均衡、安全可信系统•虚拟机-虚拟机克隆•物理机-虚拟机克隆•简化数据中心的安装和配置•提高运维管理效率虚拟化技术应用企业数据中心整合IaaS云服务IDC整合降低IDC的运营成本,包括管理、硬件、基础架构、电力、软件方面;提升现有基础架构的价值;提升IT基础设施的灵活性,以应用为单位实现资源的动态分配;提高IDC的服务保障质量,提供快速容灾/恢复,集群配置等;提供更为轻松的自动化和管理功能。把计算、网络、存储等IT基础设置通过虚拟化后通过互联网提供服务;将多台服务器整合到一台或者少数几台服务器上,减少服务器数量;在单一服务器平台上运行多个应用,极大提升资源的利用率;实现数据中心资源的集中和自动化管理,降低IT运维成本;避免了旧系统的兼容问题,免除了系统维护和升级等一系列问题。虚拟化的误区整合服务器很简单虚拟化会自动降低能耗使用虚拟化更加安全桌面虚拟化能立竿见影节省成本虚拟化和云计算一样虚拟化的误区虚拟化使工作更轻松虚拟化只和技术有关Agenda云计算概念为什么要云计算虚拟化技术分布式技术云计算与数据挖掘云计算的挑战Google的云计算平台•Google云计算平台采用分布式技术•分布式计算是技术层面上的云计算Yahoo的Hadoop平台Apache的Hadoop开源项目是当前云计算开源技术的主流MapReduceHbase(BigTable)Zookeeper(Chubby)HDFS(GFS)基于Hadoop云计算开源技术已有商业应用Yahoo在4000节点集群上搭建Hadoop平台运行商业应用,包括Yahoo!OneSearchGoogle的云计算平台并行数据处理MapReduce结构化海量存储BigTable分布式锁Chubby分布式文件系统GFSMapReduceGFSGFSXGFS的关键:数据高可靠性多点存储:GFS设置一个数据复制因子n,当n大于1时,每份数据都会保存n-1份副本自动恢复:当一个节点失效导致其上的数据副本丢失时,GFS从其它的副本克隆一个新的副本出来,保证每份数据有n个拷贝存储节点选择:GFS根据每个节点的磁盘空间利用率选择新的副本的存储节点,平衡各个节点的空间利用率新加入节点:当有新的节点加入时,GFS会逐步的将数据存储在新节点上,而不是在马上将数据迁移过来GoogleBigTable定义结构化的分布式存储系统稀疏的,多维的,排序的Map索引:行关键字、列关键字、时间戳存储:按列族存储列族必须先创建(后期可增加)列可以随意写入时间戳允许存取多个版本,可以指定保留版本数分布式锁Chubby针对松散耦合分布式系统的锁服务;本身也是分布式系统;一个锁就是一个文件,创建文件就是加锁操作,创建成功即加锁成功,通过打开、关闭和读取文件来获取共享锁或独占锁;基本设计目标:高可用性、可靠性Agenda云计算概念为什么要云计算虚拟化技术分布式技术云计算与数据挖掘Kmeans聚类算法Kmeans处理流图转换数据文本文件向量数据引擎ClusterCenters相似度测量EnclideanDistanceMeasure收敛阈值convergenceThreshold迭代次数reducers向量数据向量数据读取输出聚类信息向量数据模型•DenseVector•RandomAccessSparseVector[Hash-Map]适合很多有0的多维数据,只存储非零的维数,提高内存利用率;访问dimension的值比DenseVector要稍微慢点;顺序访问维非常慢。•SequentialAccessSparseVector分布式数据挖掘模型引擎调度器算法mappermappermapperreducerreducerreducer输入数据演示案例--分布式聚类15014015250.5660870.6760120120130250160660.2760.1150140140250160770.6660生成三个聚类聚类中心每个聚类的点每个聚类的半径
本文标题:02 云计算与数据挖掘
链接地址:https://www.777doc.com/doc-3748471 .html